Machine Learning Casual Talks 13回目を開催

Human In The Loop 🧐 🤝 🤖 を題材にした機械学習の勉強会を開催した

先日の記事で告知した1のですが、昨夜、「Human In The Loop」を題材にした勉強会を開催してきました。 実際に Human In The Loop を扱った MLOps の論文2 を過去に書いているくらい興味のある分野なので、この領域を盛り上げていくために開催できてよかった。 オンライン勉強会でしたので、配信動画を Youtube で公開しております。 Human In The Loop に興味のある方はぜひご覧ください。 Machine Learning Casual Talks #13 (Online) 各発表について 各発表の説明は割愛して、一言感想を述べさせていただきます。 Editors-in-the-loop なニュース記事要約システムの提案 by @upura 業務成果を国際会議のワークショップに通されたの素晴らしいですね 👏 (自分も論文を出したことがありますが)、論文を書くことが目的ではない職種で論文を出すのはそもそも体力が必要なので、提出してなおかつ採択されたのは素晴らしいの一言! Active Learning for Auto Annotation by @tkc79 自分たちのプロダクトで実際に能動学習の効果を検証して学びを得るというのは得難い経験ですね。尊い! 実際にやってみた上での実践的な経験を語ってくれたのが面白かったです。 NeurIPS Data-Centric AI Workshop by @K_Ryuichirou Data Centric AI Workshop の要約を話して頂きました。 The Godfather of MLOps である D.Sculley さん 3が 「Technical Debt in ML: A Data-Centric View」の話をされていたらしいのですが、これは見なければ…!...

March 31, 2022 Â· Shunya Ueta

機械学習モデルの改善手法の一つ、 Human In The Loop について

Human In The Loop は、機械学習のモデルのライフサイクルに人が介在することにより、機械学習モデルの改善を目指す手法。 Human In The Loop の定義 YANS2021 で公開された馬場先生の Human-in-the-Loop 機械学習 / Human-in-the-Loop Machine Learning の資料は、現状の HITL の取り組みをわかりやすく説明してくれています。 ここでの Human In The Loop の定義が一番明瞭かなと個人的には思っており、 Q. より良いモデルを効率的に学習するために人間をどう活用するか? と書かれています。 Human In The Loop はちょっと意味が広めになりがちな言葉でもあるなと個人的には思っており、機械学習モデルの出力を使ってアノテーションを行う能動学習(Active Learning)の事を主に意味していることが多いが、もう少し広めの機械学習モデルのライフサイクルの中に、人間によるデータのレビューを設置すること 1 でも使われたりする。 が、根本的には馬場先生の定義したリサーチクエスチョンに帰結しますね。 日本語の書籍だと、 鹿島先生、小山先生、馬場先生らの ヒューマンコンピュテーションとクラウドソーシング 喜連川先生、森嶋先生らのクラウドソーシングが不可能を可能にする: 小さな力を集めて大きな力に変える科学と方法 などがデータをどうやって効率的に多数の人間の手によって取得していくかの領域を扱っている書籍。 英語の書籍だと Human-in-the-Loop Machine Learning: Active learning and annotation for human-centered AI がドンピシャの内容ですね。 中身は、能動学習とアノテーションの実践的知識について書かれています。 チョット前に見かけたこの資料は 人間参加型の AI 活用 (Human-in-the-loop) Human In The Loop について浅く広くまとめられていているので、Human In The Loop の概観を知りたい人には良いかも知れない。...

March 22, 2022 Â· Shunya Ueta
機械学習プロジェクトの努力配分のギャップ

Googleによる機械学習の実応用をテーマにしたCoursera の講義は、機械学習プロジェクトに携わるなら一度は見ておいても損はない

過去に執筆した記事1を見返していたら そういえば講師陣がめちゃくちゃ良いこと言ってるんだけど記事内に掲載してなかったなと思い、動画を見返すと今でも学びが多かったので、講義のスクリーンショットを見返しつつ筆をとってみた。 今見たら、日本語版の講義 How Google does Machine Learning 日本語版も公開されているので、興味の湧いた方はぜひ受講しましょう。Certificate を発行しないなら無料で受講できると思います。 講義内容の説明は、過去記事1で行っているので気になる方は御覧ください。 機械学習プロジェクトの努力の割当: 期待と現実 ML Surprise _https://www.coursera.org/learn/google-machine-learning/lecture/aUjhG/ml-surprise_ Hidden Technical Debt in Machine Learning Systemsと同じ話ですね。上記の論文でよく参照される図よりも、 Hidden Technical Debt in Machine Learning Systems から引用 機械学習プロジェクトを KPI の定義 データ収集 インフラ構築 モデルの最適化 システムインテグレーション 上の 5 項目で分けて、棒グラフの各項目が割合と順序を示しているので更にわかりやすいですね。 機械学習のシステム面かプロジェクト面のどちらに注力しているかという話ですが、プロジェクト面まで包括して説明しているのは良いですね。 機械学習で避けるべき上位 10 個の落とし穴 The secret sauce _https://www.coursera.org/learn/google-machine-learning/lecture/BdsV6/the-secret-sauce_ 講師陣が Google 内部でのインタビューを行い、機械学習プロジェクトのアンチパターンのランキング Top10 を公開してくれています。 アンチパターンの列挙ですが、肯定文と否定文が混じっているので、否定文で統一しています。 機械学習の知識と同じくらい、ソフトウェア開発とインフラストラクチャの知識・経験を要求される まだデータを収集していなかった データが既に使える状態だと仮定していた...

March 17, 2022 Â· Shunya Ueta
ROSE の概要

Amazon の製品検索で使われるロバストなキャッシュ手法の論文「ROSE: Robust Caches for Amazon Product Search」

Web 検索とデータマイニングのトップカンファレンス WSDM2022 のワークショップで The First International Workshop on INTERACTIVE AND SCALABLE INFORMATION RETRIEVAL METHODS FOR ECOMMERCE (ISIR-ecom) が先日開催された。 テーマは e コマース上での検索において 検索システムのスケーラビリティ どうやって適合性(Relevancy)をシステムで改善したか システムの改善 についてをテーマにした検索エンジニアなら垂涎もののワークショップとなっている。 同様の検索システムや実応用に注目したワークショップでは、以下のようなワークショップがある。 SIGIR Workshop On eCommerce 2017 年から毎年開催。累計 5 回開催 International Workshop on Industrial Recommendation Systems 2020 年から開催。累計二回 歴史としては、 SIGIR ecom が長く、これだけの期間継続開催してくれているのはありがたい限り。 機械学習系の国際会議でも手法ではなく、どう現実世界に適用したかに注目したワークショップが益々誕生しており非常に良い流れ。 ACCEPTED PAPERS は 5 本あり、 Amazon: 2 eBay: 1 The Home depot: 2 と企業関係者による論文が 100%となっている。 https://github.com/ISIR-eCom/ISIR-eCom.github.io/tree/main/papers 最後の PDF 番号が 9 なので、最低でも 9 本の投稿はあった模様。...

March 3, 2022 Â· Shunya Ueta

オンライン開催前提だからこそ可能な省エネ勉強会運営 ~勉強会運営再開してみた~

自分はMachine Learing Casual Talksという勉強会の運営を @chezou さん、 @tetsuroito さん、 @komiya_atsushi さんの運営陣に合流する形で 2018/7 に再開しました。 もともと自分は根底として勉強会運営が好きで、つくばにいた頃から、tsukuba.rb や PRML勉強会などの勉強会運営をしていたというのもある。 詳しい経緯は過去に記事に書いていた。 見返すとなかなかにエモい文章ですね。 Machine Learning Casual Talks #5 を開催しました その後子供が産まれる直前の 2020/05 に12 回目を開催して以降、育児で時間的・精神的余裕がなくなって開催が途絶えてしまっていた。 2021/06 に社内チャットで、 育児で運営が途絶えてしまったんですが、皆さんどう克服しましたか? という質問したら、要約すると @lestrrat さん 燃え尽きてもいいじゃないか by @lestrrat @sinmetal さん 志低く、無くならないようにしようぐらいの気持ちです。 と多種多様な考えを聞けて自分の中でも色々と考えが深まりました。 当時の僕の反応を拾ってみるとこんな感じ 志が低いというのはとても良いですね。存続させるの大事だなぁと痛感してます:relaxed: 僕も学生でつくばにいた頃東京の勉強会は参加できないけど、資料公開してくれるのありがてぇ、そしてこの分野(機械学習エンジニア) に興味あるけどそもそも鶏卵問題で経験がないと参入できないから知見を公開してくれるの助かるなぁという思い出があったなと今思い出しました w 今は実務でバリバリ触れているからこそ初心を忘れてしまったのかもしれないので、情報発信の大事さを今一度噛み締めました で、 2022/02 の現在ふとリアル開催?の時に比べるとオンライン開催ってめちゃくちゃ省エネで開催できるなと気が付きました…! 開催の手間 やるべきことを簡単に洗い出してみます。 共通部分 開催前 登壇者探す connpass 作成 Twitter 告知 当日 Twitter 実況 司会 リアル開催 数ヶ月前 会場確保(自分の場合メルカリの会場を毎回スポンサーとしてお借りしていた)。なぜならメルカリが勉強会会場として高頻度で使われるのでハコを抑えるのが毎回激戦区だった。 スポンサーしてもらうために申請 当日(会社にて) 開催ビルで準備。入場用の道具(入場用、案内用の看板設営、ポスター印刷して看板に挿入) 開始時間 1 時間前から動き出す 懇親会のデリバリー受け取り、配備 会場の音響設備、接続確認 100 個以上の椅子や机を勉強会スタイルに並び替える(これがマンパワーが必要で地味にきつい、これを運営のみんなでやっていた) 登壇者全員の接続確認 懇親会終了後撤収 ゴミなどがちゃんとゴミ箱に捨てられているかの確認と清掃 机・椅子などもきれいに全部拭いて、元の形に戻す。基本的に準備したものをすべてもとに戻していく 9 回目以降は、撤収ボランティア枠を設けて手伝ってもらっていた。確か 8 回目の時に @keisuke_umezawa さんや @nasuka さんが手伝いますよと自発的に行ってもらえてめちゃくちゃ感激した覚えがある(実際は 4-5 人に手伝ってもらいましたが全員は覚えてないです、すみません)。この場面は本当~に良い記憶として残っている。なんか運営していてよかったと思った一番の記憶かもしれない。その後毎回無償で手伝ってもらうのは申し訳ないので、抽選枠ではなく、ボランティア枠と撤収作業を手伝ってもらえると、確実に勉強会に参加できますよという仕組みを作った覚えがある。 21:30 に撤収開始で、終わるのは 22:30 くらい。帰宅は日付が変わるか変わらないかという感じ オンライン開催 前日 配信が問題なくできているかのリハーサル 当日(自宅にて) 開催 30m 前に登壇者にビデオチャットに参加していただき、接続確認 懇親会終了後、そこはすでに自宅。例えば 23 時に終わったとしても、23 時には家にいるこれって凄い。 とオンライン開催のコストは比類できないほど低いことがわかりますね。...

February 22, 2022 Â· Shunya Ueta