機械学習プロジェクトの努力配分のギャップ

Googleによる機械学習の実応用をテーマにしたCoursera の講義は、機械学習プロジェクトに携わるなら一度は見ておいても損はない

過去に執筆した記事1を見返していたら そういえば講師陣がめちゃくちゃ良いこと言ってるんだけど記事内に掲載してなかったなと思い、動画を見返すと今でも学びが多かったので、講義のスクリーンショットを見返しつつ筆をとってみた。 今見たら、日本語版の講義 How Google does Machine Learning 日本語版も公開されているので、興味の湧いた方はぜひ受講しましょう。Certificate を発行しないなら無料で受講できると思います。 講義内容の説明は、過去記事1で行っているので気になる方は御覧ください。 機械学習プロジェクトの努力の割当: 期待と現実 ML Surprise _https://www.coursera.org/learn/google-machine-learning/lecture/aUjhG/ml-surprise_ Hidden Technical Debt in Machine Learning Systemsと同じ話ですね。上記の論文でよく参照される図よりも、 Hidden Technical Debt in Machine Learning Systems から引用 機械学習プロジェクトを KPI の定義 データ収集 インフラ構築 モデルの最適化 システムインテグレーション 上の 5 項目で分けて、棒グラフの各項目が割合と順序を示しているので更にわかりやすいですね。 機械学習のシステム面かプロジェクト面のどちらに注力しているかという話ですが、プロジェクト面まで包括して説明しているのは良いですね。 機械学習で避けるべき上位 10 個の落とし穴 The secret sauce _https://www.coursera.org/learn/google-machine-learning/lecture/BdsV6/the-secret-sauce_ 講師陣が Google 内部でのインタビューを行い、機械学習プロジェクトのアンチパターンのランキング Top10 を公開してくれています。 アンチパターンの列挙ですが、肯定文と否定文が混じっているので、否定文で統一しています。 機械学習の知識と同じくらい、ソフトウェア開発とインフラストラクチャの知識・経験を要求される まだデータを収集していなかった データが既に使える状態だと仮定していた...

March 17, 2022 Â· Shunya Ueta

Offers Magazine というメディアに、エンジニアによる業務実績の論文化について寄稿した

少し前のことだが、Offers Magazine さんに、「エンジニアによる業務実績の論文化」をテーマとして寄稿した。 機械学習エンジニアの学会での論文発表のススメ。応募から査読通過までの流れ メディアに寄稿するのは初めてなので良い経験になった。 会社によっては業務成果を論文提出まで持っていくまでに難しい会社もあるかと思いますが、それに見合った対外的な成果を得れたので本当にやってよかったと思える。 USENIX は、MLOps に限らずシステムやセキュリティ、SRE 領域など、ソフトウェアエンジニア領域で幅広く投稿できるので、自分の成果を引用可能な形式で残したい人にはぜひ投稿してみたほしい。 素晴らしい仕組みを USENIX は提供していると思う。 何より自分にとって、この分野のエキスパートのレビュアーからこの成果を対外発表するのは非常にリスペクトするとコメントをいただけたりして、良い刺激になった。 論文公開して一年と少しが経過して、先日 Google Scholar を確認すると引用数が 1 になっていて非常に嬉しい!! Auto Content Moderation in C2C e-Commerce citation 2021 年には、機械学習エンジニアから検索エンジニアになったが、この分野も論文化できそうなネタが無限にあるので時間はかかるだろうが 2023 年には論文提出ができる段階になりたい(否、なる)。

December 7, 2021 Â· Shunya Ueta

2021年05月時点で自分が実践しているMLOpsの情報収集方法

先日、同僚に「機械学習プロジェクトに興味があるんだけど、おすすめの資料があったら教えてほしい」と言われたので、Blog 記事に現時点でのおすすめの資料としてまとめておいたら、数年後見返したら面白そうだと思ったので記事として公開しておく。 おすすめの資料 プロジェクトマネジメントや考え方、思想 How Google does Machine Learning これは機械学習を実応用する人たちにはぜひ見てほしいビデオ講義。前半が、機械学習プロジェクトの計画や、優先順位、よくあるアンチパターンについて GCP で機械学習について多く関わってきたエンジニアが解説してくれていて、非常に勉強になる。 感想記事 リーン・スタートアップ ムダのない起業プロセスでイノベーションを生みだす 顧客が求めるものを作ろう。機械学習にこだわったらまずだめなので… (詳しくは後述の Rules of ML を呼んでみよう。) 関連する良いフレームワークとして @nishio さんの機械学習キャンバス もおすすめです。 Make something people want. by Paul Graham 人によって意見が別れるところではありますが、機械学習エンジニアとして、これがなぜ機械学習で必要なのかの「なぜ」を説明できないとたいてい上手く行かない経験がある。つまるところ、必要とされるものを見つけ出して作っていこうぜということですね Netflix がカスタマーを誰よりも理解するためのデータ分析プロセス、コンシューマー・サイエンスの紹介 カスタマーオブセッションの考え方を、常に心のなかに秘めつつ世の中を良くするプロダクトを作りたい MLOps, 機械学習エンジニアリング Rules of Machine Learning 全員これを毎日読もう。聖書 仕事ではじめる機械学習 第 2 版 MLCT 創始者の @chezou さんが筆頭に書き上げた実践的な機械学習本。日本人で機械学習をやりたいならまずこれを買うべし。 AI アルゴリズムマーケティング 自動化のための機械学習/経済モデル、ベス トプラクティス、アーキテクチャ 邦訳だとべらぼうに怪しい感じになってしまっているが、内容はとんでもなく素晴らしい。マーケティングのために機械学習を適用することが多いと思うが、かなり網羅的に適用例を解説してくれている。原著の英語は無料なので、中身が気になる人はそちらをおすすめする。無料公開偉大すぎる MLOps: 機械学習における継続的デリバリーと自動化のパイプライン GCP による MLOps の解説。人によって、MLOps の定義って差異がありますが、自分はここで語られている ML システム構築のすべてのステップで自動化とモニタリングを推進できます こそが、 MLOps の骨子だなと思っています。クラウドサービスは、開発に関係する知識をパターン化して、資料を公開してくれるのでありがたいですね。 Google Cloud で機械学習を実装するためのベスト プラクティス この資料なんかは、GCP で機械学習を実践したい場合にはまず見ておけば困ることはなさそうですね 各クラウドサービスの MLOps の white paper AWS, Azure は普段使わないので深く言及しませんが、同様の資料は公開されたりしています。 Practitioner Guide to MLOps by GCP MLOps: Continuous Delivery for Machine Learning on AWS Azure Best practices for MLOps - DevOps for machine learning....

May 29, 2021 Â· Shunya Ueta

TFXの歴史を振り返りつつ機械学習エンジニアリングを提案する論文「Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX)」

この記事はMLOps Advent Calendar 2020の 25 日目の記事です。(盛大に遅れました) KDD2019 の招待講演で Google が TFX の歴史について発表されており、TFX 信者の自分としては発表内容が以前から気になっていたが、公開はされておらずなんとかして見れないかな~と思っていましたが、TensorFlow の Blogで該当の招待講演が論文化されたことを知ったのでメモがてら抄訳として残しておく。 注意)この翻訳記事は原著論文の著者陣からレビューはされていません Shunya Ueta, are providing a translation and abridgment, which has not been reviewed by the authors. Citation Karmarkar, A., Altay, A., Zaks, A., Polyzotis, N., Ramesh, A., Mathes, B., … & Li, Z. (2020). Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX). arXiv preprint arXiv:2010.02013. *** Towards ML Engineering with TensorFlow Extended (TFX) at KDD2019 Towards ML Engineering with TensorFlow Extended (TFX) ACM PDF は arxiv でも閲覧可能 https://arxiv....

January 17, 2021 Â· Shunya Ueta
C2C eコマースにおける機械学習を活用した商品監視

MLOps の国際会議 OpML'20 に、機械学習を活用した商品監視の改善に関する論文が採択されたので登壇してきた

MLOps の査読付き国際会議 2020 USENIX Conference on Operational Machine Learning (略称 OpML’20)に論文が採択されたので、登壇してきた。 Podcast でも紹介しました。 #1 MLOps の国際会議 OpML20 について at just4fun.fm MLOps の査読付き国際会議と OpML の立ち位置 機械学習エンジニアリング・MLOps の領域の会議でも一番有名なものとして 2018 年に発足したMLSysがあります。(ちなみに最初は SysML という名前でした) このカンファレンスの傾向としては、アカデミアの研究者主体の発足経緯からアカデミアからインダストリーへの橋渡し的立ち位置となっています。 具体的には、発表者はアカデミアの方が大半でハードウェアから、モデルの OSS 公開など幅広く機械学習エンジニアリング・MLOps の周辺領域をカバーしています。 OpML はその一年後に、USENIXが母体の会議として MLOps を軸にした会議として誕生しました。 USENIX は SRECON、OSDI などを開催している団体です。 学術的なスタイルに則り、先端的な計算機システムの成果を論文として公開されています。MLSys と対称的にこちらはインダストリーからアカデミアへの橋渡し的立ち位置となっています。発表内容は企業での発表者が多く、実際の運用で得られた各企業の MLOps のベストプラクティスなどがメインで話されています。 個人的には OpML のほうが、MLOps のど真ん中を主体に置いているので MLSys よりも盛り上がってほしいなと思っています。 OpML’19 がどのような様子だったかは、以下の記事がわかりやすいです。 OpML ‘19 参加レポート The first conference of Operational Machine Learning: OpML ‘19 自分自身、機械学習エンジニアリングや MLOps 周りのカンファレンス情報などを追いかけていますが、この分野で査読付きかつ論文として残せる形式の国際会議は主に上記の2つの認識です。...

September 6, 2020 Â· Shunya Ueta