Shunya Ueta

能動学習とアノテーションをテーマにした書籍 「Human-in-the-Loop機械学習」を翻訳しました #hitlbook

今回、自分が翻訳者として関わった書籍であるHuman-in-the-Loop 機械学習 ―人間参加型 AI のための能動学習とアノテーション―が 2023-12-25 に共立出版様から出版される事になりました。

Human-in-the-Loop 機械学習: 人間参加型 AI のための能動学習とアノテーション

Amazon, 出版社公式ページ

原著は、Human-in-the-Loop Machine Learning - Active learning and annotation for human-centered AIで、2021 年 6 月に MANNING 社から出版されています。

共訳者の NSK さんも書籍出版に関して記事を書いてくれました。 Human-in-the-Loop Machine Learning という技術書を日本語に翻訳した | NSK’s log

本書の概要

書籍の概要文を引用します。自分が作成した文章なので、記事の内容に対して引用が多すぎるというツッコミはご安心ください。

本書は、Human-in-the-Loop 機械学習(人間参加型 AI)の活用により、効率よく高品質な学習データを作成し、機械学習モデルの品質とアノテーションのコストパフォーマンスを改善する方法を解説する。実世界で応用されるほとんどの機械学習モデルは、人間のアノテーターが作成した学習データセットを利用して構築される。それゆえ機械学習を実世界の問題に応用していくには、この学習データセットをいかに高品質とするかが重要である。学習データセットが高品質なら、単純な機械学習アルゴリズムでも実用的に十分な性能を引き出すことができる。 本書では、アノテーションのプロセスに能動学習という機械学習手法を導入して、アノテーションの品質とコストパフォーマンスを劇的に向上させるテクニックを軸に、AI と人が互いに助け合いながらより良い AI システムを開発するために役立つ、幅広く、かつ奥深い知見を提供する。本書は 4 部構成の大著であり、Human-in-the-Loop 機械学習や能動学習の解説だけではなく、アノテーションの品質管理手法やアノテーターの評価・管理手法、アノテーションツールの設計方法といった、実際の機械学習プロジェクトに必要な極めて実践的な内容を豊富に含んでいる。 データサイエンティストや機械学習エンジニアはもちろん、アノテーションの実務に関わる管理者・技術者にも本書を読んでいただき、人がより有効な形でモデル開発に関与する「人間参加型 AI」の実現に繋げてほしい。 https://www.kyoritsu-pub.co.jp/book/b10039888.html

目次は以下です。

【第I部 概要】

第1章 Human-in-the-Loop機械学習の概要
1.1 Human-in-the-Loop機械学習の基本原則
1.2 アノテーションとは?
1.3 能動学習の導入:学習データ作成の高速化とコスト削減
1.4 機械学習とヒューマン-コンピュータインタラクション
1.5 機械学習に支援される人間vs.人間に支援される機械学習
1.6 転移学習によってモデルを作成する
1.7 本書が解説する内容
まとめ

第2章 Human-in-the-Loop機械学習を始める
2.1 能動学習“もどき”を超えて:最初の能動学習アルゴリズム
2.2 最初のシステムのアーキテクチャ
2.3 能動学習を支援するために,モデルの予測値とデータを解釈する
2.4 効率的にラベル付けするためのインターフェースを構築する
2.5 最初のHuman-in-the-Loop機械学習システムをデプロイする
まとめ

【第II部 能動学習】

第3章 不確実性サンプリング
3.1 機械学習モデルの不確実性を解釈する
3.2 不確実性サンプリングのアルゴリズム
3.3 さまざまなモデルが混乱している部分を特定する
3.4 複数の予測を用いて不確実性を計算する
3.5 適切なアノテーション数を選択する
3.6 能動学習の評価方法
3.7 不確実性サンプリングのチートシート
3.8 関連文献
まとめ

第4章 多様性サンプリング
4.1 何を知らないかを知る:モデルの知識のギャップを特定する
4.2 モデルベースの外れ値サンプリング
4.3 クラスタベースのサンプリング
4.4 代表点サンプリング
4.5 実世界の多様性を考慮したサンプリング
4.6 さまざまなモデルにおける多様性サンプリング
4.7 多様性サンプリングのチートシート
4.8 関連文献
まとめ

第5章 高度な能動学習
5.1 不確実性サンプリングと多様性サンプリングの組み合わせ
5.2 能動的転移学習のための不確実性サンプリング
5.3 代表点サンプリングに能動的転移学習を適用する
5.4 適応型サンプリングの能動的転移学習
5.5 高度な能動学習のチートシート
5.6 関連文献
まとめ

第6章 能動学習をさまざまな機械学習タスクに適用する
6.1 能動学習を物体検出に応用する
6.2 能動学習をセマンティックセグメンテーションに応用する
6.3 能動学習を系列ラベリングに応用する
6.4 能動学習を言語生成に応用する
6.5 能動学習を他の機械学習タスクに応用する
6.6 アノテーションに適したデータ件数を決定する
6.7 関連文献
まとめ

【第III部 アノテーション】

第7章 アノテーターとの協働
7.1 アノテーションとは?
7.2 社内ワーカー
7.3 アウトソーシングワーカー
7.4 クラウドワーカー
7.5 その他のワーカー
7.6 必要なアノテーション量を見積もる
まとめ

第8章 アノテーションの品質管理
8.1 アノテーションと真値を比較する
8.2 アノテーター間の一致度
8.3 複数のアノテーション結果の集約により学習データを作成する
8.4 専門家のレビューによる品質管理
8.5 複数ステップのワークフローとレビュータスク
8.6 関連文献
まとめ

第9章 高度なアノテーションとデータ拡張
9.1 主観的なタスクのためのアノテーション品質
9.2 機械学習によるアノテーションの品質管理
9.3 モデルの予測をアノテーションとして活用する
9.4 埋め込み表現と文脈を考慮した埋め込み表現
9.5 検索ベースシステムとルールベースシステム
9.6 教師なしモデルを用いた弱教師あり学習
9.7 合成データ,データ作成,データ拡張
9.8 機械学習モデルでアノテーション情報を活用する
9.9 関連文献
まとめ

第10章 さまざまな機械学習タスクにおけるアノテーション品質
10.1 連続値を扱うタスクにおけるアノテーション品質
10.2 物体検出におけるアノテーション品質
10.3 セマンティックセグメンテーションにおけるアノテーション品質
10.4 系列ラベリングにおけるアノテーション品質
10.5 言語生成におけるアノテーション品質
10.6 その他の機械学習タスクにおけるアノテーション品質
10.7 関連文献
まとめ

【第IV部 機械学習のためのヒューマン-コンピュータインタラクション】

第11章 データアノテーションのためのインターフェース
11.1 ヒューマン-コンピュータインタラクションの基本原理
11.2 効果的な慣例の破り方
11.3 アノテーションインターフェースにおけるプライミング効果
11.4 人間と機械の知能を融合する
11.5 人間の知性を最大限に引き出すスマートインターフェース
11.6 人間の作業を支援する機械学習
11.7 関連文献
まとめ

第12章 Human-in-the-Loop機械学習を組み込んだアプリケーション
12.1 Human-in-the-Loop機械学習プロダクトを定義する
12.2 例1:ニュースの見出しの探索的データ分析
12.3 例2:食品衛生に関する事件のデータ収集
12.4 例3:画像中の自転車の識別
12.5 関連文献
まとめ

付録A 機械学習のおさらい
A.1 モデルの予測を解釈する
A.2 ソフトマックス関数を理解する
A.3 Human-in-the-Loop機械学習システムの性能測定

索引

ハッシュタグは #hitlbook となります。 書籍の感想などはこのハッシュタグを使ってくださると嬉しいです。

正誤表

極力誤りはないように執筆しましたが、誤りを共有可能なように GitHub レポジトリで正誤表を管理しています。誤植やミスなどが見つかりましたら報告していただけると幸いです。

https://github.com/human-in-the-loop-ml-book-ja/errata

反響

ブログ記事

『Human-in-the-Loop 機械学習』 - ジョイジョイジョイ

今までほとんど無かった、機械学習用のデータを作成するための書籍です。実用性を強く重視しており、まさに今から機械学習データを用意しようと考えている方にとっては大いに役立つ本だと思います。研究者にとっては良い面と悪い面がありますが、新しいトピックに触れたい方や、逆にアカデミア流に凝り固まった考えをほぐしたい方にはぴったりだと思います。

感想: Human-in-the-Loop 機械学習 -人間参加型 AI のための能動学習とアノテーション-

本書の大きな特徴はアノテーターとの協働に多くのページを割いている所でしょう。私はアノテーション要員を確保したものの彼らのモチベーション維持が難しく期待通りのアウトプットが得られなかったプロジェクトやアノテーション用の画面をどこまで作り込めば良いか悩んだ経験があったので、本書があれば助けになっただろうなというのが最初の感想です。

書籍 Human-in-the-Loop 機械学習を読み終えて - データセントリックの示唆に富む書籍 - A Day in the Life

ただ、世の中にはモデルやアルゴリズムといったモデルセントリックな話は数多くあれど、データは基本公開されているなんらかのデータセットに対して評価するといった内容はほとんど。しかしながら、この書籍 Human-in-the-Loop 機械学習では、データに焦点を集め解説を行なっているという、稀な書籍である。…、読んでいて参考になる場所だらけで、じっくり読み進めていたら読み終えるまで 2 ヶ月ほどかかってしまった。それほど興味深く、かつ機械学習を嗜む身としては、この書籍に出会うことができて本当によかった。… Human-in-the-Loop 機械学習の原著は、いわゆるGPT4登場より前のLLMが今ほど注目が集まっていなかっときに書かれた本だが、この書籍の視点はLLMと絡めて使う時にも大いに役立つと思っている。

Human-in-the-Loop 機械学習 社内勉強会資料 - ぱたへね

翻訳もとても読みやすく、機械学習や Deep Learning のモデルを継続的に改善している人にはお勧めです。 … 少しでも興味があれば買って読んでみてください。

X(Twitter)

@smly https://twitter.com/smly/status/1739795728736882887

Human-in-the-Loop 機械学習を献本いただきました。データセット作成を計画しているすべての人にオススメです。 特に好きなのがアノテーションパート。技術的な話に終始せず、動機づけ・品質管理など著者の経験に基づいたアドバイスがグサグサと刺さります。https://amazon.co.jp/dp/4320125746/ 金言 > “私が見てきたどの業界でも、長期間トップレベルを維持した最先端のモデルは、新しいアルゴリズムではなく、より良い学習データに支えられていました。(snip)。高品質なデータは、競合他社の機械学習サービスに打ち負かされないサービスを提供するための障壁となるのです。”

@upura0 https://twitter.com/hurutoriya/status/1735341781011804335

『Human-in-the-Loop 機械学習』を共立出版よりご恵贈いただきました。 https://kyoritsu-pub.co.jp/book/b10039888.html 事業会社で機械学習活用に取り組む自分にとって、興味深い話題が盛りだくさんです。私も技術書の翻訳経験がありますが、物理的にも内容も重厚で、骨の折れる作業だったかと推察します。年末年始のお供に 📕

@joisino https://twitter.com/hurutoriya/status/1735341781011804335

共立出版さまより『Human-in-the-Loop 機械学習』をご恵贈いただきました 🙇‍♂️ 内製データを作る重要性と難しさは Readable を作っていてしみじみ感じます。本書でしっかり勉強いたします! 12/25 に発売ということで、パートナーやお子さんへのプレゼントにもぴったりです。 https://amazon.co.jp/dp/4320125746

@himkt https://twitter.com/himkt/status/1735286159952265453

「Human-in-the-Loop 機械学習」のご献本をいただきました、ありがとうございます mm 自分の中の能動学習の概念と用語が整理されていく感覚があってとても楽しい本だなと思いました。おすすめです https://amazon.co.jp/dp/4320125746

@kuri8ive https://twitter.com/kuri8ive/status/1735264959633006702

訳者からのご献本をいただきました “Data-Centric AI"という概念が提唱されるなど、データ品質の重要性が認知されてきた昨今において、品質を高めるための手段や関連トピックを広く把握できる一冊になっているかと思います ご関心のある方はぜひ 🙏

@kaeru_nantoka https://twitter.com/kaeru_nantoka/status/1735629196515475457

共立出版様より「Human-in-the-Loop 機械学習」ご恵贈賜りました。 手に取ってみるとわかるボリュームで、機械学習のおさらいからアプリケーションへの組み込みまで丁寧に説明されてます。 アノテータさんの雇用に関する項目まで記載があり実務で参考になりそうです。 年末年始のお供におすすめです!

@tachihi https://twitter.com/tachi_hi/status/1736039638169710921

Human in the loop 機械学習。翻訳レビューに参加したご縁で訳者様からご恵贈いただきました 学習データのアノテーションに割ける労力に限りがある中で、どのデータを優先的にアノテーションするのが効率がいいのかという能動学習の問題と、具体的なアノテーション方法の話題を扱ってます。 こちら本日発売されたようです。能動学習の理論的な話から、アノテーションのためのインターフェースや、アノテーションに従事するワーカーの雇用ややりがいの話まで、色々なことが書いてあります ☺️

@whitphx_ja https://twitter.com/whitphx_ja/status/1735928022627450935

Human-in-the-Loop 機械学習をレビューに参加したご縁で訳者様よりご恵贈いただきました。 能動学習やサンプリングなどの理論的な話から、アノテーションのためのインタフェースやタスク設計、アノテータという人間をどう扱うかなど実務寄りの内容まで、関連トピックが幅広くカバーされています。

@currypurin https://twitter.com/currypurin/status/1735918378467102763

『Human-in-the-Loop 機械学習: 人間参加型 AI のための能動学習とアノテーション』を共立出版よりいただきました。ありがとうございます。 Human-in-the-Loop 興味あったのですが、これで勉強します。 価格も本体 6,600 円ととても気合が入った本です。 個人的に Human-in-the-Loop とは何かという問題がありました。この本によると「機械学習モデルと人間が相互補完しながら動作するシステムを意味する」とのこと。 本書では、「機械学習とアノテーションの最も一般的な戦略や、さまざまなタスクのアノテーション作業において最適なインターフェースを設計する方法について説明します」と書かれています。 冒頭では,本書の内容について、次のように説明されています。 本書の副題にもある「アノテーション」は、第 3 部で丸々さいて説明されており、アノテーションを設計することがある人にお勧めできる内容であると思いました。 また、CHAPTER3 の不確実性サンプリングの部分、面白いです。機械学習モデルが自信がない問題についてどう対処するかというのは、よくある問題でありながら、何を調べて良いかわからないことが多かった部分。とても丁寧に説明をされており参考になりました。 ありがとうございました。

まだサラッとしか読めていないのですが、素晴らしい本だと思いました。 翻訳いただきありがとうございました!

@masa_kazama https://twitter.com/hurutoriya/status/1736332129578230032

「Human-in-the-Loop 機械学習」をご恵贈いただきました。 レビューで読ませていただいたのですが、クラウドワーカーの雇用保障や自己効力感などについても書かれており、実務観点でとても勉強になりました。

@chahan69 https://twitter.com/chahan69/status/1736323229621579792

弊社のパイセン @hurutoriya らが翻訳された"Human-in-the-Loop 機械学習"献本頂きました!感謝 🥰 私はちょっとだけレビューに参加させて頂きました。 ML システムと人間との関わりが定式化されたたり色々議論されたりしています(大事やね) みんなも人間と仲良くしような!!!☺️🤝☺️🤝☺️🤝☺️🤝☺️

@K_Ryuichirou https://twitter.com/K_Ryuichirou/status/1738138548031893594

献本いただきました、レビューから参加していたのですが Active Learning のアルゴリズム面や運用上の注意、高品質なアノテーションを行うための工夫や注意点といった世に出てきにくいノウハウの詰まった本で、発見がとても多かったです Human-in-the-Loop 機械学習 https://www.kyoritsu-pub.co.jp/book/b10039888.html 同僚が読んだのですが激賞してました、この手の情報、とくにアノテーションの品質管理について、体制や雇用契約を含めて解説したものってほぼ無いのでとくに有用だと思います

@_stakaya https://twitter.com/_stakaya/status/1739070197875831241

著者の @hurutoriya さんから「Human-in-the-Loop 機械学習」を献本いただきました! 「能動学習、アノテーションを順に説明してから Human-in-the-Loop 機械の話に入る」というユニークな構成になっています。 本日から販売です、皆さん是非ッ!!!

@kosuke_tsujino https://twitter.com/kosuke_tsujino/status/1739108423923560674

訳者の @hurutoriya さんに新刊『 Human-In-The-Loop 機械学習』を贈って頂きました。ありがとうございます!! active learning やアノテーションの品質管理など、ML アルゴリズムの教科書ではあまりカバーされないが実務では役立つ情報が詰まっています。

@PINTO03091 https://twitter.com/PINTO03091/status/1739118500273418553

実家に PC 持っていくと怒られそうなので暇つぶし用に買った。“Human-in-the-Loop 機械学習: 人間参加型 AI のための能動学習とアノテーション” 新幹線車内で Human-in-the-Loop 機械学習の本を読み始めたんだけど、最初の4ページ目からいきなり僕が発表資料のアノテーション方針に書いた内容そのものが書かれている。経験豊富な方々がおっしゃるぐらいだから方向性はほとんど間違っていなかったのかもしれない。

@cocu_tan https://twitter.com/cocu_tan/status/1739611953100960180

Human-in-the-Loop の日本語訳を翻訳をされた @hurutoriya さんから恵贈していただきましたっ active learning やアノテーションの品質管理などがメインのようです。Human-centered AI や蒸留の文脈でもホットになっていきそう。

@shunk031 https://twitter.com/shunk031/status/1739254733913924047

共立出版社さまと @naohachi89 さんのご厚意により「Human-in-the-Loop 機械学習」をご恵贈いただきました。企業に就職してアノテーションの重要さを感じるようになったちょうどよいタイミングで最高の本に出会えました!特にアノテータのアノテーション結果をどう評価するかはとても参考になりました

@natsutan https://twitter.com/natsutan/status/1739667860363100181

Human-in-the-Loop 機械学習 出だしから良いことしか書いて無くて、年明けにでも社内勉強会したい。

@inunu_hossie https://twitter.com/inunu_hossie/status/1739931305863737616

共立出版「Human-in-the-Loop 機械学習」を購入。以前英語版を電子書籍で買ったのだがついに和訳版出たので即決買い。機械学習界隈でやや軽視されがちな「学習データの準備」や能動学習を主役にした、B4 で 400 頁弱の本格本。私は唯一無二の本だと思ってる。さあこれを熟読し、データを準備しよう!

@inunu_hossie https://twitter.com/inunu_hossie/status/1743783251377017269

共立出版「Human-in-the-Loop 機械学習」を購入。以前英語版を電子書籍で買ったのだがついに和訳版出たので即決買い。機械学習界隈でやや軽視されがちな「学習データの準備」や能動学習を主役にした、B4 で 400 頁弱の本格本。私は唯一無二の本だと思ってる。さあこれを熟読し、データを準備しよう!

共立出版「Human-in-the-Loop 機械学習」、飛ばし飛ばしだが一応読了。機械学習において本当は超重要なのに(情報工学系のアカデミアで)軽視されがちな「アノテーション」「能動学習」についてこれだけ網羅した書籍は他にないと思う。2周目読みながら、弊社における新しい仕事の仕方を模索する。

@shashunsho https://twitter.com/shashunsho/status/1747099895574691920?s=20

心理療法や共感の解析ためにアノテーション作業を進めています。まだ少ししか読めていませんが、こちらの書籍から学ばせていただくことが大いにありそうです。翻訳ありがとうございます!これから臨床心理士・公認心理師を中心にこの書籍を読み進める会を行う予定です。

翻訳の裏話などは、また別の記事として書く予定です。 ご期待あれ…!

2023-11-20 更新: 書きました! 「Human-in-the-Loop 機械学習」の出版を通じた技術書翻訳体験記 #hitlbook

---

関連しているかもしれない記事


📮 📧 🐏: 記事への感想のおたよりをおまちしてます。 お気軽にお送りください。 メールアドレス入力があればメールで返信させていただきます。 もちろんお返事を希望せずに単なる感想だけでも大歓迎です。

このサイトの更新情報をRSSで配信しています。 お好きなフィードリーダーで購読してみてください。

このウェブサイトの運営や著者の活動を支援していただける方を募集しています。 もしよろしければ、Buy Me a Coffee からサポート(投げ銭)していただけると、著者の活動のモチベーションに繋がります✨
Amazonでほしいものリストも公開しているので、こちらからもサポートしていただけると励みになります。

#book #machinelearning #publication