「Human-in-the-Loop機械学習」の出版を通じた技術書翻訳体験記 #hitlbook
前回の記事1では、翻訳した書籍が出版されることについて書いたが、この記事は翻訳体験をテーマに書いてみる。
原著は、Human-in-the-Loop Machine Learning - Active learning and annotation for human-centered AIで、2021 年 6 月に MANNING 社から出版されています。
自分自身、普段はソフトウェアエンジニアとして働いており、翻訳家ではないため、書籍を翻訳して商業出版されるという経験は初めてです。 色々なことを試行錯誤しつつ、翻訳プロジェクトを進めていきましたが翻訳体験を公開してくれた記事2に大いに助けられたり、やる気もいただけたので、自分も今回の経験を公開しておきたいと思います。
本書の概要
一言でまとめると、機械学習のためのデータを効率よく高品質に作成する方法を学ぶための書籍です。
書籍の内容の詳細は、前回の記事1に記載したので、そちらを見てください。
翻訳の動機
現在、自分は機械学習関連のタスクに直接的には関わることは多くはないが、この書籍の翻訳プロジェクトを立ち上げるまで自分は業務で機械学習のためのアノテーションプロジェクトを何回も経験した。 その度に、試行錯誤を繰り返しながら経験を積んだが、多分野のようにベストプラクティスをまとめてくれた書籍3があったら、こんな苦労なんかせずに済むんだが….と感じていた。
そのような経験もあり、「データの作成」ってめっちゃ重要だけど暗黙知が多くない?と思っており。 自分が運営する機械学習の勉強会でも Human-in-the-Loop を題材にした機械学習の勉強会を開催した りしていた。
その後、原著の存在を確か Twitter 経由で知り、早期アクセスで読んでみたところドンピシャの内容だったのでテンションがバク上がりし、勢いのまま @_stakaya さんに共立出版様の編集者の方に紹介していただき、ぜひ提案書を書いてくださいという状態まで進むことができた。そして、その日のうちに提案書を書き、無事に承認されたと連絡を受けた。4 そしてそこから翻訳プロジェクトが始まる。
タイムライン
Obsidian のログと Google Docs の議事録を眺めながら時系列で当時を振り返りながら書きなぐっていく。
2021-05-09
- 早期アクセス版の原著に出会い、これは翻訳したいと思い、出版社の編集者の方を紹介したいただく。
2021-05-10
- 企画書を書いた。確か 3-4 日後に会議に通していただき採択された。予想外に爆速すぎる…! そして念願の翻訳権はまだとられていなかったので、無事に翻訳権を取得できた。
- 初めての翻訳プロジェクトだったので、速度重視で出版を目指すのではなく、品質重視でちゃんとした内容を届けて意味のある書籍を世に出したいなと考えた。なので、まずは信頼できる共訳者を探すところからだ。
2021-05-19
- nasuka sumino さん、ito hiyoyoshi に声をかけ、二つ返事で快諾してくれた。僥倖
- nasuka sumino さん
- 自分が運営していた機械学習の勉強会で、発表者として登壇してくれたのをきっかけで知り合った。その後の勉強会でも毎回参加してくれ仲良くさせた頂いた。懇親会の片付け手伝いますよと自発的に声をかけてくれるほどの聖人。
- ito hiyoyoshi
- 大学編入同期。博士後期課程行こうぜ!となった仲だが、自分が博士後期課程に結局行かず(行けず)にその後連絡は取っていなかった。だがエンジニアとして就職後、学会に参加したら普通に再開。その後編入した大学で助教になっており、時間の経過を感じた。運命なのか所属研究室が Human in the Loop をテーマにした研究室だったのでこれ幸いにと声をかけた。
- nasuka sumino さん
2021-09-18 - 2022-04-25
- 1 周目
- キックオフ。確か全員のタイムスケジュール的にこの時期からの開始が都合が良いとなった。
- 2022 年の年末までには第三者レビューが可能な状態、つまり自分たちでレビューに出しても良いと思える状態までもっていくとざっくり決めていた。
- 大体ページ数が三等分かつキリが良いように章単位で担当を割り振ってスタート。
- 初期は DeepL を使って翻訳。その後それを人力修正。完全非同期で進行
- MarkDown x GitHub でデータを管理
- main branch で思うがままに各人が GitHub に push
2022-04-25 - 2023-01-05
- 2 周目
- 自分の担当ではない章に対して、Google Docs でひたすら添削。各人が鬼のようにコメントするので、尋常じゃない量が溜まり、Google Docs が壊れることが増えた。
- リアルタイムに同期的な編集をしたいので、Markdown から Google Docs へ移行した
- GitHub の PR ベースの修正・提案は数百ページ単位での進行は無理があると早々に諦めた。Google Docs の提案モード、楽すぎませんか? この UX は神。 GitHub の suggestion 機能も近いものではあるが、Google Docs のほうがよっぽど楽だ。
- 章ごとにファイルが分かれていたのだが、grep したときにすべての章の横串検索をしたかったので、まとめて一つの Google Docs にまとめたらページ数が 700p を超えて、Google Docs が限界を迎えクラッシュするようになったので、すぐさま統合はやめた
- 事前添削の結果に対して、担当者は相談無しで取り込める部分のコメントはすべて取り込んだ状態になった章から、ビデオチャットを使った 3 人での読み合わせを進めていく。
- 合議制で全員が納得するまで徹底的に修正する。ここで見違えるほどに読みやすくなりチームで翻訳してよかったなと痛感。
- ChatGPT
- 日本語添削のプロンプトを作成して活用。3 人とも作文力は高いほうだが、なるほどこの言い回しがあったかという回答がバンバンえられ、AI SUGEEEE となる。途中で nasuka sumino さんが ChatGPT の添削用に Chrome 拡張を作って活用しており、流石としか言いようが無い。
- 翻訳としても優秀で、DeepL でうまく訳せなかった部分もそれとなく自然に訳してくれた。
2022-05-12 単語集の整備
- nasuka sumino さんが【Online】LINE Technical Writing Meetup vol. 13 - connpass に参加して、単語の整備が以下に重要かを学び、本腰を入れて整備する。今見返すと 187 単語ほど自分たちで単語の意味がブレないように管理している。
2022-05-29 楽観的見積もりとエタる危機とテコ入れ
- 最初の一ヶ月は週末に 1 時間 x2 日を費やし、月に 8-10 時間程度で読み合わせしていた
- これでいけるやろと思っていたが…
- 最初の一ヶ月を試運転として見積もってみた
- 約 10 分で 1p を読みすすめることができた。
- 英日併記で全体で 700p ある。
- つまり、進行速度から逆算するとすべてのページを終えるのに 600p x 10m = 7000m = 116 時間
- 今の投資した時間だと 11 ヶ月ほど必要。
- 当初予定していた年内の締切を 5 ヶ月超過する… ヤバい
- テコ入れとして、週に 10 時間と 4 倍の時間を投入することで合意して年内に終わらせるように挑戦
- 実際 5 日ほど予定は超過したが無事に 7 ヶ月ほどで読み合わせを終えた。
- スプレッドシートで投資した時間と読み終えたページ数の計測したが振り返ると面白い
- すべてのページを終えるのはなんと奇跡のようにズレが無く 115 時間で終わっていた。10 時間作業した後に見積った際は 116 時間なので、誤差は 1 時間。
2022-12-27 - 2023-01-31
第三者レビューの依頼開始。そして、束の間の休息。
2023-02-01 - 2023-05-15
- 3 周目
- 各人が、3-4 人ほど知人に依頼した形になった。合計 12 名にレビューしていただいた。
- 第三者レビュー時のレビュー体験も踏まえて Google Docs に踏み切ったが大正解だった。
- レビュアーの質が良いおかげで、意義のあるコメントが山のように来ており、2 週目と同じ方式でひたすら消化していった。
- ここの積み重ねが書籍の最終品質が最後にぐんっと跳ね上がったと思う。
- 編集者の方にも、ここまで重厚なコメントを第三者レビューでいただけるのは珍しい方だとお聞きした。感謝。
- そこから出版社の校正待ちでしばしの休息
- 途中から nasuka sumino さんが世界各国の旅が始まった。本来なら海外旅行を満喫するのが至上命題だと思うのだが、時差の壁をすべて打ち破りつつ読み合わせ会に参加してくれるというコミットメントしていただき、非常に感謝。そのおかげで必達締切は守られました。なんか一週間ごとに滞在国が変化していたが、それでも翻訳読み合わせは続いていき、インターネットすげえ、旅する翻訳家。
2023-08-10 - 2023-09-01
- 4 周目
- 出版社の校正者からの PDF が共有される。
- 3 週目でこれは文句がない仕上がりだと思っていたが、怒涛の赤入れをいただき、プロの凄さを知る。
- 特にすごいので各章をまたいだ一貫性の維持、補正力には舌を巻く体験で感銘を受けた。
- LaTex 内に赤入れされており、手書きでも iPad などで返答するなど多様な手段で可能で、PDF に夏季れる前提のワークフローに戸惑った。が iPad のGoodNotes が高機能で慣れたら快適に返答できた。
- 豆知識としてはやはり 400 枚超の PDF を扱うような仕様ではないので、ページを移動する際のレンダリングが非常に遅くそこだけストレスフルだった。
- そういう意味だと Mac の Preview は同じ PDF でもサクサクと動くのでやはりすごい
- ページジャンプができないのがめんどくさかった。やりかたあるかも?のと書き出す際に文字情報がなぜか消えてしまい検索できなくなるのは地味に不便。これも対処法あるのかな?
- 豆知識としてはやはり 400 枚超の PDF を扱うような仕様ではないので、ページを移動する際のレンダリングが非常に遅くそこだけストレスフルだった。
- 出版社の校正者からの PDF が共有される。
- 索引作成は、PDF に赤入れをする形で行っていった。これは想定よりは楽だった。GoodNotes でひたすらマーキングしていく形
2023-10-01 - 2023-10-06
校正一周目のフィードバックへの返答
2023-10-18 - 2023-10-31
- 5 周目
- 最終ラウンド。これ以降の修正は基本的に不可能。
2023-12-25
出版予定!!
投資した時間
翻訳を行うときに Toggl を使って計測していたので、そこから集計。 後から振り返ってこれぐらい時間積み上げたのかとニヤニヤするのが好きなのである。
- 2021 年: 55 時間
- 2022 年: 220 時間
- 2023 年: 50 時間
累計: 325 時間
多いか、少ないか、早いのか遅いのか正直分からない。 なぜなら自分にとっては初の書籍翻訳で、比較できないからである…解散!!
翻訳体験のふりかえり
やってよかった
- 必達締め切りを作る
- 無限に時間を費やすことも可能なので、時間を決めたのは良かった。
- 共訳者を誘ってチームで翻訳する
- 自分一人でやったら速度感やブロッカーの数は減るという利点はあるが、翻訳の品質はここまで到達しなかったと思う
- 途中でモチベーションが下がるのもチームでやっていたことにより回避できた。良い意味での強制力。あと楽しい。
- 基本的にフルタイム翻訳家ではないので、本業をしながら、平日の夜、朝、休日は保育園がないので夜のみ時間を捻出して、可処分時間を捻出していたが、長くなればモチベーション管理が難しいなと感じた
- 豊富かつ重厚な第三者レビュアー陣の確保
- 同上だが、3 人で練り上げた翻訳文は自分たちが読み込みまくるということでバイアスがかかり、問題なく読めてしまう。そこでまっさらな状態の第三者レビュアーに依頼することで、品質を更にうえの段階へと押し上げることができた。
次はこうやるべき
- 徹底した MVP 思考と自動化
- 読み合わせはすべての章の人力修正を待たずに MVP でいいので、一章分だけ最速で行うべきだった。
- 各訳者の癖や、統一しておきたい表記、ルールなど 400p 超えの翻訳結果で一貫性を保持するのがいちばん大変なのでその意識合わせを行うのが吉
- CI x CD は最初に組み上げて、textlint など自動化できる修正機構を入れるべきだった。
- Google Docs の都合上人力 Linter で頑張っていたが、Google Docs に変更する前の Markdown に対して text lint を入れたら良かった。
- 単語集をもっと早期から本腰で構築する。
- 読み合わせはすべての章の人力修正を待たずに MVP でいいので、一章分だけ最速で行うべきだった。
謝辞
書籍中の謝辞でも書いていますが、あらためて、本書は以下ののみなさまのご協力なしには出版はありえませんでした。
出版社を紹介していただいた、stakaya さんにまず感謝します。
共訳者の誘いに快諾してくれた、角野為耶さん、 伊藤寛祥に感謝! チームで翻訳してなかったら正直 3 周目以降のモチベーション管理が大変だったと思います。 なにより楽しかったのが良いですね。研究室時代の輪読を思い出すような雰囲気でした。
共立出版の編集者、山内千尋様には書籍の提案を快諾していただいた点にまず感謝します。そこから出版までの年単位という時間がかかってしまいましたが、プロフェッショナルな姿勢に感銘を受け、翻訳作業の励みになりました。ありがとうございます。そして校正者の方には、作文能力の奥深さを改めて感じることができました。
そして以下の第三者レビュアー(順不同)の方々に感謝です。レビュアーの方の協力がなければ、決して今の品質まで到達することはなかったと思います。
- 平松淳氏
- 紫藤佑介氏
- 杉山阿聖氏
- 真鍋陽俊氏
- 横尾修平氏
- 橘祐一郎(@whitphx)氏
- 風間正弘氏
- 橘秀幸氏
- 松原正樹氏
- 若林啓氏
- 栗本真太郎氏
- 森嶋厚行氏
いただいたレビュー
誰か書いてくれ…! ここで紹介させてもらいます。
蛇足
『機械学習エンジニアのための Transformers』が出ます - Ahogrammer で翻訳を実質一ヶ月で終えたと言及しており、そんなに早く終わることが可能なの?ととても本人に聞きたくなったくらいには早すぎる。合計投資時間が知りたい…
次やるなら提案から出版まで一年位で終わるものが理想だが、それなら単独でやるかつ可処分時間がもっとないと無理だろうなと思われる。 一番つらい 3 週目を新たな家族を授かるまでに終わることができたのが一番の勝因だったと思われる。
そして機会があれば次は、自前で技術書店や Kindle, Booth なんかで書籍を売るのも一度は経験してみたい。
とりあえず、可処分時間が戻ってきたので全文検索エンジンの OSS 開発に携わりたいという夢を実現しにいきます。
能動学習とアノテーションをテーマにした翻訳書籍 「Human-in-the-Loop 機械学習」が出版されます #hitlbook ↩︎ ↩︎
技術書の翻訳体験記 2021(『Kaggle Grandmaster に学ぶ 機械学習 実践アプローチ』) - u++の備忘録, 技術系専門書(機械学習)の翻訳体験から学んだこと - sotetsuk’s tech blog, 速習強化学習を刊行しました - sotetsuk’s tech blog ↩︎
鹿島先生らのヒューマンコンピュテーションとクラウドソーシング (機械学習プロフェッショナルシリーズ)はかなり近しい書籍だが、アノテーションの実践的な知見が得られるかというと方向性が若干異なると思っている。 ↩︎
尋常じゃない速度感で、承認を受け、翻訳権も獲得してくれたので、普通に驚きました。 ↩︎
関連しているかもしれない記事
- 能動学習とアノテーションをテーマにした書籍 「Human-in-the-Loop機械学習」を翻訳しました #hitlbook
- Amazon検索ランキングの奥深さ at MLconf SF 2016
- TFXの歴史を振り返りつつ機械学習エンジニアリングを提案する論文「Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX)」
- 機械学習システムの信頼性を数値化し、技術的負債を解消する論文「 The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction」
- 機械学習システムの信頼性を数値化する論文「 What’s your ML test score? A rubric for ML production systems」
📮 📧 🐏: 記事への感想のおたよりをおまちしてます。 お気軽にお送りください。 メールアドレス入力があればメールで返信させていただきます。 もちろんお返事を希望せずに単なる感想だけでも大歓迎です。
このサイトの更新情報をRSSで配信しています。 お好きなフィードリーダーで購読してみてください。
このウェブサイトの運営や著者の活動を支援していただける方を募集しています。 もしよろしければ、Buy Me a Coffee からサポート(投げ銭)していただけると、著者の活動のモチベーションに繋がります✨
Amazonでほしいものリストも公開しているので、こちらからもサポートしていただけると励みになります。