Amazon の検索改善事例

Amazon検索ランキングの奥深さ at MLconf SF 2016

1 日遅れてしまいましたが、情報検索・検索技術 Advent Calendar 2021 25 日目の記事です。 ついにアドベントカレンダー最終日を迎えました! 今年はまだ検索領域のアドベントカレンダーが作られていないからということで、勢いで情報検索・検索技術 Advent Calendar 2021を作りましたが、多くの方に投稿に協力していただきありがとうございました。 社内勉強会の発表でネタを探しており、2016 年と少し昔の情報ですが、Amazon の製品検索において、どのようにランキングを行っているかの公演動画が非常に面白かったので、勉強がてら残したメモを記事として公開します。 今回の口頭発表は MLconf という開発者会議(非学会・非アカデミック)で発表されています。 自分が知る限り、MLconf は機械学習黎明期から高品質な発表が継続されて発信されており、非常に素晴らしいカンファレンスの一つ。 国際会議には投稿されていないが、実応用の観点からしてとても学びの多い発表がとても多いです。 機械学習の応用を考えている場合、世界の最先端事例を知ることができるので非常におすすめです。 Referemces Sorokina, D., & Cantu-Paz, E. (2016, July). Amazon search: The joy of ranking products. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval (pp. 459-460). Amazon Search: The joy of ranking products in amazon science Youtube メモ 自分の私的な意見は NOTE: で書いておきます。...

12月 26, 2021 · Shunya Ueta
Amazon search アーキテクチャ

Amazonがeコマース検索を Lucene により、どうスケールさせているか at Berlin Buzzwords 2019

情報検索・検索技術 Advent Calendar 2021 1 日目の記事です。 早めに書き終えたので、カレンダー登録日の 2021/12/01 よりもはやめですが、記事を公開してしまいます。 Berlin Buzzwords はドイツで毎年開催されている OSS を利用した検索、データ処理、データベースに焦点をあてたカンファレンスです。 検索関係のシステムに携わっている場合、毎年面白い内容が目白押しなのでぜひとも見てほしい。 今回は Berlin Buzzwords 2019 で発表された「Amazon では Lucene をどう活用して e コマース検索をスケールさせているか」の講演動画を社内勉強会で紹介するために視聴したので、そのメモを公開する。 E-Commerce search at scale on Apache Lucene YouTube Web page PDF 自分の所感などを切り分けるため、自分の意見は IMO ではじめた文にして、メモっています。 Overview クエリの p999 latency に対して非常に厳しい制限を行っている IMO このクエリの p999 latency 定義は、Lucene+(おそらく内製で今も開発している、response を返すための Lucene server?)が返す検索のレスポンスを指していると思われる p99.9 latency を SLA として、監視しているのはたしかにとてもシビアな基準だと感じる。 Amazon の query rate はめちゃくちゃピーキー (daily, weekly, yearly) Why Lucene? Lucene は成熟しており、豊富な検索エンジンの機能が揃っている 情熱を持ったコミュニティが存在している Uber, Airbnb, Linkedin 全部 Lucene を使っている maxscore scoring , Weak AND, Lucene 8....

11月 26, 2021 · Shunya Ueta

eコマースの検索と推薦についてのサーベイ論文である 'Challenges and research opportunities in eCommerce search and recommendations' を社内勉強会で発表した

SIGIR eCom を探索していたら発見したサーベイ論文の “Challenges and research opportunities in eCommerce search and recommendations"が面白かったので、社内の勉強会で発表してきた。 和訳すると、「e コマースの検索と推薦における挑戦と研究トピック」で、e コマースにおける検索と推薦の課題が明瞭に書かれていて非常に面白い論文でした。 自分もまだ検索エンジニアとして日が浅いので、手持ちのパターンを増やせるように日々勉強していますが、この論文のおかげでかなり解像度が上がった。 個人的に面白かったのは、 そもそも、顧客が商品を検索するというタスクの奥深さと面白さが知れる Query Understanding は、非構造なクエリを構造化されたクエリに変換するのが究極的な目標 Learn to Rank(LtR)の実践的な課題点として、LtR 適用時に、Native Ranker とのギャップが発生して非連続な検索結果を返してしまうことがある 実際のクエリから、購入される商品はクエリと商品が関連性が高いとは限らないのでモデルを学習させる際には要注意 Amazon での実例として クエリ「ダイヤモンドリング」に対して LtR を適用すると、実際のクエリとそれに紐づくランキングシグナルから学習すると、「ダイヤモンドリング」というクエリで、「ジルコニウムリング」が大量に購買されていたので LtR では、「ダイヤモンドリング」というクエリに対して、「ジルコニウムリング」を表示するようになってしまった これは、学習データを全く見ないで適用するとそうなりそうだけど、広範囲に影響を及ぼす LtR の QA は非常に骨が折れそう Ref: Amazon Search: The Joy of Ranking Products スライド作成元の Markdown ファイルはhurutoriya/deckはこちらです。 スライド内のリンクに簡単にアクセスできます。 e コマースでの検索に改善したいけど何したらいいかわからんという人は、とりあえずこれ見れば OK という論文だったので読めてよかった 余談 Matching & Ranking の章までを解説したけど、それでも 45m 喋りっぱなしで最後のほうがかなり駆け足になってしまった。 また、英語での発表になったけど、やはり熟れたわかりやすい発表レベルに達するには、まだまだだなぁ感じた。精進せねば 今回スライド作成に Marp を使いましたが、VS Code 上でスラスラとかけつつ読みやすくテンションの上がるデザインに簡単にできて感動しました。これからも愛用したいなと思います。 年末くらいに、検索エンジニアとして 9 ヶ月経過するので、役になった学習リソースなどをまとめたい

7月 10, 2021 · Shunya Ueta
検索チームの成熟度ピラミッド

[抄訳] 検索エンジンの達成度と検索チームの成熟度モデル

@rilmayer_jp さんのツイート をきっかけに、検索チームの成熟度モデルの存在を知りました。ありがとうございます! Eric Pugh さんが、検索エンジンに関する会議で公演した内容で、検索チームがどのように成熟していくかをモデル化しており、それが面白かったので備忘録として残しておく 更新 2021/05/13 : 原著者のEric Pugh さんから、抄訳のご快諾いただけました。ありがとうございます 翻訳元資料 Search Relevance Organizational Maturity Model slide Haystack LIVE! 2020 Search Relevance Organizational Maturity Model 検索エンジンのレベル 検索エンジンへの要求をどれだけ満たしているかをピラミッド構造でわかりやすく説明している 検索チームの成熟度モデル 7 項目の検索チームの評価項目を考え、3 段階で評価を行う ビジネス 顧客の要求の理解 検索技術 実験駆動 UX コンテンツ強化 データ保有 発展 ステークホルダーがリアルタイム KPI を使用している データ解析から質的なデータを得ている カスタムプラグインを作成している A/B テスト、オフラインテストをサポートしている 革新的な発見性を提供している(chatbot, 等) NLP やデータサイエンティストの専任チームが取り組んでいる 多種多様な、複雑かつ大規模なデータを扱っている 実践 不定期にレポートを行っている いくつかのユーザーテスト、基礎的な分析を行っている 関連性のための複雑な設定、プラグインの使用をしている 実験は適用可能だが、A/B テストなどはできない 発見しやすくするための UI を提供している 分類学や概念体型の適用をしている データの複雑度の監視している 基礎 ビジネスインパクトが測定されていない クエリログは存在しない、またはユーザーテストを行っていない 技術スタックを適度に調整している 検索のテストは手作業で行い、デプロイは低頻度 1 ページに 10 個の検索結果がある 僅かな取り組み(シノニムなど) とても単純なデータモデル 感想 ひと目で...

5月 12, 2021 · Shunya Ueta

TFXの歴史を振り返りつつ機械学習エンジニアリングを提案する論文「Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX)」

この記事はMLOps Advent Calendar 2020の 25 日目の記事です。(盛大に遅れました) KDD2019 の招待講演で Google が TFX の歴史について発表されており、TFX 信者の自分としては発表内容が以前から気になっていたが、公開はされておらずなんとかして見れないかな~と思っていましたが、TensorFlow の Blogで該当の招待講演が論文化されたことを知ったのでメモがてら抄訳として残しておく。 注意)この翻訳記事は原著論文の著者陣からレビューはされていません Shunya Ueta, are providing a translation and abridgment, which has not been reviewed by the authors. Citation Karmarkar, A., Altay, A., Zaks, A., Polyzotis, N., Ramesh, A., Mathes, B., … & Li, Z. (2020). Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX). arXiv preprint arXiv:2010.02013. *** Towards ML Engineering with TensorFlow Extended (TFX) at KDD2019 Towards ML Engineering with TensorFlow Extended (TFX) ACM PDF は arxiv でも閲覧可能 https://arxiv....

1月 17, 2021 · Shunya Ueta