Search Engineering Newsletter: 検索技術と情報検索の情報を取り扱うニュースレターを不定期配信します

2022 年から心機一転として、情報発信を今まで Twitter メインでやっていましたが、ニュースレターで行っていこうと思っています。 以下の Revue のリンクから登録が可能です。 Search Engineering Newsletter By hurutoriya 扱うトピックとしては、検索エンジンと情報検索の周辺領域です。 経緯としては、自分の職域である情報は積極的に収集しており、どうせなら発信したいなと考えて Twiter や、機械学習エンジニア時代には Revue を使って MLOps 領域に特化してニュースレター配信を試しにやってみた(覚えているかたもいるかも?)ことがありましたが、結局 Twitter で配信すれば同じではと考えてしまい、なんだかんだ継続できませんでした。 ですが、最近は Twitter での情報取得から抜け出して、一息ついた状態で情報収集を行うようになりたいなと思うなかで、改めて Twitter の発信だけではなく、ニュースレターのように頻度は不定期だが高品質な情報が一箇所にまとまって届けることができたら面白いなと考えました。(またニュースレター形式だと Twitter では届かない層にも届くんじゃないのかなと) 現在は自分は検索エンジニアとして働いており、検索技術と情報検索の情報を積極的に収集しています。そのなかで自分が当該領域で注目したニュースレターを不定期に配信できればなと思ってニュースレターを再開してみました。 検索領域に関連する気になった記事や自分の Blog 記事の執筆などをここで紹介していきます。 不定期配信ですが、興味を持っていただけたらぜひ購読をお願いします。

January 16, 2022 Â· Shunya Ueta
Amazon の検索改善事例

[抄訳] Daria Sorokina さんによる、 Amazon 検索での製品のランキング付けの楽しさ at MLconf SF 2016

1 日遅れてしまいましたが、情報検索・検索技術 Advent Calendar 2021 25 日目の記事です。 ついにアドベントカレンダー最終日を迎えました! 今年はまだ検索領域のアドベントカレンダーが作られていないからということで、勢いで情報検索・検索技術 Advent Calendar 2021を作りましたが、多くの方に投稿に協力していただきありがとうございました。 社内勉強会の発表でネタを探しており、2016 年と少し昔の情報ですが、Amazon の製品検索において、どのようにランキングを行っているかの公演動画が非常に面白かったので、勉強がてら残したメモを記事として公開します。 今回の口頭発表は MLconf という開発者会議(非学会・非アカデミック)で発表されています。 自分が知る限り、MLconf は機械学習黎明期から高品質な発表が継続されて発信されており、非常に素晴らしいカンファレンスの一つ。 国際会議には投稿されていないが、実応用の観点からしてとても学びの多い発表がとても多いです。 機械学習の応用を考えている場合、世界の最先端事例を知ることができるので非常におすすめです。 Referemces Sorokina, D., & Cantu-Paz, E. (2016, July). Amazon search: The joy of ranking products. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval (pp. 459-460). Amazon Search: The joy of ranking products in amazon science Youtube メモ 自分の私的な意見は NOTE: で書いておきます。...

December 26, 2021 Â· Shunya Ueta
Amazon search アーキテクチャ

Amazonがeコマース検索を Lucene により、どうスケールさせているか at Berlin Buzzwords 2019

情報検索・検索技術 Advent Calendar 2021 1 日目の記事です。 早めに書き終えたので、カレンダー登録日の 2021/12/01 よりもはやめですが、記事を公開してしまいます。 Berlin Buzzwords はドイツで毎年開催されている OSS を利用した検索、データ処理、データベースに焦点をあてたカンファレンスです。 検索関係のシステムに携わっている場合、毎年面白い内容が目白押しなのでぜひとも見てほしい。 今回は Berlin Buzzwords 2019 で発表された「Amazon では Lucene をどう活用して e コマース検索をスケールさせているか」の講演動画を社内勉強会で紹介するために視聴したので、そのメモを公開する。 E-Commerce search at scale on Apache Lucene YouTube Web page PDF 自分の所感などを切り分けるため、自分の意見は IMO ではじめた文にして、メモっています。 Overview クエリの p999 latency に対して非常に厳しい制限を行っている IMO このクエリの p999 latency 定義は、Lucene+(おそらく内製で今も開発している、response を返すための Lucene server?)が返す検索のレスポンスを指していると思われる p99.9 latency を SLA として、監視しているのはたしかにとてもシビアな基準だと感じる。 Amazon の query rate はめちゃくちゃピーキー (daily, weekly, yearly) Why Lucene?...

November 26, 2021 Â· Shunya Ueta

クエリ分類(Query Classification) について社内の勉強会で話してきた

今年の 10 月から、新しく入社した同僚とともに、検索領域の論文や技術ブログを定期的に紹介する社内勉強会をはじめてみた。 定常的に開催されることが一番大事だよねという方針になったので、以下のような仕組みで、可能な限り低コストで継続できるような仕組みにした。 参加者は何も準備をしなくても大丈夫で、勉強会中に紹介された論文をみたり話を聞くだけで良い 発表者は凝った資料は用意するのは必須ではなく、極論論文を画面共有で見せながらしゃべるだけでも問題なし 当面の目標としては、来年の年末まで継続されているように気長に続けていきたい。 第一回は、発起人の一人である自分がクエリ分類について発表を行った。 Query Understanding for Search Engines (The Information Retrieval Series, 46) の第二章を主にテーマとして取り上げて紹介した。 メイントピックは KDDCup2005 として開催されたクエリ分類コンペの優勝者の手法について紹介を行ったので、気になる方はスライドを公開しているので御覧ください。 Query Understanding for Search Engines. Chap2 Query Classification from Shunya Ueta このコンペの特徴として、 データセットが生データ特有の問題として汚い そしてラベルデータの規模がとても少ない という鬼畜仕様だった。 だがコンペ参加者はそんな状態を物と物せずにありとあらゆる手段で精度向上に努めていてそれらの手法と姿勢がとても参考になった。 検索領域は本当に奥深い…

October 9, 2021 Â· Shunya Ueta

eコマースの検索と推薦についてのサーベイ論文である 'Challenges and research opportunities in eCommerce search and recommendations' を社内勉強会で発表した

SIGIR eCom を探索していたら発見したサーベイ論文の “Challenges and research opportunities in eCommerce search and recommendations"が面白かったので、社内の勉強会で発表してきた。 和訳すると、「e コマースの検索と推薦における挑戦と研究トピック」で、e コマースにおける検索と推薦の課題が明瞭に書かれていて非常に面白い論文でした。 自分もまだ検索エンジニアとして日が浅いので、手持ちのパターンを増やせるように日々勉強していますが、この論文のおかげでかなり解像度が上がった。 Introducing "Challenges and research opportunities in eCommerce search and recommendations" from Shunya Ueta 個人的に面白かったのは、 そもそも、顧客が商品を検索するというタスクの奥深さと面白さが知れる Query Understanding は、非構造なクエリを構造化されたクエリに変換するのが究極的な目標 Learn to Rank(LtR)の実践的な課題点として、LtR 適用時に、Native Ranker とのギャップが発生して非連続な検索結果を返してしまうことがある 実際のクエリから、購入される商品はクエリと商品が関連性が高いとは限らないのでモデルを学習させる際には要注意 Amazon での実例として クエリ「ダイヤモンドリング」に対して LtR を適用すると、実際のクエリとそれに紐づくランキングシグナルから学習すると、「ダイヤモンドリング」というクエリで、「ジルコニウムリング」が大量に購買されていたので LtR では、「ダイヤモンドリング」というクエリに対して、「ジルコニウムリング」を表示するようになってしまった これは、学習データを全く見ないで適用するとそうなりそうだけど、広範囲に影響を及ぼす LtR の QA は非常に骨が折れそう Ref: Amazon Search: The Joy of Ranking Products スライド作成元の Markdown ファイルはhurutoriya/deckはこちらです。 スライド内のリンクに簡単にアクセスできます。...

July 10, 2021 Â· Shunya Ueta