Search Engineering Newsletter vol.10

節目となる 10 回目のニュースレター配信です。 今回のイチオシ記事は ABEJA さんの「GPT モデルへの道のり」とメルカリさんの「お手軽な検索 API 構築」記事です。 Search How we’re improving search results when you use quotes - Google Google、引用符による完全一致検索結果をフレーズを中心に表示するよう改善 - PC Watch ダブルクォートを使った完全一致検索を行う際に、web ページのヘッダーや URL などは検索対象外になることで、Google の Web 検索体験を改善した。 厳格なテスト – Google 検索の仕組み Google 検索がどのようにテスト・評価を行っているか。 2021 年に、約 4000 件の変更、約 11000 件の AB テストを行っているらしく驚き。 簡単に逆算しても月間に 900 件 AB テスト???をやっていることになるのだが、どんなことをすればこんな数の AB テストを実行可能になるのだろうか…。 例えば、一つの AB テストで、セグメントと 5 分割したからこれを5回としますならわかるけど、それでも月間に 180 回の AB テストなので現実味がないですね。 Google 検索に関わるエンジニアの数が全体でどれくらいいるのか気になりますが、この成果はさすが世界最大規模の検索エンジンですね。 お手軽な検索 API 構築 | メルカリエンジニアリング...

September 8, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.09

今回のイチオシ記事は、Doug さんの What is a Relevance Engineer? と Ubie さんの Esqa の記事です。 Search Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜 ubie-oss/esqaという Elasticsearch の検索品質をテストできる OSS の紹介。 検索結果に対して、アサーションや過去と現在のランキングの比較を距離として計算してしきい値以上で計算する事ができるらしい。 検索結果のチューニングの辛い点をできるだけ緩和できそうで、これは便利そう。ステートフルなシステムである検索システムをデグレなどを考慮して日々のメンテナンスするの大変ですよね… What is a Relevance Engineer? - OpenSource Connections 日本だとあまり聞き慣れない Relevance Engineer という Job Role ですが、Relevance Engineer に求められる職務内容ってなんだろうと Doug Turnbull さん(Relevant Searchの著者)が執筆した記事。 一般的に日本だと検索エンジニアでひとくくりにされていますが、海外だともう少し細分化されるみたいですね。 Relevance Engineer は、システムの正確性/関連性(Relevance)とパフォーマンス/安定性の間のスイートスポットにまたがる 8 割の問題は、Relevance Engineer は最先端の手法は追いかけず、伝統的な手法で解決する(BM25, Learning to Rank)。なぜならメンテナンス性、スケーラビリティが共に優れているからである 2 割の問題は、先進的な技術を適用する必要がある。NLP や IR 領域の先端事例を常に把握して、その適用を試みる。 Relevance Engineer の業務はデータ中心である Relevance Engineer はデータ駆動で課題を解決する。意思決定は Relevance 指標, performance metrics を基準に行う。 また、Relevance 指標は一概に Ground Truth を決定できないこともある。その場合は、ドメインエキスパートと協業して、顧客がなぜその結果を好んでいるのかを理解して、データを作って行く必要がある。 Relevance Engineer は、Kaggle や学会の課題ではなく実際の企業や顧客の検索課題を解決する。これが意味するのは精度と同程度にシステム面のパフォーマンスにも関心を持っていることを意味する。 Machine Learning Engineer vs Relevance Engineer 最大の差異は、機械学習に焦点を当てているのか、情報検索に焦点をあてているのか また、Relevance Engineer は検索システムを通じて密接に顧客体験に影響を与えるので、それらを考慮する必要がある。 NOTE: ML Engineer も考慮する必要があると思うので、若干ポジショントーク感が強く感じますね。 Interview Questions for Search Relevance Engineers, Data Scientists, and Product Managers | by Daniel Tunkelang | Medium...

August 24, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.08

Search Engineering Newsletter 8 回目の配信です。 今回のイチオシは、Retty さんの検索機能をマイクロサービスとして切り出したお話と、MoT さんの勉強会資料である「Tesla におけるコンピュータビジョン技術の調査」です。 Search 検索サービスの構築 - Retty Tech Blog Retty で検索サービスをマイクロサービスとして切り出したお話。 切り出した理由としては Elasticsearch が返すレスポンスをベースにして各サービスでそのまま使われていた。だが、各サービスがこのフォーマットに依存しているせいで気軽に Elasticsearch の更新ができなかったり、レスポンスを変えるような検索改善も行うのが難しくなっていたのを起因にマイクロサービスへと切り出した。 NOTE:インタフェース設計が割り切っており、お店の id のみを返し全てのデータは検索エンジンは返さないようにしているのが良い設計だなと思いました。今までは、検索エンジンに反映されるまでリードタイムが 1 日あり、古い結果が返ることもあったのところです。実際に、検索エンジンがお店の情報管理を責任を持つのは違いますしね。 また、Go で Elasticsearch の API client として、比較を行ったり、マイクロサービスの切替時にどうやって検索結果が等しく切り出せているかを検証しつつ切り出したのは面白かったです。 Elasticsearch で個人ごとに検索結果を表示するには? ZOZOTOWN を支える検索パーソナライズ基盤アーキテクチャ - ログミー Tech 2020 年 6 月の記事で少し古いですが、ZOZO さんの検索結果をパーソナライズする機能をどのようにつくったかが紹介されています。 「新しいおうち探し」のための AI アシスト検索 〜 Yahoo!不動産の技術紹介 - Yahoo! JAPAN Tech Blog 不動産検索で、機械学習をどうやって活用しているかの紹介記事。 アイデアとして面白いなと思ったのは、NIMA1という画像の審美的美しさを採点するモデルを使って、不動産の外観画像のスコアリングを行っていた点が面白かった。 Search architecture revamp Grab が検索システムをどう刷新したか。 2021 年以前、Grab の検索アーキテクチャは、Elasticsearch をベースにしたテキストマッチングのみをサポートしていた。 課題点としては、 テキストマッチングのみが検索にヒットし、検索意図や文脈が考慮されない たとえば、「Bread(パン)」というクエリで検索した場合、昼ならパンを提供するカフェを探している可能性が高いが、朝なら朝ごはんにパンを食べるために検索を行っている可能性が高い。 Grab は複数のビジネス領域をサポートしているが、各領域の結果が効果的に混ざっていない レガシーコードベースの影響で、改修速度が遅くなっており迅速な新機能開発ができない 刷新後の検索システムは、Multi-recall という枠組みで、検索エンジンを Elasticsearch 以外に、recall を向上させる見込みで埋め込み空間やグラフベースでの Semantic Search を追加。これにより、検索品質の改善を期待している。 (SementicSearch をどう実現しているかの詳細は全く書かれていなくて残念)...

July 15, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.07

Search Engineering Newsletter 7 回目の配信です。 今回のイチオシは、Andre Ng 先生の対談記事「Unbiggen AI」です。 Search Go beyond the search box: Introducing multisearch Google が導入する、画像検索 → 自然言語による検索の二段階検索である multisaerch。 Google IO 2022 で、強調されていたのは Google Lens と組み合わせて multisaerch をできるようにしたいと提案されていて、なるほど! 確かに日常的に Google Lens を装着するようになれば multisearch の利用状況はものすごく自然だなと思った。 妄想だが、Google Lens がスタンドアロンで動くように機械学習モデルとかは乗せる必要は極論必要なくて、Google Pixel 上に搭載された機械学習モデルで処理を実行、その結果を視覚には Google Lens 、聴覚には Google Pixel Buds という組み合わせもありそうだなと思いを馳せた。 How our Quality Raters make Search results better - Google Search Help Google が公開している、検索品質の評価者が検索結果をどのようにかいぜんしているか。仕事でも検索品質の評価ガイドラインを先日書いていたが、かなり参考にさせてもらった。こういう質の高い文章を書けるようになっていきたい。 利用者にこういうことをするといいよとメッセージとして啓蒙する役割もあるのかもしれない。 Our Search Liaison on 25 years of keeping up with search 25 年間検索業界に関わってきた Google 検索の広報担当者である Danny さんのインタビュー記事。良い感じに Google 検索の改善の歴史がまとまっているので、良い記事をたくさん見つけることができた。...

June 10, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.06

6 回目の配信です。 今回のイチオシは、DoorDash の検索システム刷新の記事です。 Search Apache Solr Release Notes Solr 9.0.0 がリリースされました。 Elasticsearch と同じく、 Lucene 9 の ANN をサポートしたことにより、近傍探索機能が追加された。 Apache Solr 9.0.0 がリリースされました! - KandaSearch リリース文の日本語訳も公開されていました。 Also in 9.0 is a brand new Solr Ref Guide, completely re-organized and built on @antoraproject which gives us a dozen features we’ve wanted like search. Which is probably the one you really wanted too: https://solr.apache.org/guide/solr/latest/ > https://twitter.com/childerelda/status/1524854759022379017 Solr 9 のリリースに伴い、Apache Solr Reference Guide も再編成されました。検索機能がサイトに搭載されたと言及されているので便利になったのでは?...

May 24, 2022 Â· Shunya Ueta