Search Engineering Newsletter 7 回目の配信です。 今回のイチオシは、Andre Ng 先生の対談記事「Unbiggen AI」です。
Search Go beyond the search box: Introducing multisearch
Google が導入する、画像検索 → 自然言語による検索の二段階検索である multisaerch。
Google IO 2022 で、強調されていたのは Google Lens と組み合わせて multisaerch をできるようにしたいと提案されていて、なるほど! 確かに日常的に Google Lens を装着するようになれば multisearch の利用状況はものすごく自然だなと思った。 妄想だが、Google Lens がスタンドアロンで動くように機械学習モデルとかは乗せる必要は極論必要なくて、Google Pixel 上に搭載された機械学習モデルで処理を実行、その結果を視覚には Google Lens 、聴覚には Google Pixel Buds という組み合わせもありそうだなと思いを馳せた。
How our Quality Raters make Search results better - Google Search Help
Google が公開している、検索品質の評価者が検索結果をどのようにかいぜんしているか。仕事でも検索品質の評価ガイドラインを先日書いていたが、かなり参考にさせてもらった。こういう質の高い文章を書けるようになっていきたい。 利用者にこういうことをするといいよとメッセージとして啓蒙する役割もあるのかもしれない。
Our Search Liaison on 25 years of keeping up with search 25 年間検索業界に関わってきた Google 検索の広報担当者である Danny さんのインタビュー記事。良い感じに Google 検索の改善の歴史がまとまっているので、良い記事をたくさん見つけることができた。...
Search Engineering Newsletter vol.06
6 回目の配信です。 今回のイチオシは、DoorDash の検索システム刷新の記事です。
Search Apache Solr Release Notes
Solr 9.0.0 がリリースされました。 Elasticsearch と同じく、 Lucene 9 の ANN をサポートしたことにより、近傍探索機能が追加された。
Apache Solr 9.0.0 がリリースされました! - KandaSearch
リリース文の日本語訳も公開されていました。
Also in 9.0 is a brand new Solr Ref Guide, completely re-organized and built on @antoraproject which gives us a dozen features we’ve wanted like search. Which is probably the one you really wanted too: https://solr.apache.org/guide/solr/latest/ > https://twitter.com/childerelda/status/1524854759022379017
Solr 9 のリリースに伴い、Apache Solr Reference Guide も再編成されました。検索機能がサイトに搭載されたと言及されているので便利になったのでは?...
Search Engineering Newsletter vol.05
5 回目のニュースレター配信です。更新頻度を保つために、1 時間で読めるだけ記事を読んで配信していくスタイルに次回からしようと思いました。 本格的に精読したい面白い記事が来ると一時間なんて一瞬で潰れてしまう…
Search Introducing Natural Language Search for Podcast Episodes
Spotify が Podcast 検索において text matching の従来の検索エンジンではなく、ニューラル検索を導入した解説記事。 ニューラル検索の実運用例として面白かったので、以下に抄訳として内容をまとめた。
Beyond term-based Search 「electric cars climate impact」と自然言語のクエリを Elasticsearch に投げても何も検索結果が表示されなかった…だが検索されなかったのは、Spotify 上の Podcast に関連する内容がなかったからなのだろうか?
NOTE:個人的に本当に結果が出なかったのかは気になるところではある。ワードの完全一致ならともかく、BoW や BM25 で検索すれば結果は出るのでは…?
Natural Language Search 自然言語検索(Natural Language Search、またの名を意味検索(Semantic Search) と呼ばれる技術について調査を始めた。すごくざっくり言えば、従来ではクエリとドキュメントの単語の一致によって検索を行っていたが、意味検索ではクエリとドキュメントの意味的な相関によって検索を行う。
実際の検索結果の例を見ても、クエリのすべての単語が Podcast のタイトルには含まれていない(Elasticsearch が検索結果を出さない理由でもある)が検索結果として妥当なことがわかる。
Technical solution これらの結果を実現するために深層学習の技術である、自己教師学習と Transformer を利用、そしてそれらの結果を高速に提供するために近似近傍探索(Approximate Nearest Neighbor (ANN))を利用する。
共通の埋め込み空間上で、クエリのベクトルに近い Podcast を検索結果として計算する。また、Podcast の題目、説明文、そして親ポッドキャストのテキスト情報などを連結して特徴量とする。
Picking the right pre-trained Transformer model for our task BERT のような Transformer モデルは、自然言語処理タスクでは現在最高峰の性能を誇っている。 BERT は 2 つの観点から高性能になっている...