Search Engineering Newsletter vol.07

Search Engineering Newsletter 7 回目の配信です。 今回のイチオシは、Andre Ng 先生の対談記事「Unbiggen AI」です。 Search Go beyond the search box: Introducing multisearch Google が導入する、画像検索 → 自然言語による検索の二段階検索である multisaerch。 Google IO 2022 で、強調されていたのは Google Lens と組み合わせて multisaerch をできるようにしたいと提案されていて、なるほど! 確かに日常的に Google Lens を装着するようになれば multisearch の利用状況はものすごく自然だなと思った。 妄想だが、Google Lens がスタンドアロンで動くように機械学習モデルとかは乗せる必要は極論必要なくて、Google Pixel 上に搭載された機械学習モデルで処理を実行、その結果を視覚には Google Lens 、聴覚には Google Pixel Buds という組み合わせもありそうだなと思いを馳せた。 How our Quality Raters make Search results better - Google Search Help Google が公開している、検索品質の評価者が検索結果をどのようにかいぜんしているか。仕事でも検索品質の評価ガイドラインを先日書いていたが、かなり参考にさせてもらった。こういう質の高い文章を書けるようになっていきたい。 利用者にこういうことをするといいよとメッセージとして啓蒙する役割もあるのかもしれない。 Our Search Liaison on 25 years of keeping up with search 25 年間検索業界に関わってきた Google 検索の広報担当者である Danny さんのインタビュー記事。良い感じに Google 検索の改善の歴史がまとまっているので、良い記事をたくさん見つけることができた。...

June 10, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.06

6 回目の配信です。 今回のイチオシは、DoorDash の検索システム刷新の記事です。 Search Apache Solr Release Notes Solr 9.0.0 がリリースされました。 Elasticsearch と同じく、 Lucene 9 の ANN をサポートしたことにより、近傍探索機能が追加された。 Apache Solr 9.0.0 がリリースされました! - KandaSearch リリース文の日本語訳も公開されていました。 Also in 9.0 is a brand new Solr Ref Guide, completely re-organized and built on @antoraproject which gives us a dozen features we’ve wanted like search. Which is probably the one you really wanted too: https://solr.apache.org/guide/solr/latest/ > https://twitter.com/childerelda/status/1524854759022379017 Solr 9 のリリースに伴い、Apache Solr Reference Guide も再編成されました。検索機能がサイトに搭載されたと言及されているので便利になったのでは?...

May 24, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.05

5 回目のニュースレター配信です。更新頻度を保つために、1 時間で読めるだけ記事を読んで配信していくスタイルに次回からしようと思いました。 本格的に精読したい面白い記事が来ると一時間なんて一瞬で潰れてしまう… Search Introducing Natural Language Search for Podcast Episodes Spotify が Podcast 検索において text matching の従来の検索エンジンではなく、ニューラル検索を導入した解説記事。 ニューラル検索の実運用例として面白かったので、以下に抄訳として内容をまとめた。 Beyond term-based Search 「electric cars climate impact」と自然言語のクエリを Elasticsearch に投げても何も検索結果が表示されなかった…だが検索されなかったのは、Spotify 上の Podcast に関連する内容がなかったからなのだろうか? NOTE:個人的に本当に結果が出なかったのかは気になるところではある。ワードの完全一致ならともかく、BoW や BM25 で検索すれば結果は出るのでは…? Natural Language Search 自然言語検索(Natural Language Search、またの名を意味検索(Semantic Search) と呼ばれる技術について調査を始めた。すごくざっくり言えば、従来ではクエリとドキュメントの単語の一致によって検索を行っていたが、意味検索ではクエリとドキュメントの意味的な相関によって検索を行う。 実際の検索結果の例を見ても、クエリのすべての単語が Podcast のタイトルには含まれていない(Elasticsearch が検索結果を出さない理由でもある)が検索結果として妥当なことがわかる。 Technical solution これらの結果を実現するために深層学習の技術である、自己教師学習と Transformer を利用、そしてそれらの結果を高速に提供するために近似近傍探索(Approximate Nearest Neighbor (ANN))を利用する。 共通の埋め込み空間上で、クエリのベクトルに近い Podcast を検索結果として計算する。また、Podcast の題目、説明文、そして親ポッドキャストのテキスト情報などを連結して特徴量とする。 Picking the right pre-trained Transformer model for our task BERT のような Transformer モデルは、自然言語処理タスクでは現在最高峰の性能を誇っている。 BERT は 2 つの観点から高性能になっている...

May 2, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.04

Search Engineering Newsletter - revue で 3 回配信してみた結果、自分のウェブサイトから情報配信することと、ニュースレターを通じた情報発信はあまり変わらないなと感じた。 結論 Revue での配信はやめて自分のブログでニュースレターを発信することにしました。 メール配信ではないのでニュースレターと読んでいいかはわかりませんが… ニュースレターの記事をtagとしてまとめた記事一覧はこちらです。 https://shunyaueta.com/tags/newsletter/ 経緯 例えば、過去に言及1した ニュースレター形式だと Twitter では届かない層 だが、自分のサイトは公開しているので、誰でも見れる。 そのためリーチする層に差が出るわけでもなかったかなと今更ながら気づいた。 また、 高品質な情報を一箇所にまとめて発信するなら Revue を使わなくても自分のサイトを通じても問題なく発信できるのでは 可能なら自分の執筆物を分散させずにまとめたい メール配信で届くというのは Revue の一つの特色ではあると思いますが、ニュースレターの RSS を用意すれば、メール配信はされなくなりますが、RSS でも同じような経験を体験できる などの理由もあった。 ニュースレターを通じた読んだ記事の感想まとめ行為は、単に流し読みするよりも自分の言葉で説明できるように理解に務めるので、自分の情報収集の消化の場として優れていることがわかったのは収穫でした。 なのでもしニュースレターを気に入っていただけた読者の方がもしいればご安心ください(続けますよ(春日さん風に)) 代替手段として、newsletter のタグを付与した記事の RSS2 を作成しています。 手持ちの RSS リーダーに登録していただければ newsletter の更新を簡単に管理することができます。 Search Engineering Newsletter vol.00 ↩︎ newsletter RSS: https://shunyaueta.com//tags/newsletter/index.xml ↩︎

April 7, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.03

3 回目のニュースレター配信です。 前回配信した中での人気記事 Top3 メール配信で最もアクセスされた記事を紹介します。 Amazon が e コマース検索を Lucene により、どうスケールさせているか at Berlin Buzzwords 2019 6 clicks 390 億から 820 億パラメータへ| LINE の巨大言語モデル HyperCLOVA 開発の裏側 5 clicks メルカリの検索基盤の変遷について 5 clicks Articles Search Amazon の製品検索で使われるロバストなキャッシュ手法の論文「ROSE: Robust Caches for Amazon Product Search」 Amazon 検索で使用されているロバストなキャッシュの仕組みについて紹介した Blog 記事を書きました。 キャッシュ機構の中で、クエリ書き換えと深層学習モデルの推論結果のキャッシュを同時に実行している点が技術的にとても面白い点です。 検索一筋 10 年のエンジニアが語る、1,800 万点の商品検索パーソナライズ化への挑戦- モノタロウ モノタロウさんの検索機能はとてもおもしろいんですが、その開発裏が書かれている記事。 例えばですが、工具の通販モノタロウ 測定・測量用品 測定用品 厚さ測定とかを見てるとわかるんですが、各商品に付随する商品のファセットの種類が鬼のように細かくてどう管理しているのか非常に気になりますね。 例えば、キーワード入力の少しの違いでユーザーが必要としている商品が違ってくることもあり、全文検索機能だけでは計算ができない部分を外側から調整する仕組みなども構築してきました。わかりやすい例をあげると、「3m テープ」と検索された場合は、ブランドの 3M(スリーエム)社製のテープを求めているお客様が多く、「テープ 3m」と検索された場合は 3 メートルのテープを求めているお客様が多いなどを判定して検索結果を出し分けています。 良い話ですね。確かに bi-gram としては一緒でも、Query intent は全く違いそう。...

March 28, 2022 Â· Shunya Ueta