Search Engineering Newsletter を substack へ移行します

Search Engineering Newsletter vol.04 では、Revue から自分の Blog での配信に移りました。 その時の経緯としては だが、自分のサイトは公開しているので、誰でも見れる。 そのためリーチする層に差が出るわけでもなかったかなと今更ながら気づいた。 でしたが、 実際問題、自前の Blog でもニュースレターでも誰でも見れる事自体は変わらないが、誰に届くかは Blog ではなくニュースレターの方が幅広い読者に見てもらえるのでは? ニュースレター専用のメディアにすることで、ニュースレター自体がどれくらい需要があるかを切り分けて追跡しやすい 1 最近は更新を告知するチャンネルの Twitter が将来的にどうなるかわからない状態2。そしてその流入量は決して少なくない。 また、自分が書いた記事を届ける手段をプラットフォームに依存しない形式で保持して、読者とつながっておくのは改めて重要性を感じた そのため、substack でニュースレターを再開してみることにしました。 substack で期待していることは、読者とのコミュニケーションが取りやすくなるのでニュースレターを通じて、ピックアップした記事の議論や感想などを交えるようになると面白そうだなと思っています。 配信方法を都度変えて、読者の方にはお手間をおかけしますが、配信しているニュースレターを面白いと感じていただけた方は substack での購読を以下からよろしくおねがいします。 ニュースレターの配信もこれ以降は substack のみで行う予定です。 https://searchengineeringnewsletter.substack.com/ 過去記事もこの記事以外は Blog からは削除して、substack に移行してみます。 ↩︎ 既存の購読者の方がいた revue に戻ろうかと思ったのですが、Briefing: Twitter Will Shut Down Newsletter Product Revue By Year End — The Information という記事をみてやめた。実際に購読しているニュースレターが revue をやめまくっている(今回の Twiter 買収で Revue が停止するという情報がでまわっているため。) いまのイーロン・マスクの動きを見ていると選択と集中の時期で、revue を維持するという未来が予想できない。 ↩︎...

December 4, 2022 · Shunya Ueta

情報検索・検索技術 Advent Calendar 2022 を開催します

2021 年に引き続き、2022 年も情報検索・検索技術 Advent Calendar を作ってみました。 情報検索・検索技術 Advent Calendar 2022 - Adventar kivantium さんの 創作+機械学習 Advent Calendar 2022 を開催します - kivantium 活動日記 の記事がいいなと思ったので、僕も自分の Blog で告知しておきます。 2021 年にアドベントカレンダーを作成したきっかけとしては、そもそもブログ記事の執筆が自分は好き他人が書いた記事を読むのは楽しい。 アドベントカレンダーの文化はそういう自分の嗜好にぴったりなので、自分の好きな検索技術領域がまだ作られていない! 作らねば! というのがモチベーションでした。 実際のところ、検索技術に携わってはいるが、Blog 記事をあまり書かない人もアドベントカレンダー起因で記事を書くきっかけになっているじゃないかなと思っています。 現時点で 登録数 12/25人となっています。ご登録頂いた方々ありがとうございます! みんなでワイワイ投稿して盛り上げていきましょう。

November 5, 2022 · Shunya Ueta
従来の検索結果、近似近傍探索、ハイブリッド検索の比較

Elasticsearch 8.4 から利用可能な従来の検索機能と近似近傍探索を組み合わせたハイブリッド検索を試す

表題の通り、Elasticsearch 8.4 から待望の近似近傍探索と従来の検索を組み合わたハイブリッド検索が可能になったらしいので、試してみました。 Elascticsearch 8 で導入された近似近傍探索について Elasticsearch 公式の記事1がわかりやすく近似近傍探索について語られています。 また、日本語では@pakio さんの紹介記事2も非常にわかりやすいので、そちらも御覧ください。 嬉しいけど物足りない点 公式の資料3や@pakio さんの資料でも触れられていますが、 You can’t currently use the Query DSL to filter documents for an approximate kNN search. If you need to filter the documents, consider using exact kNN instead. Elasticsearch の Query DSL との併用不可というのが物足りない点でした。 端的に説明すると Elasticsearch 8 で利用可能になった近似近傍探索は、あくまでベクトル間のみの近似近傍探索のみできるのであって、従来の Elasticsearch の検索機能(term や filter)と近似近傍探索を組み合わせて検索できないということです。 Vespa の開発者の Jo さんも同様の点4について触れていました。 The most surprising part of the announcement is that they won’t allow combining the nearest neighbor search with standard query terms and filters....

October 29, 2022 · Shunya Ueta
デモアプリの動画

Elasticsearchの近似近傍探索を使って、ドラえもんのひみつ道具検索エンジンを作ってみた

Elasticsearch 8 系から使用可能になった近似近傍探索1を使って、ドラえもんのひみつ道具の自然言語検索ができる検索エンジンを作ってみた。 デモ動画のように、検索したいひみつ道具を説明する文章することで近しいひみつ道具が検索されます。 コードは GitHub に公開してあるので、興味のある方は手元で、動かして遊ぶことが出来ます。 poetry と Docker さえあれば動くようになっています。 hurutoriya/doraemon-himitsu-dogu-search: Doraemon Himitsu Dogu Japanese semantic search based on Elascticsearch ANN システムの概要図はこんな感じ 所感 ドラえもんのひみつ道具のデータセットを今回1から作ったが、パースと前処理がめんどくさくてここが一番手間がかかった。が、工夫しないと出来なかったので、一番楽しいところでもあった。 文章の特徴抽出は、sonoisa/sentence-bert-base-ja-mean-tokens-v2 · Hugging Faceを使わせていただき、驚くほど簡単に実現できた。 実際はもっと精度を高めるには、fine tune などがいいのだろうが、システム側を作ることに注力したかったので今回は割愛 デモアプリの構築は streamlit を使って 20m くらいで作れたので、相変わらず便利すぎて愛用している。今回の検索エンジンは CLI から実行もできるが、こうやってデモアプリがあったほうがそれっぽくて気持ちいい。 インデキシング時にトーカナイザーのことなど全く考えずに特徴ベクトルだけインデキシングして、それで検索が成り立つというのは新鮮。閾値設定しなければゼロヒット問題にも直面しないので、できることの幅は広がりそう。 Elasticsearch の近似近傍探索は、今回ベクトル同士の近似近傍探索しかやっていないが、それもインデキシング、クエリ部分は公式ドキュメントを見れば事足りたので変にハマることはなかった。 クエリ部分はこれだけで書けた。 1 2 3 4 5 6 7 8 9 10 query = { "knn": { "field": "vector", "query_vector": sentence_embeddings[0], "k": 10, "num_candidates": 100, }, "fields": ["name", "description"], } result = es....

October 23, 2022 · Shunya Ueta
Google 検索キーワード候補

デスクトップのGoogle 検索の検索フォームUIがかなり変化していた

現在 AB テスト中なのかもしれないが、かなり変化している。 以前は QAC(Query Auto Completition) のみ、検索フォームにフォーカスがあたった時に表示していた記憶がある。 だが、現在は一度キーワードを検索して検索結果画面に遷移した後に、検索フォームにフォーカスすると の画面のように、Query Suggest や Knowledge graph の結果をキーワードフォームに表示するようになった。 確かに、キーワードを再度検索する際に上記のコンポーネントを入れるのは試してみるのは良いのかもしれない。 特にデスクトップの検索ならハコもかなり余っているのでまだ有効活用できる余地はありそう。 でも、検索のユーザーインターフェースを紹介する書籍ではアンチパターンなのでどうなんだろうか。 情報検索のためのユーザインタフェース 1.1: KEEPING THE INTERFACE SIMPLE https://searchuserinterfaces.com/book/sui_ch1_design.html Figure 1.1: Search results listings from Infoseek in 1997 (left) and Google in 2007 (right), courtesy Jan Pedersen. 画像は上記から引用 と思いつつも、今の Google 検索のインターフェイスも 書籍の Google 検索と見比べてもかなりリッチになっているので、書籍が執筆された 2011 年からすると時代は変わっている感も否めない。 スクリーンショットが取られた 2007 年から 15 年以上も経過してますしね @joho_hideo さんから面白いコメントがあったので追記しました。 @joho_hideo 特別事例ですが「COVID-19」の検索結果はよく設計されていると思います。 https://twitter.com/joho_hideo/status/1499549278012055552 確かに、これぞまさに情報検索の真髄ですね。 ダッシュボード的な情報を表示している...

March 4, 2022 · Shunya Ueta