Search Engineering Newsletter vol.03

3 回目のニュースレター配信です。 前回配信した中での人気記事 Top3 メール配信で最もアクセスされた記事を紹介します。 Amazon が e コマース検索を Lucene により、どうスケールさせているか at Berlin Buzzwords 2019 6 clicks 390 億から 820 億パラメータへ| LINE の巨大言語モデル HyperCLOVA 開発の裏側 5 clicks メルカリの検索基盤の変遷について 5 clicks Articles Search Amazon の製品検索で使われるロバストなキャッシュ手法の論文「ROSE: Robust Caches for Amazon Product Search」 Amazon 検索で使用されているロバストなキャッシュの仕組みについて紹介した Blog 記事を書きました。 キャッシュ機構の中で、クエリ書き換えと深層学習モデルの推論結果のキャッシュを同時に実行している点が技術的にとても面白い点です。 検索一筋 10 年のエンジニアが語る、1,800 万点の商品検索パーソナライズ化への挑戦- モノタロウ モノタロウさんの検索機能はとてもおもしろいんですが、その開発裏が書かれている記事。 例えばですが、工具の通販モノタロウ 測定・測量用品 測定用品 厚さ測定とかを見てるとわかるんですが、各商品に付随する商品のファセットの種類が鬼のように細かくてどう管理しているのか非常に気になりますね。 例えば、キーワード入力の少しの違いでユーザーが必要としている商品が違ってくることもあり、全文検索機能だけでは計算ができない部分を外側から調整する仕組みなども構築してきました。わかりやすい例をあげると、「3m テープ」と検索された場合は、ブランドの 3M(スリーエム)社製のテープを求めているお客様が多く、「テープ 3m」と検索された場合は 3 メートルのテープを求めているお客様が多いなどを判定して検索結果を出し分けています。 良い話ですね。確かに bi-gram としては一緒でも、Query intent は全く違いそう。...

March 28, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.02

2 回目のニュースレター配信です。 前回の人気記事 Top3 を紹介 LINE MUSIC が挑んだパフォーマンス改善。膨大な楽曲数を扱うための Elasticsearch の設計 7 clicks Elasticsearch Learning to Rank プラグインの使い方とポイント 5 clicks DMM の検索に機械学習を導入して、A/B テストで圧勝した考え方 4 clicks Articles Search Building a Search Technology Radar Technology Radar という概念を検索技術領域に適用してみたよという記事。 Technology Radar をざっくり紹介すると、同心円状の領域を 4 象限に分割して、中心に近ければ近いほど必ずこの技術に適応していおくべき、そして中心から外れていくと将来的に重要になっていくだろうというトピックを可視化する概念。 概念としては面白んだが、ざっくりしすぎてるなと思っていたら著者の Eric さんが気になる領域を挙げてくれていた。 The Rise of Neural Search Neural Search の定義としては、形態素ベースの検索を超えた検索手法の総称(広すぎる…w)。 Neural Search は今はみんな使っていないけれども、近いうちに使い始める未来が来るんじゃないかという予想 Blossoming of Non Lucene-based Engines 長年全文検索エンジンの Lucene ベースの検索サーバーである Elasticsearch, Solr がメインで使われてきたが。最近は非 Lucene ベースの検索エンジンも出てきた。例として挙げられたソフトウェアとしては Tantivy: Java 言語ではなく Rust で書かれた Lucene の再実装 milvus, weaviate: ベクトル検索エンジン メルカリの検索基盤の変遷について...

February 9, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.01

以前に告知したとおり、検索領域と機械学習領域で面白かった記事をここで紹介していきます。 ガッツリ量を書くために溜め込むよりも一定量溜まったら配信したほうが、書く側としても気が楽なので暫くその方針で行ってみます。 Articles Search elastic/elasticsearch - Integrate ANN search #78473 elasticsearch 8.x では Lucene 9.0 から提供される ANN(近似近傍探索)機能が提供される予定。以前から提供されていた elasticsearch の exact k NN はプロダクション環境下では使えない性能だったが、Lucene の ANN 検索は結果がどうなるか非常に気になる。ES に組み込まれることで、ANN の結果に対して、フィルタリング、ハイブリッド検索など ES の検索エンジンと組み合わせた利用が期待できるので追っておきたい。 apache/solr - SOLR-15880 #476 Solr も同じく ANN の提供を準備中。 個人的には、ANN のことを kNN と書くのは紛らわしいのでやめてほしいし、ANN のことを Neural Search と読んでいて、え?いいの??と思ったりした。 これが実装されれば、Vespaや、各 OSS やエンタープライズの近似近傍探索エンジンがどうなっていくのかは非常に面白い未来ですね。 Reddit Search: A new API Reddit が検索 API を刷新したお話。 システム的にどう嬉しいかや、チーム編成が変わって、10 年間でインフラエンジニアが兼業で開発していた状態から、検索エンジニア、専任のクライアントエンジニアがフルタイムで改善していく体制に変わったなど、変化がしれて面白かった。 今までのreddit の検索システム Blog 記事シリーズも面白そうだったので読もう。 Search at Shopify—Range in Data and Engineering is the Future...

January 21, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.00

検索技術とその関連領域を取り扱うニュースレターを不定期配信してみることにします。 2022 年から心機一転として、情報発信を今まで Twitter メインでやっていましたが、ニュースレターで行っていこうと思っています。 以下の Revue のリンクから登録が可能です。 Search Engineering Newsletter By hurutoriya 扱うトピックとしては、検索エンジンと情報検索の周辺領域です。 経緯としては、自分の職域である情報は積極的に収集しており、どうせなら発信したいなと考えて Twiter や、機械学習エンジニア時代には Revue を使って MLOps 領域に特化してニュースレター配信を試しにやってみた(覚えているかたもいるかも?)ことがありましたが、結局 Twitter で配信すれば同じではと考えてしまい、なんだかんだ継続できませんでした。 ですが、最近は Twitter での情報取得から抜け出して、一息ついた状態で情報収集を行うようになりたいなと思うなかで、改めて Twitter の発信だけではなく、ニュースレターのように頻度は不定期だが高品質な情報が一箇所にまとまって届けることができたら面白いなと考えました。(またニュースレター形式だと Twitter では届かない層にも届くんじゃないのかなと) 現在は自分は検索エンジニアとして働いており、検索技術と情報検索の情報を積極的に収集しています。そのなかで自分が当該領域で注目したニュースレターを不定期に配信できればなと思ってニュースレターを再開してみました。 検索領域に関連する気になった記事や自分の Blog 記事の執筆などをここで紹介していきます。 不定期配信ですが、興味を持っていただけたらぜひ購読をお願いします。

January 16, 2022 Â· Shunya Ueta