Web 検索とデータマイニングのトップカンファレンス WSDM2022 で気になった研究

WSDM は web 検索とデータマイニングのトップカンファレンスの一つです。検索好きなら見てて楽しい論文がたくさん公開されており、毎年採択された研究を楽しみに見ています。 今回 WSDM2022 が 2022/02/21 - 2022/02/25 に開催されたので気になった発表をメモ。 今までこういう気になったトピックなどは Joplin にメモして公開していなかったが、公開しても差し支えはないなと思ったので Blog 記事として公開していってみる。 自分の興味関心トピックは今は基本的に検索関連と機械学習の実践事例なので、それに沿った選出になっています。 Industry Day https://www.wsdm-conference.org/2022/industry-day-schedule/ Challenges in Data Production for AI with Human-in-the-Loop, Dmitry Ustalov (Toloka) Scalable Attribute Extraction at Instacart, Shih-Ting Lin (Instacart) Graph Neural Networks for the Global Economy with Microsoft DeepGraph, Jaewon Yang, Alex Samylkin, Baoxu Shi (LinkedIn, Microsoft) Near real time AI personalization for notifications at LinkedIn, Ajith Muralidharan (LinkedIn) Invited Talk: Rethink e-Commerce Search Workshops https://www....

March 1, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.02

2 回目のニュースレター配信です。 前回の人気記事 Top3 を紹介 LINE MUSIC が挑んだパフォーマンス改善。膨大な楽曲数を扱うための Elasticsearch の設計 7 clicks Elasticsearch Learning to Rank プラグインの使い方とポイント 5 clicks DMM の検索に機械学習を導入して、A/B テストで圧勝した考え方 4 clicks Articles Search Building a Search Technology Radar Technology Radar という概念を検索技術領域に適用してみたよという記事。 Technology Radar をざっくり紹介すると、同心円状の領域を 4 象限に分割して、中心に近ければ近いほど必ずこの技術に適応していおくべき、そして中心から外れていくと将来的に重要になっていくだろうというトピックを可視化する概念。 概念としては面白んだが、ざっくりしすぎてるなと思っていたら著者の Eric さんが気になる領域を挙げてくれていた。 The Rise of Neural Search Neural Search の定義としては、形態素ベースの検索を超えた検索手法の総称(広すぎる…w)。 Neural Search は今はみんな使っていないけれども、近いうちに使い始める未来が来るんじゃないかという予想 Blossoming of Non Lucene-based Engines 長年全文検索エンジンの Lucene ベースの検索サーバーである Elasticsearch, Solr がメインで使われてきたが。最近は非 Lucene ベースの検索エンジンも出てきた。例として挙げられたソフトウェアとしては Tantivy: Java 言語ではなく Rust で書かれた Lucene の再実装 milvus, weaviate: ベクトル検索エンジン メルカリの検索基盤の変遷について...

February 9, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.01

以前に告知したとおり、検索領域と機械学習領域で面白かった記事をここで紹介していきます。 ガッツリ量を書くために溜め込むよりも一定量溜まったら配信したほうが、書く側としても気が楽なので暫くその方針で行ってみます。 Articles Search elastic/elasticsearch - Integrate ANN search #78473 elasticsearch 8.x では Lucene 9.0 から提供される ANN(近似近傍探索)機能が提供される予定。以前から提供されていた elasticsearch の exact k NN はプロダクション環境下では使えない性能だったが、Lucene の ANN 検索は結果がどうなるか非常に気になる。ES に組み込まれることで、ANN の結果に対して、フィルタリング、ハイブリッド検索など ES の検索エンジンと組み合わせた利用が期待できるので追っておきたい。 apache/solr - SOLR-15880 #476 Solr も同じく ANN の提供を準備中。 個人的には、ANN のことを kNN と書くのは紛らわしいのでやめてほしいし、ANN のことを Neural Search と読んでいて、え?いいの??と思ったりした。 これが実装されれば、Vespaや、各 OSS やエンタープライズの近似近傍探索エンジンがどうなっていくのかは非常に面白い未来ですね。 Reddit Search: A new API Reddit が検索 API を刷新したお話。 システム的にどう嬉しいかや、チーム編成が変わって、10 年間でインフラエンジニアが兼業で開発していた状態から、検索エンジニア、専任のクライアントエンジニアがフルタイムで改善していく体制に変わったなど、変化がしれて面白かった。 今までのreddit の検索システム Blog 記事シリーズも面白そうだったので読もう。 Search at Shopify—Range in Data and Engineering is the Future...

January 21, 2022 Â· Shunya Ueta

Search Engineering Newsletter vol.00

検索技術とその関連領域を取り扱うニュースレターを不定期配信してみることにします。 2022 年から心機一転として、情報発信を今まで Twitter メインでやっていましたが、ニュースレターで行っていこうと思っています。 以下の Revue のリンクから登録が可能です。 Search Engineering Newsletter By hurutoriya 扱うトピックとしては、検索エンジンと情報検索の周辺領域です。 経緯としては、自分の職域である情報は積極的に収集しており、どうせなら発信したいなと考えて Twiter や、機械学習エンジニア時代には Revue を使って MLOps 領域に特化してニュースレター配信を試しにやってみた(覚えているかたもいるかも?)ことがありましたが、結局 Twitter で配信すれば同じではと考えてしまい、なんだかんだ継続できませんでした。 ですが、最近は Twitter での情報取得から抜け出して、一息ついた状態で情報収集を行うようになりたいなと思うなかで、改めて Twitter の発信だけではなく、ニュースレターのように頻度は不定期だが高品質な情報が一箇所にまとまって届けることができたら面白いなと考えました。(またニュースレター形式だと Twitter では届かない層にも届くんじゃないのかなと) 現在は自分は検索エンジニアとして働いており、検索技術と情報検索の情報を積極的に収集しています。そのなかで自分が当該領域で注目したニュースレターを不定期に配信できればなと思ってニュースレターを再開してみました。 検索領域に関連する気になった記事や自分の Blog 記事の執筆などをここで紹介していきます。 不定期配信ですが、興味を持っていただけたらぜひ購読をお願いします。

January 16, 2022 Â· Shunya Ueta
Amazon の検索改善事例

Daria Sorokina さんによる、 Amazon の検索ランキングについて at MLconf SF 2016

1 日遅れてしまいましたが、情報検索・検索技術 Advent Calendar 2021 25 日目の記事です。 ついにアドベントカレンダー最終日を迎えました! 今年はまだ検索領域のアドベントカレンダーが作られていないからということで、勢いで情報検索・検索技術 Advent Calendar 2021を作りましたが、多くの方に投稿に協力していただきありがとうございました。 社内勉強会の発表でネタを探しており、2016 年と少し昔の情報ですが、Amazon の製品検索において、どのようにランキングを行っているかの公演動画が非常に面白かったので、勉強がてら残したメモを記事として公開します。 今回の口頭発表は MLconf という開発者会議(非学会・非アカデミック)で発表されています。 自分が知る限り、MLconf は機械学習黎明期から高品質な発表が継続されて発信されており、非常に素晴らしいカンファレンスの一つ。 国際会議には投稿されていないが、実応用の観点からしてとても学びの多い発表がとても多いです。 機械学習の応用を考えている場合、世界の最先端事例を知ることができるので非常におすすめです。 Referemces Sorokina, D., & Cantu-Paz, E. (2016, July). Amazon search: The joy of ranking products. In Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval (pp. 459-460). Amazon Search: The joy of ranking products in amazon science Youtube メモ 自分の私的な意見は NOTE: で書いておきます。...

December 26, 2021 Â· Shunya Ueta