以前に告知したずおり、怜玢領域ず機械孊習領域で面癜かった蚘事をここで玹介しおいきたす。 ガッツリ量を曞くために溜め蟌むよりも䞀定量溜たったら配信したほうが、曞く偎ずしおも気が楜なので暫くその方針で行っおみたす。

Articles

elastic/elasticsearch - Integrate ANN search #78473

elasticsearch 8.x では Lucene 9.0 から提䟛される ANN(近䌌近傍探玢)機胜が提䟛される予定。以前から提䟛されおいた elasticsearch の exact k NN はプロダクション環境䞋では䜿えない性胜だったが、Lucene の ANN 怜玢は結果がどうなるか非垞に気になる。ES に組み蟌たれるこずで、ANN の結果に察しお、フィルタリング、ハむブリッド怜玢など ES の怜玢゚ンゞンず組み合わせた利甚が期埅できるので远っおおきたい。

apache/solr - SOLR-15880 #476

Solr も同じく ANN の提䟛を準備䞭。

個人的には、ANN のこずを kNN ず曞くのは玛らわしいのでやめおほしいし、ANN のこずを Neural Search ず読んでいお、え?いいの??ず思ったりした。

これが実装されれば、Vespaや、各 OSS や゚ンタヌプラむズの近䌌近傍探玢゚ンゞンがどうなっおいくのかは非垞に面癜い未来ですね。

Reddit Search: A new API

Reddit が怜玢 API を刷新したお話。 システム的にどう嬉しいかや、チヌム線成が倉わっお、10 幎間でむンフラ゚ンゞニアが兌業で開発しおいた状態から、怜玢゚ンゞニア、専任のクラむアント゚ンゞニアがフルタむムで改善しおいく䜓制に倉わったなど、倉化がしれお面癜かった。

今たでのreddit の怜玢システム Blog 蚘事シリヌズも面癜そうだったので読もう。

Search at Shopify—Range in Data and Engineering is the Future

Relevant Search 著者 Doug Turnbull さんの Shopify の技術ブログ。

ここからは抄蚳

怜玢チヌムをどう機胜するかに぀いお。 Shopify の怜玢チヌムメンバヌは、゚ンゞニアでもデヌタサむ゚ンティストのどちらでもない。代わりにその䞡者のスキルを同時に掻甚しないずいけない堎面が倚々ある。぀たるずころ、良い怜玢のための意思決定には、Data science, Engineering の䞡方のスキルを䜵せ持぀こずが必芁である。

理由ずしおは、どちらかだけのスキルだず非珟実的な意思決定しかできず、良い意思決定ができないため。 䟋えば、Data Scientist のサむロでは、非珟実的な Data ETL やモデルのむンテグレヌションやサヌビングは自分の仕事ではないず蚀いだし、゚ンゞニアにすべおを任せおしたう。 逆に゚ンゞニアのサむロでは、ランキング改善のために必芁な匕き出しが足りずアむデアが出ない。その知識がないずプロゞェクトは倱敗しお、筋が悪い解決方法を行っおしたう。優れた゚ンゞニアリングずは、制玄を考慮した䞊で最善の意思決定を䞋すこずなので、Data Science 領域の制玄を考慮できないこずには怜玢改善をするこずは難しい。

Shipify では、怜玢のために゚ンゞニアリング、Data Science の線匕をするこずなく、怜玢改善のためなら䞡者の領域を掻甚するこずに積極的だ。 Data Scientist, ゚ンゞニアの぀のチヌムがあるのではなく、怜玢チヌムには䞀぀のチヌムしかありたせん。互いにどちらかの領地を奪い合う敵察した関係性もない。

Data Science ず Enginnering の未来ずしお䞡者を自由に行き来するこずこそが怜玢改善に぀ながる

ず、めちゃくちゃ良いこず曞いおいお感動したした。 自分が考えおいるこずず完党に䞀緒で、あぁやっぱりその䞖界っお良いよねず自己の方向性の決断に自身が䞊乗せされた感芚がある。

Doug さんの蚘事を読んだのは初めおなのですが、文章も読たせる文章で読んでお楜しい…! 積極的にいろんな蚘事を過去に曞いおくれおいるので、それも埐々に読んでいきたい。

SearchSage: Learning Search Query Representations at Pinterest

ISIR-eCom 2022 at WSDM workshop

sigir-ecom の WSDM 版のようなワヌクショップ。sigir-ecom よりかはシステム面に特化した貢献が認められおいるので、投皿論文が公開されるのが非垞に楜しみ。継続的にぜひずも開催しおほしい

LINE MUSIC が挑んだパフォヌマンス改善。膚倧な楜曲数を扱うための Elasticsearch の蚭蚈

LINE music での elasticsearch の負荷詊隓や、怜玢機胜远加によっお、負荷が雑談した際にどう解決したかを玹介。8000 䞇曲芏暡の怜玢を扱えるのは楜しそう。

Elasticsearch Learning to Rank プラグむンの䜿い方ずポむント

ZOZO での elasticsearch plugin を利甚した Learning to Rank の解説蚘事。詳现に Pros, Cons が説明されおいお、勉匷になった。

DMM の怜玢に機械孊習を導入しお、A/B テストで圧勝した考え方

理由ずしおは、初手で耇雑なこずをするより、シンプルなものから始め、どの特城が効くのか知芋を溜めおいく方が良いず刀断したためです。

この点、めちゃくちゃ玠晎らしいですね。 デゞタルコンテンツで圚庫の抂念がないのでバッチを遞んでいる点などサヌビス特性に沿っお、わざわざ難しいこずをせずに単玔なデザむンを垞に意識しおいる点が非垞に秀逞。バッチゞョブのワヌクフロヌ゚ンゞンのtektonは初めお知った。

僅かな効果でも驚くほどの成果に繋がりたす。むンパクトを䞎えられる斜策を実斜できるこずは日本最倧玚のプラットフォヌムを扱っおいる DMM ならではだず思っおいたす。

ここもたた、課題解決でいちばん倧事なむンパクトが倧きな問題を解くべしを培底しおいお、凄い。

ずこの蚘事を芋お、よし自分も怜玢改善頑匵ろうず元気をもらえた蚘事でした。

EC 怜玢広告枠の粟床を、ク゚リ意図の機械孊習で改善した話

気になった点ずしおは、オフラむン評䟡でクラりド゜ヌシングを行った際に、モデル A・B の比范を行っおいるが、モデルなしの評䟡も行っおどれくらい結果がポゞティブになるのかは芋おみたかった。 䌚瀟内で運甚されおいるクラりド゜ヌシングがあるなんお、倧芏暡サヌビスの特暩ですね。 欲を蚀うなら、AB で定量的にどれくら改善されたのかが知りたかった…(公開しおいるずころのほうが珍しいが)

情報怜玢・怜玢技術 Advent Calendar 2021

勢いで䜜成した「情報怜玢・怜玢技術 Advent Calendar 2021」では、13 件の蚘事が投皿しおいただきたした。自分も 2 件の蚘事を投皿したので、興味のある方は埡芧ください。

Amazon の怜玢に興味があったので、システムサむド・ランキングロゞックの解説蚘事を抄蚳したした。

Machine Learning & Engineering

On-device one-shot learning for image classifiers with Classification-by-Retrieval

デバむス䞊での one-shot 孊習の掻甚蚘事。デモアプリの出来が非垞に高く、iPhone で事前に画像のカテゎリごずに分けたアルバム(各カテゎリは倚くおも 4 枚皋床!?)を䜜成しおおいお、それを読み蟌めばアプリ䞊で画像認識モデルが䜜成できお、動いおいお驚き。

この動画を芋たあずだず、誰もが認識モデルをかんたんに䜜成しお掻甚する未来が芋えおしたった…

Redesigning Etsy’s Machine Learning Platform

Etsy が内郚の機械孊習基盀を刷新した話。2017 幎に小芏暡なデヌタサむ゚ンスチヌムがロゞスティック回垰のモデルを掻甚しおいた創䞖蚘の時代から、時間がたちモデルの耇雑性はたし初期の基盀では、メンテンスがき぀くなっおきたので V2 の基盀を䜜成。基本方針ずしおは内補開発はやめお OSS を積極採甚の方針に。

V2 では、

  • ETL: Dataflow
  • Prototyping: Jupyter Notebooks
  • Training: Vertex AI

ず GCP サヌビスをフル掻甚した構成

面癜かった点ずしおは、Serviing では内補のサヌビングシステムがモデルの評䟡面ではやはり圧倒的に䟿利なので OSS 採甚原則を撀回しおそこだけは内補システムを採甚ずいう柔軟な意思決定が興味深かった。

V2 ぞの刷新によっお、着想からプロダクションリリヌスたでの時間が 5 割ほど削枛されおいるらしく、これは倧きな成果。

Google Research: Themes from 2021 and Beyond

Jeff Dean が公開した Google Research から 2021 幎からのテヌマずこれから䜕を行うかの解説。

個人的に気になったのは、汎甚機械孊習モデルの適甚結果。MUMでも質疑応答モデルを怜玢に適甚するなど非垞に野心的な取り組みがあるが、システム的な運甚や粟床の保守・メンテンスなど裏偎ではどう回しおいるのか非垞に気になる。

A decade in deep learning, and what’s next

20 幎前に Google は機械孊習利甚を開始、10 幎前には深局孊習の適甚を始めた。VP, Responsible AI and Human-Centered Technology の Marian さんず皆さんご存知の Jeff Dean が深局孊習での 10 幎で䜕が起きたか、そしおこれから䜕が起きるかを解説。

研究から珟実䞖界での皌働に移行、そしお Google のサヌビスぞの機械孊習適甚事䟋を玹介。幎間に 1000 本近く論文を公開しお、Google AI は 10 幎間では 6500 以䞊の特蚱を取埗しおいるらしい。

たた、機械孊習の掻甚を゜ヌシャルハッピヌに繋げられるように投資しおいくらしい。

The 10 most read research papers of 2021

Amazon Science が 2021 幎に出版した論文のベスト 10 を玹介。 「Seasonal relevance in e-commerce search」では、39%のク゚リがシヌズナリティによっお relevance が䟝存しおおり、AB テストでは 2.2%賌入率が向䞊したらしく、想像以䞊にむンパクトが凄くおびっくり。

「Reducing Amazon’s packaging waste using multimodal deep learning」では、深局孊習を䜿っお、2015 幎から比范するず 36%のパッケヌゞを削枛しお 100 䞇トンのパッケヌゞの䜙分な排出を抑えおいるずのこず。゜ヌシャルハッピヌな問題の兞型でもあるし、機械孊習のスケヌルメリットが掻かせる兞型的な良問だな~ず感心した。

S3 のシステム論文ずかも面癜そうだが、ざっず読んでも 理解が難しかった。

The top Amazon Science blog posts of 2021

Amazon Science が 2021 幎に曞いた Blog 蚘事の Top10 の玹介。Amazon のありずあらゆる分野に機械孊習の実甚化を図ろうずしおいる姿勢が䌝わっおくるので、Amazon Science の蚘事は非垞に面癜い。 Learning to Rank を䜿っお、荷物を床の玄関に眮くかべきかを予枬するずいう蚘事が面癜そうだった。

Meta’s AI team working on harmful Facebook posts moved to AR / VR unit

Meta (旧名 Facebook) の機械孊習による違反怜知チヌムはかなりの投資がされおいお、KDD2020 の keynote speaker では Alon さんがPreserving Integrity in Online Social Mediaずいう題目で、監芖業務を機械孊習により健党な環境を保぀ために䜕を行っおいるかを講挔しおいたが、それを Meta での健党化にリ゜ヌスを降っおいくずいう Meta ぞの入れ蟌み具合が非垞にわかるニュヌス。

自分の最初の機械孊習タスクも違反怜知ず健党化だったので、この分野には非垞に興味がある。

ここの蚘事経由で知った論文で面癜そうなものは Blog でさっず解説蚘事を曞いお、ニュヌスレタヌで深堀りしお玹介しようかなず思いたす。

感想

Twitter で #searchengineeringnewsletter を぀けお぀ぶやいおいただくか、 Google フォヌム での感想投皿をお埅ちしおおりたす。

newsletter のタグを付䞎した蚘事の RSS1 を䜜成しおいたす。 手持ちの RSS リヌダヌに登録しおいただければ newsletter の曎新を把握するこずができたす。


  1. newsletter RSS: https://shunyaueta.com//tags/newsletter/index.xml ↩︎

See Also

Support

蚘事をお読みくださりありがずうございたす。このりェブサむトの運営を支揎しおいただける方を募集しおいたす。 もしよろしければ、䞋のボタンからサポヌト(投げ銭)しおいただけるず、ブログ執筆、情報発信のモチベヌションに繋がりたす✚