クエリ分類(Query Classification) について社内の勉強会で話してきた
今年の 10 月から、新しく入社した同僚とともに、検索領域の論文や技術ブログを定期的に紹介する社内勉強会をはじめてみた。 定常的に開催されることが一番大事だよねという方針になったので、以下のような仕組みで、可能な限り低コストで継続できるような仕組みにした。
- 参加者は何も準備をしなくても大丈夫で、勉強会中に紹介された論文をみたり話を聞くだけで良い
- 発表者は凝った資料は用意するのは必須ではなく、極論論文を画面共有で見せながらしゃべるだけでも問題なし
当面の目標としては、来年の年末まで継続されているように気長に続けていきたい。
第一回は、発起人の一人である自分がクエリ分類について発表を行った。
Query Understanding for Search Engines (The Information Retrieval Series, 46) の第二章を主にテーマとして取り上げて紹介した。
メイントピックは KDDCup2005 として開催されたクエリ分類コンペの優勝者の手法について紹介を行ったので、気になる方はスライドを公開しているので御覧ください。
Query Understanding for Search Engines. Chap2 Query Classification - Speaker Deck
このコンペの特徴として、
- データセットが生データ特有の問題として汚い
- そしてラベルデータの規模がとても少ない
という鬼畜仕様だった。 だがコンペ参加者はそんな状態を物と物せずにありとあらゆる手段で精度向上に努めていてそれらの手法と姿勢がとても参考になった。
Query Understanding の包括的な解説は 晋策さんが書かれた 検索体験を向上する Query Understanding とは がわかりやすいのでおすすめです。
検索領域は本当に奥深い…
関連しているかもしれない記事
- eコマースの検索と推薦についてのサーベイ論文である 'Challenges and research opportunities in eCommerce search and recommendations' を社内勉強会で発表した
- 2021年05月時点で自分が実践している MLOps の情報収集方法
- [抄訳] 検索エンジンの達成度と検索チームの成熟度モデル
- TFXの歴史を振り返りつつ機械学習エンジニアリングを提案する論文「Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX)」
- 自分なりの機械学習エンジニアスキル構成論
📮 📧 🐏: 記事への感想のおたよりをおまちしてます。 お気軽にお送りください。 メールアドレス入力があればメールで返信させていただきます。 もちろんお返事を希望せずに単なる感想だけでも大歓迎です。
このサイトの更新情報をRSSで配信しています。 お好きなフィードリーダーで購読してみてください。
このウェブサイトの運営や著者の活動を支援していただける方を募集しています。 もしよろしければ、Buy Me a Coffee からサポート(投げ銭)していただけると、著者の活動のモチベーションに繋がります✨
Amazonでほしいものリストも公開しているので、こちらからもサポートしていただけると励みになります。