検索エンジンOSS勉強会 の第一回を開催した。
この勉強会に興味ある人は、検索エンジンOSS勉強会 ガイドライン - Google ドキュメント から参加できます!
発表内容
- Apache Lucene の Speedup concurrent multi-segment HNSW graph search 2 を理解したい
- Apache Lucene の PR #12962 Speedup concurrent multi-segment HNSW graph search 2 を理解したい 検索エンジンOSS勉強会
- 自分は近似近傍探索で複数のセグメントに対して並行検索を可能にするPRを解説した。PR自体の粒度も大きくなく、どのように複数セグメントに対して分散的に近似近傍探索を実現したかを理解できた。気がする。
- この発表の締め切り駆動で、頑張って読む時間を捻出して読むことができた。締め切り駆動をしたいわけではないが、人に説明しようとするとちゃんと考えて理解しようとするので、本腰を入れて読めた。
- 実際にここはこう動いているんだよと説明できるようになるって、楽しいですね。自分が尊敬する h_nakagawa さんの名言の「コード読め、コード読んだら何が起きているかは理解できる」に一歩踏み出せた感じがして良い。
- Vespa の ColBERT 実装をツマミ読んで得られた知見 - そもそも Vespa や ColBERT とは?
- セコンさんが一週間前に飛び入りで発表表明してくれて非常に感謝。
- 自分で色々と精力的に手を動かして成果を公開されていてすごい。
懇親会と言う名の雑談で話したトピック
- Increase max number of vector dims to 2048 by mayya-sharipova · Pull Request #95257 · elastic/elasticsearch
- 近似近傍探索でElasticserach は2048次元まで扱えるように、パッチを当てている。Lucene は1024次元までという制約を取り払っている
- 最近は OpenAI の embedding などはパラメータで次元数を指定できるとセコンさんから聞いた。
- OpenSearchで実現する画像検索とテスト追加で目指す安定運用 - Speaker Deck
- 近似近傍探索を実運用する際に考慮したい点って色々と異なる。
- 例えば自分の場合は filter と組み合わせて近似近傍探索をやりたい
- 近似近傍探索を実運用する際に考慮したい点って色々と異なる。
これからもゆるーく、OSSへの貢献を前提にした検索エンジンOSS勉強会を続けていきます。
- 1.5-2ヶ月の間隔で開催していけたらなと思います
- 今回突発的に開催した懇親会も良い感じに盛り上がれるように考えている。内容としては、ちょっと検索システムで考えていること話したいとかの場とかにできたらなと考えています。