Shunya Ueta

Twitter の検索システム、Earilybirdの論文を読む

前回の記事の続き1で、Twitter の検索システムシリーズ第 2 弾です。

Earlybird とは?

Twitter の検索システムであり、 Apache Lucene をベースにした、リアルタイム検索システム。 論文はここで、 Blog 記事は The Engineering Behind Twitter’s New Search Experienceは 2011 年に公開されている。

TODO: 論文に書かれず、Blog 記事にのみ書かれている内容もあったので読んで追記しておく

感想

これでだいたい概要をつかめたので、次は GitHub で公開されているコード2を読んでみます。

にしても、Twiter はマイクロブログという宿命か、ドキュメントの数、クエリ、増え方は EC と違って本当に桁違いです。 ここらへんのドメインが違えば、考えることが全く違ってくるのが検索システムの面白いところの一つですね~

独自で検索エンジン作らざるを得なかった状況に追い込まれて、見事に成し遂げているのはすごいですね。 メンテンスとか大変そうですが…

余談

ChatGPT が活用された論文読解支援サービスを試しに使ってみたら、ものすごく良かった。

ChatPDF - Chat with any PDF! で、論文を見てみると、英語しか対応してなさそうだけど、日本語でプロンプトを打つと日本語で返された。おま国ではないのが ChatGPT の良いところだと思います。

ChatPDF

https://www.chatpdf.com/c/lAAdzSaHgv8EbomIStV51 ファイルごとに誰からも閲覧可能な URL が生成されるみたいです。ここから見れます。

ChatPDF での質問

最も画期的な点はなんですか?

この PDF ファイルで最も画期的な点は、Twitter のリアルタイム検索サービスを支える強力な検索エンジンである Earlybird の設計に関する詳細な説明が含まれていることです。Earlybird は、高速なコンテンツ取り込みと低レイテンシーのクエリ評価を両立するために、最適化された読み取り専用インデックス形式とアクティブな「書き込みフレンドリー」ブロック割り当てインデックスの 2 種類のインデックスを使用しています。また、単一ライター、複数リーダーモデルを採用しており、メモリバリアを使用して一貫性を強制します。これらの設計により、Earlybird は Twitter のリアルタイム検索サービスで要求される要件を満たすことができます。詳細については、ページ 1 のセクション I(イントロダクション)およびページ 9 のセクション IX(結論)をご覧ください。

だけど、その後に SCISPACE というサービスを教えてもらい、触ってみたところ ChatPDF の完全なる上位互換だった。 返答を完全に日本語に固定できたり、予め論文に対して行う定型的な質問がプロンプトとして用意されている。 また、左ペインにアップロードした PDF が表示されて、ドラッグアンドドロップで選択した範囲の文章に対して要約させたり、説明させたりできるのはすごい便利です。

scispace

---

関連しているかもしれない記事


📮 📧 🐏: 記事への感想のおたよりをおまちしてます。 お気軽にお送りください。 メールアドレス入力があればメールで返信させていただきます。 もちろんお返事を希望せずに単なる感想だけでも大歓迎です。

このサイトの更新情報をRSSで配信しています。 お好きなフィードリーダーで購読してみてください。

このウェブサイトの運営や著者の活動を支援していただける方を募集しています。 もしよろしければ、Buy Me a Coffee からサポート(投げ銭)していただけると、著者の活動のモチベーションに繋がります✨

#search #paper