Posts

2024-07-02 機械学習システムデザインを読んだ。世界基準の機械学習システム開発の要点を理解するにはこれ一冊読めば大丈夫
2024-06-17 株式会社メルカリを退職しました - 迷わず行けよ、行けばわかるさ -
2024-06-08 検索エンジンOSS勉強会第3回を開催した
2024-06-06 Python x SQLite3 x sqlite-vec で近似近傍探索をやろうと思ったが...
2024-06-04 「トヨタ式鬼十訓」を読んだ
2024-06-01 「健康になる技術大全」を読んだ
2024-05-29 第8回 Data-Centric AI勉強会 ~Human-in-the-Loop機械学習特別回~ で登壇した
2024-04-26 検索エンジンOSS勉強会第2回を開催した
2024-03-11 検索エンジンOSS勉強会第1回を開催した
2024-03-11 Apache Lucene の PR #12962 Speedup concurrent multi-segment HNSW graph search 2 を理解したい検索エンジンOSS勉強会
2024-03-05 Community Over Code North America 2023 にて Lucene 関係で気になった発表まとめ
2024-02-22 Service Account が実行している BigQuery Job を確認しようとして、Job IDが REDACTED と表示されている場合は権限不足
2024-02-22 運用コストを低く抑えつつ全文検索機能を実現したい: SQLite3 で全文検索を実現する fts5 、ベクトル検索を実現する sqlite-vss
2024-01-12 検索エンジンOSS勉強会: Lucene や OpenSearch など検索エンジンOSSへの貢献を念頭にしたオンライン勉強会を立ち上げてみた
2024-01-07 brew install で It seems the App source is not there というエラーへの対処法
2024-01-02 2024年の目標
2024-01-01 半年間の育休を終えて
2023-12-26 2023年を振り返る
2023-12-22 強さへの旅プリズナートレーニング 128日目
2023-12-07 GitHub PagesのDNSをCloudflareに移行時にERR_TOO_MANY_REDIRECTS が出た際の対処方法
2023-12-02 2023年に買って愛用しているもの
2023-11-20 「Human-in-the-Loop機械学習」の出版を通じた技術書翻訳体験記 #hitlbook
2023-11-14 能動学習とアノテーションをテーマにした書籍「Human-in-the-Loop機械学習」を翻訳しました #hitlbook
2023-11-02 情報検索・検索技術 Advent Calendar 2023 を開催します
2023-10-22 自分の時間を取り戻せ。時間術大全人生が本当に変わる87の時間ワザを読んだ(4年ぶり、2周目)
2023-10-10 Obsidian でプラグインをビルドする
2023-09-11 KDD2023 で気になった採択論文、チュートリアル、ワークショップ
2023-09-04 ビリヤニ事始め
2023-09-03 プリズナートレーニングのワークアウトに集中するための Web アプリを作った
2023-09-03 強さへの旅: プリズナートレーニング18日目
2023-08-28 Search Engineering Newsletterの更新を休止します
2023-08-21 さよなら Todoist、よろしく todo.txt
2023-08-06 ありがとう、さようなら、僕らの愛したTwitter
2023-08-01 Toggl に舞い戻り、Obsidian の Toggl plugin がやっぱり最高だぞというお話
2023-06-28 サイトへのおたよりを参考にした secon さんからおたよりついた
2023-06-19 jisho.org が提供している漢字検索のためのfacet UI が便利かつ斬新で検索エンジニアとして学びがあった
2023-06-17 2023年6月時点で愛用しているObsidian のプラグイン
2023-06-17 ここまで変わる！家の買い方街の選び方 - これからの日本の対局を見据えた現実的な考えを後押ししてくれる良書
2023-06-16 Twitter 形式でメモが残せる Obsidian Memos で「考えるな、書け」を体現できるくらい筆が進むようになった
2023-06-15 映画「きさらぎ駅」が想定を超えて面白かった
2023-06-13 いつのまにか、Obsidian のPDFビューアーのCJK文字が文字化けする問題が解消されていた
2023-06-12 Google Formの入力欄を自動的に入力済みにするために、Hugoのテーマを改造して、パーマリンク変数をクエリストリングとして事前入力内容にすることで実現した
2023-06-12 禅の気持ちで心穏やかにブログ記事を書くためにコメント機能を廃止して、試験的におたより機能を開始してみる
2023-06-12 go-ga-toppages, ga-top-pages-py: 静的サイトジェネレーターで作成したサイトの人気ページをGoogle Analytics(GA4)で集計して、マークダウン形式で書き出すPythonとGoのスクリプト
2023-06-02 Elasticsearch 8.8 のリリース内容が盛りだくさんで興味深い
2023-05-27 肉を美味しく焼くため三千里: 岩鋳のプロ・アルテグリルパンを買ったが、大成功
2023-05-22 検索と推薦サービス開発に関わる人達を対象にした、懇親会に全振りしたイベントを開催した
2023-05-12 Google が2021年5月に提唱した夢の検索技術MUMがChatGPTのおかげで急速に実現して夢が現実になっている
2023-05-11 試験的に自分のブログのRSSで全文配信するのをやめてみる
2023-04-30 技術書の翻訳作業の最終段階で、 Latex 形式に変換する際に英語だけコメントアウトして、日本語はそのまま残す Python スクリプト
2023-04-29 Twitter の検索システム、Earilybirdの論文を読む
2023-04-28 Blog のテーマを PaperMod から hugo-bearblog に変更
2023-04-27 Obsidian 上で画像の大きさを調整する方法
2023-04-26 (恐らくみんなが求めている)懇親会に全振りした、非公開イベントを計画している
2023-04-25 ワイヤーロックを使えば、出先でもベビーカーを安心して手放せるので、みんなに知ってほしい
2023-04-25 子供が道中で無限に遊びたがるのに対応するために、持ち運べる椅子を買ったら大勝利
2023-04-17 LLM(大規模言語モデル) 妄想雑記
2023-04-17 Twitter の検索システムを学ぶ - 概要編
2023-04-07 RSSリーダーってのを使ってまして、え、知らない? そういう便利なツールがあるんですよ
2023-03-26 現在 Lucene の KNN ベクトルの最大次元数は1024次元だが、それを2048次元に変更できないかという議論
2023-03-24 同僚との雑談で情熱プログラマーはやはり良いぞと盛り上がる
2023-03-18 Web 検索とデータマイニングのトップカンファレンス WSDM2023 で気になった研究
2023-03-16 究極手抜きのフワフワだし巻きたまご
2023-03-14 オンライン雑談により、新たな繋がりを作る機会を意識的に取り戻したお話
2023-03-11 初心者だけど Apache Lucene に貢献したい場合におすすめのチケットラベル
2023-03-02 Slack bot の Eeny がスクラムイベントのファシリテーターを選出するのにめっちゃ便利
2023-02-17 2023年の目標
2023-02-17 ニュースレター近況
2023-02-12 時間計測アプリを toggl から Session へと乗り換えてみた
2023-02-10 redis-cli の結果を標準出力として受け取って jq でわかりやすく表示したい
2023-02-06 2022年分の確定申告
2023-01-18 「私たちは子どもに何ができるのか」を読んだ
2023-01-03 2022年に買って愛用しているもの
2022-12-13 Elasticsearch の Go client で有名な olivere/elastic がES8 以降はサポートしないので、利用者は公式クライアントに移行しよう
2022-12-04 Search Engineering Newsletter を substack へ移行します
2022-11-06 Beam summit 2022 雑感
2022-11-05 情報検索・検索技術 Advent Calendar 2022 を開催します
2022-11-04 env Studio No such file or directory というVisual Studio Code 起因のエラーへの対処方法
2022-10-29 Elasticsearch 8.4 から利用可能な従来の検索機能と近似近傍探索を組み合わせたハイブリッド検索を試す
2022-10-23 Elasticsearchの近似近傍探索を使って、ドラえもんのひみつ道具検索エンジンを作ってみた
2022-10-17 CloudComposer の Variables (環境変数)を gcloud cli で取得する
2022-10-17 Python で zip関数を使う際に、２つの配列が同じ大きさを想定する場合は 3.10 から導入された strict=True を使おう
2022-10-04 Airflow 1系で設定されている環境変数を JSON ファイルとしてGUIを使って書き出す方法
2022-09-01 Meta が公開したデータ処理の効率化・高速化を狙うエンジン Velox が面白そう
2022-08-22 Java の memory map を理解する
2022-08-18 Apache Beam 2.40 で導入された scikit-lean, Pytorch の効率的な推論が可能になる RunInference API を試してみる
2022-08-15 KDD2022 で気になった研究
2022-08-10 poetry show でパッケージ名に (!) が付与されている意味
2022-08-08 「リーダーの作法」マネジメントに限らず、エンジニアとして仕事の作法について書かれた良書
2022-06-22 Makefile でコマンドの前に @ を付けると、コマンド自身は表示されず結果のみ表示される
2022-06-03 愛用しているツールを更新: Joplin→Obsidian & TickTick → Todoist
2022-06-03 Label Studio を kubernetes にデプロイする
2022-05-12 Re:プログラム雑談 188回：ゲスト回：MessagePassingの話とか
2022-05-10 社内でデータ分析結果を可視化・共有する際に Google Colab が便利
2022-05-04 2022年、はじめてのまともな確定申告
2022-04-28 gRPCurl で `Failed to process proto source files.: could not parse given files:` エラーが出たときの対処方法
2022-04-26 子供の就寝時に使っているホワイトノイズマシンをGoogle Home から Dreamegg に変更
2022-04-24 slug の作成パターンを変えて、同日に複数の記事を執筆できるようにした
2022-04-08 Google Colab で Spacy による NER の結果を表示するには、jupyter 引数を True にする必要がある
2022-04-04 自然言語処理トップ国際会議の System Demonstrations について
2022-03-31 Human-in-the-Loop を題材にした機械学習の勉強会を開催した
2022-03-22 機械学習モデルの改善手法の一つ、 Human-in-the-Loop について
2022-03-17 Googleによる機械学習の実応用をテーマにしたCoursera の講義は、機械学習プロジェクトに携わるなら一度は見ておいても損はない
2022-03-13 タスク管理ツールを Todoist から TickTick へ試しに乗り換えてみた
2022-03-08 Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した
2022-03-04 デスクトップのGoogle 検索の検索フォームUIがかなり変化していた
2022-03-03 Amazon の製品検索で使われるロバストなキャッシュ手法の論文「ROSE: Robust Caches for Amazon Product Search」
2022-03-01 Web 検索とデータマイニングのトップカンファレンス WSDM2022 で気になった研究
2022-02-25 3人以上のスケジュール調整をする際には、ベータ版だけど Calendly の Meeting polls がとても便利
2022-02-22 オンライン開催前提だからこそ可能な省エネ勉強会運営に振ってみて、勉強会運営を再開した
2022-02-01 技術的負債は必要にかられて解消するからこそ大きな価値を生み出すのでは? というお話
2022-01-27 Slack チャンネルに GitHub の特定リポジトリのrelease を通知する
2022-01-20 OSS の Google BigQuery UDF `bqutil.fn` を使えば UDF の独自実装を置き換えられるかもしれない
2022-01-19 GitHub discussion を使ったコメントシステム giscus を導入
2022-01-16 Search Engineering Newsletter vol.00
2022-01-09 OSSのアノテーションツール Label Studio を使って、快適にアノテーションする
2022-01-07 2021年に買って愛用しているもの
2022-01-05 Python で DeepL API Free を利用してテキストファイルを翻訳する
2022-01-01 2022年の目標
2021-12-29 2021年を振り返る
2021-12-28 Jupyter Notebook で画像をダウンロードすることなく、URLから参照してPandas DataFrame内部に表示させる
2021-12-26 Amazon検索ランキングの奥深さ at MLconf SF 2016
2021-12-07 Offers Magazine というメディアに、エンジニアによる業務実績の論文化について寄稿した
2021-12-04 投げ銭サービスのBuy me a cofee をBlog に導入してみた
2021-12-03 2013年4月に友人とリリースした高専からの大学編入体験談投稿サービスが8年の時を経て成仏した
2021-12-02 kubernetes デプロイ時に `MatchExpressions:[]v1.LabelSelectorRequirement(nil)}: field is immutable` エラーが出た際に対処方法
2021-11-26 Amazonがeコマース検索を Lucene により、どうスケールさせているか at Berlin Buzzwords 2019
2021-11-06 Standard SQLのCOALESCEで、時間経過によってカラム名が変化したデータを柔軟に抽出する
2021-11-05 Dataflow template を使って Google Cloud Pub/Sub の中身を簡単に確認する
2021-10-12 Airflow でDAGを任意のタイミングで一度だけ実行する方法
2021-10-09 クエリ分類(Query Classification) について社内の勉強会で話してきた
2021-10-06 Hugo で記事の更新日をgitと連携して自動的に取得して表示させる
2021-10-04 CloudComposer のDAGをCircleCIで更新する
2021-10-01 CircleCI アプリ内の設定ファイルエディターを利用して、CI上の環境変数などローカルCLIでは確認できない挙動を素早く確認して修正する
2021-09-29 GCPのCloud Composer のDAGを素早く・簡単にデバッグする
2021-09-27 Pandoc を使って抽出できなかったWord内部の画像をGoogle Driveを使って抽出する
2021-09-19 Pandoc で特定のディレクトリ直下にある複数のWordをMarkdown形式に一括変換する
2021-09-07 gcloud commands で Pub/Sub に jsonファイルをメッセージとして公開 (Pusblish) する
2021-08-19 gRPC client evans で portforward 先のリモートサーバーにリクエストを行う
2021-08-13 システムの応答速度は本質的な価値提供であることを示す A/B テストの実例
2021-07-23 子供が1歳児を迎えるまでに、育児で役に立ったもの
2021-07-18 mvn archetype:generate でJavaのプロジェクト雛形を作成する際のオプションの解説
2021-07-10 eコマースの検索と推薦についてのサーベイ論文である 'Challenges and research opportunities in eCommerce search and recommendations' を社内勉強会で発表した
2021-07-09 How to get the uploaded file path and processing its file in Streamlit
2021-07-08 Streamlit でアップロードしたファイルのパスを取得して、特定の処理をする
2021-05-29 2021年05月時点で自分が実践している MLOps の情報収集方法
2021-05-23 Poetry からsetup.py を自動生成する
2021-05-19 KyTeaをPythonで扱えるMykyteaを使うために必要なこと
2021-05-12 [抄訳] 検索エンジンの達成度と検索チームの成熟度モデル
2021-04-29 Pythonで変数を挿入してSQLクエリを柔軟に構築する
2021-03-27 機械学習エンジニアから検索エンジニアに転生
2021-03-13 pipenv のversion 2020.11.15 でローカルパッケージが正常にインストールされないときの対処法
2021-03-05 2021年の目標
2021-03-03 GKE 上にて Pythonで logger.info() を行うとCloud logging では stderr に保存され、すべてエラーになる問題への対処法
2021-02-21 GKE でローリングアップデート後、ローカルからポートフォワードでリクエストを投げるとcurl: (52) Empty reply from server と返ってくるときの対処方法
2021-02-09 Standard SQLで列と列の組み合わせの数を集計したい
2021-02-08 pip 実行時に sys.stderr.write(f"ERROR: {exc} ") とエラーが出てpipを実行できないときの対処方法
2021-01-17 TFXの歴史を振り返りつつ機械学習エンジニアリングを提案する論文「Towards ML Engineering: A Brief History Of TensorFlow Extended (TFX)」
2020-12-26 PythonでApache beam 入門
2020-09-27 機械学習・ソフトウェアエンジニアリングをテーマにしたPodcast just4fun.fm を始めてみた
2020-09-21 自分なりの機械学習エンジニアスキル構成論
2020-09-19 GitHub codeowners でGithubグループを指定しても反映されない時の対処方法
2020-09-09 pandas を使って特定のディレクトリのCSVファイルをすべて連結して一つのCSVファイルを作成
2020-09-06 MLOps の国際会議 OpML'20 に、機械学習を活用した商品監視の改善に関する論文が採択されたので登壇してきた
2020-08-23 Python の内包表記とジェネレータ式のメモリ使用量比較
2020-08-04 AOJの「ITP I」40問をPythonで解いた
2020-07-25 How to write the UnitTest with stdin at Pytest
2020-06-13 Machine Learning Casual Talks # 12 を開催しました
2020-05-10 自走プログラマーを読み終えた
2020-04-27 ソフトウェア開発における Upstream と Downstream の意味
2020-04-26 Pythonの関数のデフォルト引数はmutable(上書きされる)
2020-04-25 機械学習システムの信頼性を数値化し、技術的負債を解消する論文「 The ML Test Score: A Rubric for ML Production Readiness and Technical Debt Reduction」
2020-04-19 機械学習システムの信頼性を数値化する論文「 What’s your ML test score? A rubric for ML production systems」
2020-04-18 CourseraでHow Google does Machine Learning の講義を修了した
2020-04-12 Courseraで Getting Started with Google Kubernetes Engine の講義を修了した
2019-10-03 遅すぎる `pandas.read_gbq` を使わずに、Google BigQueryから高速にデータを読み込む
2019-09-25 Jupyter Notebook上にTensorboard をわずか2行で表示させる
2019-09-24 How to connect the Google Compute Engine via Visual Studio Code
2019-09-23 ビジネスでインパクトが出せるデータサイエンティストになるには
2019-06-17 How to concat image using skimage
2019-06-16 Hugo Tips
2019-06-15 Machine Learning Casual Talks #10 を開催しました
2019-02-02 Machine Learning Casual Talks #8 を開催しました
2018-12-15 Machine Learning Casual Talks #7 を開催しました
2018-10-14 Machine Learning Casual Talks #6 を開催しました
2018-07-15 Machine Learning Casual Talks #5 を開催しました
2018-06-17 イベント運営に便利なsli.do の使いこなしかた
2018-04-24 [抄訳] Data engineers vs. data scientists
2018-04-23 Google Colaboratory で Mecab-ipadic-Neologd を使用可能にする
2018-04-16 eBayのAR測定機能を試してみた
2018-04-09 Google, Facebookが提供する機械学習基盤まとめ
2018-02-13 メルカリのTeam AI Meetup #1 に参加してきた #mercari_ai
2018-02-09 2018.01 KPT
2018-01-29 2018年の抱負
2018-01-18 Where To Look: Focus Regions for Visual Question Answering (CVPR2016)を読んだ
2018-01-17 Data-driven Crowd Analysis in Videos (ICCV2011)を読んだ
2018-01-16 Slicing Convolutional Neural Network for Crowd Video Understanding (CVPR2016)を読んだ
2018-01-15 Jupyter Notebookの差分を明瞭に確認する事ができるpackage : nbdime
2018-01-14 Analyzing Free-standing Conversational Groups: A Multimodal Approach (ACMMM15) を読んだ
2018-01-13 PythonでGaussian Kernelのアニメーションを作成
2018-01-12 Call center stress recognition with person-specific models を読んだ
2018-01-11 FUSE: Full Spectral Clustering(KDD2016) を読んだ
2018-01-09 サイトのPWA化、ホスティングをGithub PagesからFirebaseへ移行
2017-12-27 HerokuのDBにpgadmin4で接続してローカルにデータをダウンロードする
2017-12-23 “Learning Deep Representations for Graph Clustering (AAAI2014)” を読んだ
2017-12-22 JupyterNotebookをリモートサーバー上で公開して、どこでも研究開発 & 講義でJupyterhubを利用する
2017-12-06 CoreMLがTensorFlow Liteをサポート
2017-12-05 Visualized Approximate Eigen Vector by Power Iteration on 3 dimensions.
2017-12-04 Edge-Weighted Personalized PageRank: Breaking A Decade-Old Performance Barrier を読んだ
2017-12-01 Machine Learning that Matters (ICML2012) を読んだ
2017-11-22 Jupyter上でSVGのイラストやアニメーションが作成できるプラグイン egel
2017-11-14 OpenCV 3.3から使えるDNNモジュールを使って物体検出
2017-11-13 Djangoで顔認識の結果をJSONで返す最小構成のAPIサーバーを作った
2017-10-08 TexPadのおかげでLatex人生が変わりました
2014-08-23 機械学習・コンピュータビジョンを活かしたビジネスを手掛ける株式会社ABEJAでインターンしてきた
2013-08-23 ミクシィにインターンしてきた