Beam summit 2022 雑感

毎年開催される Apache Beam の会議、Beam Summit 2022 で講演資料が公開されていたので、気になる資料を読んだ。 以下に面白かった記事の備忘録を放流しておく Google’s investment on Beam, and internal use of Beam at Google Google 内部で現在フルタイム Beam 開発者は 25 人! (多いな) Go SDK 提供開始がめでたい 現在は Java, Python, Go の3つの言語をサポート 機械学習の推論を Beam の特性を生かしてスケーラブルに実行可能な RunInference も提供できた! TypeScript SDK も提供予定! contribution している方も募集中 https://github.com/apache/beam/tree/master/sdks/typescript Beam Playground を使えば、Beam がより効果的に学べるよ https://play.beam.apache.org/ チケット管理では Jira をやめて GitHub Issues に移行したよ(最近の Apache Project の潮流な気がする。Lucene も移行していた) Beam @TwitterEvaluation, Adoption, Migration and future....

November 6, 2022 · Shunya Ueta

Apache Beam 2.40 で導入された scikit-lean, Pytorch の効率的な推論が可能になる RunInference API を試してみる

2022-07-21 に Google Cloud が Cloud DataFlow の新機能として、DataFlow ML という新機能を発表した。1 Dataflow ML - Speaking of ML transforms, Dataflow now has added out of the box support for running PyTorch and scikit-learn models directly within the pipeline. The new RunInference transform enables simplicity by allowing models to be used in production pipelines with very little code. These features are in addition to Dataflow’s existing ML capabilities such as GPU support and the pre and post processing system for ML training, either directly or via frameworks such as Tensorflow Extended (TFX)....

August 18, 2022 · Shunya Ueta

PythonでApache beam 入門

TensorFlowの勉強をしていたら、Apache beam を前処理に採用していたケースがあり、興味を持ったので深堀りしてみます。 興味が湧いたモチベーションとしては、 データ量が増加しても前処理部分を難なくスケールできそう(前処理部分をスケールさせて高速に実験を回したい、並列化などはすべて良い感じにbeamに任せれそう バッチとストリーミングの両者に対応可能なので、柔軟な機械学習の推論サービスが提供できるのでは? (GCPの参考資料 Data preprocessing for machine learning: options and recommendations) Apache beam を触りつつ分散データ処理を学びたい https://github.com/jhuangtw/xg2xg#services を見てみるとGoogle 内部のFlume という並列データパイプライン技術がApache beam として公開されているみたいです。 Apache beam について端的に説明すると Apache beam は3つの考えを基礎にしています。 Unified ストリーミング、バッチの両者のケースに一つのプログラミングモデルで対応可能な統一性 Portable 実行パイプラインが複数の実行環境で実行可能な可搬性 Extensible 新しいSDK、IO Connectorsや変換ライブラリなどをを書いて共有することができる拡張性 Java, Python, Go やScalaを使ってBeam Model を作成して任意のruntime で実行する流れです。 自分はPythonが一眼手軽に書けるのでこの記事ではPythonで紹介していきます。 Version 2.14.0 からPython 3がサポートされたのは非常にありがたいですね。それまではPython 2のみをサポートしており、その影響で技術選定時に採用しづらかったのでは無いのでしょうか? Spotify が作成しているApach BeamとDataflowのScala APIであるscioが開発されており、そちらも気になっています。 https://github.com/spotify/scio https://engineering....

December 26, 2020 · Shunya Ueta