hurutoriya

Dataflow template を使って Google Cloud Pub/Sub の中身を簡単に確認する

PubSub に出力された結果を確認するのって、なかなか手間がかかりませんか?

最近同僚に簡単な確認方法を教えてもらい、感動したのでそれを記事にしました。

確認方法

  1. PubSub のメッセージを出力する Google Cloud Storage bucket を同一 GCP プロジェクトで作成する。
  2. GCP の Pub/Sub ページに移動する
  3. 確認したい Pub/Sub topic をクリックする
  4. ページ下部にある CREATE SUBSCRIPTION ボタンを押すと選択肢で、Create subscription, Export to BigQuery, Export to Cloud Storageがあり、 Export to Cloud Storageを選択する。
    • BigQuery、 Google Cloud Storage への吐き出しを行い際に、自動的に subscription が生成される。
  5. Export to Cloud Storage を選択すると、Text 形式か Abro 形式での出力にするかを選択できる。基本的には簡単に確認できる Text 形式を選ぶと良さげ。
  6. 選択後、下記のような設定画面が出てくるので情報を埋めていく。基本的には、どこの Google Cloud Storage に出力するかを埋めれば完了。

Export to Cloud Storage config

  1. 10m ほどすると Streaming job の Dataflow の起動が完了して、一定期間ごとに Pub/Sub の topic に公開されたデータがテキスト形式で出力され始めます。
  2. 出力された GCS の結果を眺めるには、 gsutil コマンドなどを使うのが簡単です。自分はgsutil cat の結果をコピーして VS Code で確認しています。

Cloud Dataflow のテンプレート機能については、端的に説明すると、GUI でパラメータを設定するだけで、Dataflow によるデータ処理が簡単に実行できるようになる機能です。

詳しくは、 GCPUG でのCloud Dataflow がテンプレートにより気軽に使えるサーバーレスのサービスに進化した話の記事がわかりやすいのでごらんください。

関連しているかもしれない記事

Support

記事をお読みくださりありがとうございます。 このウェブサイトの運営を支援していただける方を募集しています。 もしよろしければ、Buy Me a Coffee からサポート(投げ銭)していただけると、記事の執筆、情報発信のモチベーションに繋がります✨

--

記事を楽しめましたか? RSSで更新情報を配信しているので、お好きなフィードリーダーで購読してみてください。
また、記事へのリアクションやコメントなどを、以下のGitHub を利用したコメントシステムからしていただけると執筆の励みになります。

#gcp #pubsub #dataflow