PubSub に出力された結果を確認するのって、なかなか手間がかかりませんか?

最近同僚に簡単な確認方法を教えてもらい、感動したのでそれを記事にしました。

確認方法

  1. PubSub のメッセージを出力する Google Cloud Storage bucket を同一 GCP プロジェクトで作成する。

  2. GCP の Pub/Sub ページに移動する

  3. 確認したい Pub/Sub topic をクリックする

  4. ページ下部にある CREATE SUBSCRIPTION ボタンを押すと選択肢で、Create subscription, Export to BigQuery, Export to Cloud Storageがあり、 Export to Cloud Storageを選択する。

    • BigQuery、 Google Cloud Storage への吐き出しを行い際に、自動的に subscription が生成される。
  5. Export to Cloud Storage を選択すると、Text 形式か Abro 形式での出力にするかを選択できる。基本的には簡単に確認できる Text 形式を選ぶと良さげ。

  6. 選択後、下記のような設定画面が出てくるので情報を埋めていく。基本的には、どこの Google Cloud Storage に出力するかを埋めれば完了。

  7. 10m ほどすると Streaming job の Dataflow の起動が完了して、一定期間ごとに Pub/Sub の topic に公開されたデータがテキスト形式で出力され始めます。

  8. 出力された GCS の結果を眺めるには、 gsutil コマンドなどを使うのが簡単です。自分はgsutil cat の結果をコピーして VS Code で確認しています。

Cloud Dataflow のテンプレート機能については、端的に説明すると、GUI でパラメータを設定するだけで、Dataflow によるデータ処理が簡単に実行できるようになる機能です。

詳しくは、 GCPUG でのCloud Dataflow がテンプレートにより気軽に使えるサーバーレスのサービスに進化した話の記事がわかりやすいのでごらんください。