Cloud Composer(Airflow) の DAG を GitHub リポジトリで管理して、CI によりリポジトリで管理している DAG を Pull Request がマージされると Cloud Composer の DAG へ同期する方法について説明する。
DAG は、ルートディレクトリ直下の dags/
というディレクトリに格納されている状態を前提とする。
以下の2つのコマンドラインツールを利用して実現できる。
- Service Account の認証のために
gcloud
- DAG の同期のために
gsutil
CircleCI によるワークフローの記述例は以下のとおり
|
|
Sync DAG folder to GCS's DAG folder
で行っている内容を順を追って説明する。
- サービスアカウントのクレデンシャルファイルを CircleCI の環境変数として保存しておき、リダイレクトにより JSON ファイルとして書き出す
|
|
NOTE: セキュリティ対策としてクレデンシャルファイルは必ず環境変数として扱う。
- 1 で生成したクレデンシャルファイルにより、サービスアカウント認証を gcloud コマンドで行う
|
|
- CloudComposer の DAG が格納されている GCS のバケットを gcloud コマンドで取得して、gsutil コマンドで DAG ファイルの同期を行う
GCP の Cloud Composer の DAG を素早く・簡単にデバッグする の記事でも紹介した方法で DAG の同期を行う。
|
|
{XXX} には使用する環境の情報を置換してください。
"$(gcloud composer environments describe {COMPOSER_NAME} --project={GCP_PROJECT} --location={REGION} --format="get(config.dagGcsPrefix)")"
- 指定した GCP Project で動く Cloud Composer の DAG が格納されている GCS のパスを取得できる。
gsutil -m rsync -d -r dags
-m
は並列処理-d
は元のディレクトリに存在しないファイルがコピー先にあれば削除(ミラーリング)。これにより、GCS 上で DAG を新たに作成して、デバッグしていたとしても、CI が走ればリポジトリにない DAG ファイルは削除され、リポジトリの DAG と完全に同期される。-r
はディレクトリとしてコピー- 上記のオプションにより
dags
ディレクトリの DAG ファイルを GCS にミラーリングで同期を行う。
Reference
See Also
- GCPのCloud Composer のDAGを素早く・簡単にデバッグする
- CircleCI アプリ内の設定ファイルエディターを利用して、CI上の環境変数などローカルCLIでは確認できない挙動を素早く確認して修正する
- gcloud commands で PubSub に jsonファイルをメッセージとして公開 (Pusblish) する
- GKE 上にて Pythonで logger.info() を行うとCloud logging では stderr に保存され、すべてエラーになる問題への対処法
- 遅すぎる `pandas.read_gbq` を使わずに、Google BigQueryから高速にデータを読み込む