Label Studio を k8s にデプロイする

前回 Label Studio の紹介記事1を書きましたが、自分以外にもチーム全体で Label Studio を使いたいという要望があったので Web アプリとして labelstudio をホストしました。 意外と簡単に k8s 上でホストできたので、その方法を公開しておく。 Label Studio の運用方法は、 Docker イメージが提供されているので、それを使用するのが最も簡単です。 CloudRun を使ってサーバーレスで動かす方法2もありますが、今回は k8s 上に Label Studio の Docker イメージをデプロイして、運用することになりました。 k8s のマニフェストファイルは、公式リポジトリ3を参考に作成しました。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 apiVersion:v1kind:Servicemetadata:name:labelstudionamespace:developmentspec:ports:- name:httpport:8080protocol:TCPselector:app:labelstudio---apiVersion:v1kind:PersistentVolumeClaimmetadata:name:labelstudio-data-pvcnamespace:developmentspec:accessModes:- ReadWriteOnceresources:requests:storage:50Gi---apiVersion:apps/v1kind:Deploymentmetadata:labels:app:labelstudioname:labelstudionamespace:developmentspec:replicas:1selector:matchLabels:app:labelstudiotemplate:metadata:labels:app:labelstudiospec:containers:- image:heartexlabs/label-studio:v1....

June 3, 2022 · Shunya Ueta
Label Studio のスクリーンショット

OSSのアノテーションツール Label Studio を使って、快適にアノテーションする

Google Spread Sheet による即席アノテーションの限界 データ分析で、ラベルがないデータに対して、自分でアノテーション(ラベルを付与)してデータの傾向を素早く掴みたい時がある。 例えば、文章に対してネガティブ・ポジティブなクラスを割り振ったり、画像に対して人が写り込んでいるか否かなどの簡単な分類タスクでは、お手軽に Google Spread Sheet などを使って、500 件のアノテーションはそこまで問題がなく気合でやれる。 実際の流れとしては、GCP を採用している場合、Google BigQuery から SQL でデータを抽出してそのまま Google Sprad Sheet に出力、=image()関数で CDN から画像の URL を参照できたりなどなどかなり便利。 Spread Sheet を共有して複数人でも作業ができるのも魅力的。 だが、文章の特定の部分を選択してタグを付けたかったり、クラス数が二桁など少し複雑なアノテーションタスクを行いたい場合 Google Spread Sheet では、アノテーションの生産性が劇的に落ちる、もしくは不可能になる。あくまで Google Spread Sheet はお手軽にラベリングを行うだけで、ラベリング専用ツールではないので当然の帰着ではある… Label Studio とは 今回紹介するLabel Studioは OSS データのラベリング(アノテーション)ツールは、 画像 画像分類 物体認識 セマンティックセグメンテーション 音声 音声分類 話者分類 感情認識 文字起こし 文章 文書分類 固有表現抽出(NER) 質疑応答 感情分析 時系列データ 時系列分類 時系列分割 イベント認識 マルチモーダル 対話処理 文字認識(OCR) ビデオ・音声の時系列分類 など多種多様なドメインに対してラベリングを行うことができるソフトウェアだ。...

January 9, 2022 · Shunya Ueta