Skip to Content

Slicing Convolutional Neural Network for Crowd Video Understanding (CVPR2016)を読んだ

群衆解析の手法に興味があるので、サーベイの結果を放流しておきます。

Jing Shao, Chen Change Loy, Kai Kang, and Xiaogang Wang, “Slicing Convolutional Neural Network for Crowd Video Understanding”, in CVPR, 2016.

Project Page

image

Summary

一言説明

時系列・空間的特徴から CNN で特徴を学習、群衆の動画に対してstate-of-the-artを達成

3 個の CNN を用いて下記の3つの特徴を表現学習

  • xy- : 空間的特徴
  • xt- : x 軸の時系列特徴
  • yt- : y 軸の時系列特徴

Comments

Dataset としてWWW Crowd Dataset
が公開されている。10,000 本の群衆の動画を収集公開しているとのこと。

Demo Movie

  • 紹介動画を見てみたら分かるが、群衆の動画というよりも数が増大した結果一般的な画像認識のデモ動画になっている
  • Jing Shaoさんは CVPR2014 から群衆解析のための descriptor を提案したりしてたんだけど、2016 年から Deep な手法での群衆解析の研究をやっているのは手が早いなと
  • 所属グループは ISLVRC2015 の物体認識タスクで優勝した香港大学のグループ
  • Multimedia Laboratory The Chinese University of Hong Kong
  • データセット、実装コードを必ず公開しているのは尊敬、またそれくらいやらないとトップには通過しないんだろうな
  • CNN のアーキテクチャ毎の比較実験と考察をかなり入念に行っていた。数年後には各データのフォーマットに合わせたベストな DNN のアーキテクチャが決まってくるんじゃないだろうか

See Also