Slicing Convolutional Neural Network for Crowd Video Understanding (CVPR2016)を読んだ
群衆解析の手法に興味があるので、サーベイの結果を放流しておきます。
Jing Shao, Chen Change Loy, Kai Kang, and Xiaogang Wang, “Slicing Convolutional Neural Network for Crowd Video Understanding”, in CVPR, 2016.
Summary
一言説明
時系列・空間的特徴から CNN で特徴を学習、群衆の動画に対してstate-of-the-art
を達成
3 個の CNN を用いて下記の3つの特徴を表現学習
- xy- : 空間的特徴
- xt- : x 軸の時系列特徴
- yt- : y 軸の時系列特徴
Comments
Dataset としてWWW Crowd Dataset
が公開されている。10,000 本の群衆の動画を収集公開しているとのこと。
Demo Movie
- 紹介動画を見てみたら分かるが、群衆の動画というよりも数が増大した結果一般的な画像認識のデモ動画になっている
- Jing Shaoさんは CVPR2014 から群衆解析のための descriptor を提案したりしてたんだけど、2016 年から Deep な手法での群衆解析の研究をやっているのは手が早いなと
- 所属グループは ISLVRC2015 の物体認識タスクで優勝した香港大学のグループ
- Multimedia Laboratory The Chinese University of Hong Kong
- データセット、実装コードを必ず公開しているのは尊敬、またそれくらいやらないとトップには通過しないんだろうな
- CNN のアーキテクチャ毎の比較実験と考察をかなり入念に行っていた。数年後には各データのフォーマットに合わせたベストな DNN のアーキテクチャが決まってくるんじゃないだろうか
関連しているかもしれない記事
- Analyzing Free-standing Conversational Groups: A Multimodal Approach (ACMMM15) を読んだ
- Call center stress recognition with person-specific models を読んだ
- FUSE: Full Spectral Clustering(KDD2016) を読んだ
- “Learning Deep Representations for Graph Clustering (AAAI2014)” を読んだ
- Edge-Weighted Personalized PageRank: Breaking A Decade-Old Performance Barrier を読んだ
Support
記事をお読みくださりありがとうございます。 このウェブサイトの運営を支援していただける方を募集しています。 もしよろしければ、Buy Me a Coffee からサポート(投げ銭)していただけると、記事の執筆、情報発信のモチベーションに繋がります✨--
記事を楽しめましたか? RSSで更新情報を配信しているので、お好きなフィードリーダーで購読してみてください。また、記事へのリアクションやコメントなどを、以下のGitHub を利用したコメントシステムからしていただけると執筆の励みになります。