Two-Stream Inflated 3D ConvNets
本文最后更新于 2024年10月25日 早上
Two-Stream Inflated 3D ConvNets
视频分类方向
采用先进的二维图像识别架构,拓展过滤器和池化内核到3维
基于双流神经网络:局部运动效果较好
论文发表时基于Inception,后改为基于ResNet
Related Work
视频领域对于使用2D还是3D暂无定论,一种基本方法是2D网络配上LSTM,LSTM作为时空建模;或者配备光流;或者直接建立3D网络
ConvNet+LSTM

- 从每一帧中独立提取特征,在整个视频中整合预测
- ConvNet忽略时间结构,因此加入LSTM
3D ConvNets
- 直接创建时空数据的分层展示
- 因为多了一层内核的维度,其参数比2D卷积网络更为复杂,难以训练
Two-Stream Network 双流神经网络

由两个2D神经网络构成:
空间流:学习场景信息
时间流:分析光流图像,学习时间信息
最后加权平均
3D-Fused Two-Stream

提前融合(fuse),用一个3D卷积神经网络输出结果
Approach
inflate
将2D的Kernel,pooling layer直接转换为3D
bootstrapping
将图像复制N次形成一个无聊视频,将3D模型在ImageNet上预训练,以满足无聊视频的不动点.
途径:将图片的参数复制N次(N是时间维度),再除以N实现缩放
确保卷积filter对图像和视频输入的处理一致
Two-Stream Inflated 3D ConvNets
https://meteor041.git.io/2024/10/20/Two-Stream-Inflated-3D-ConvNets/