Two-Stream Inflated 3D ConvNets

本文最后更新于 2024年10月25日 早上

Two-Stream Inflated 3D ConvNets

视频分类方向

采用先进的二维图像识别架构,拓展过滤器和池化内核到3维

基于双流神经网络:局部运动效果较好

论文发表时基于Inception,后改为基于ResNet

视频领域对于使用2D还是3D暂无定论,一种基本方法是2D网络配上LSTM,LSTM作为时空建模;或者配备光流;或者直接建立3D网络

ConvNet+LSTM

image-20241021165310989
  • 从每一帧中独立提取特征,在整个视频中整合预测
  • ConvNet忽略时间结构,因此加入LSTM

3D ConvNets

  • 直接创建时空数据的分层展示
  • 因为多了一层内核的维度,其参数比2D卷积网络更为复杂,难以训练

Two-Stream Network 双流神经网络

two-stream

由两个2D神经网络构成:

空间流:学习场景信息

时间流:分析光流图像,学习时间信息

最后加权平均

3D-Fused Two-Stream

image-20241021165442590

提前融合(fuse),用一个3D卷积神经网络输出结果

Approach

inflate

将2D的Kernel,pooling layer直接转换为3D

bootstrapping

将图像复制N次形成一个无聊视频,将3D模型在ImageNet上预训练,以满足无聊视频的不动点.

途径:将图片的参数复制N次(N是时间维度),再除以N实现缩放

确保卷积filter对图像和视频输入的处理一致


Two-Stream Inflated 3D ConvNets
https://meteor041.git.io/2024/10/20/Two-Stream-Inflated-3D-ConvNets/
作者
meteor041
发布于
2024年10月20日
许可协议