Two-Stream Inflated 3D ConvNets

本文最后更新于 2024年10月25日早上

视频分类方向

采用先进的二维图像识别架构,拓展过滤器和池化内核到3维

基于双流神经网络:局部运动效果较好

论文发表时基于Inception,后改为基于ResNet

视频领域对于使用2D还是3D暂无定论,一种基本方法是2D网络配上LSTM,LSTM作为时空建模;或者配备光流;或者直接建立3D网络

由两个2D神经网络构成:

空间流:学习场景信息

时间流:分析光流图像,学习时间信息

最后加权平均

提前融合(fuse),用一个3D卷积神经网络输出结果

Approach

将2D的Kernel,pooling layer直接转换为3D

将图像复制N次形成一个无聊视频,将3D模型在ImageNet上预训练,以满足无聊视频的不动点.

途径:将图片的参数复制N次(N是时间维度),再除以N实现缩放

确保卷积filter对图像和视频输入的处理一致

#CV

Two-Stream Inflated 3D ConvNets

https://meteor041.git.io/2024/10/20/Two-Stream-Inflated-3D-ConvNets/

作者

meteor041

发布于

2024年10月20日

许可协议