导航菜单
首页 » 无极4 » 正文

日本少妇-业界首个视频辨认与定位东西集PaddleVideo重磅更新,前沿视频模型等你用

机器之心发布

来历:百度飞桨

飞桨 (PaddlePaddle) 致力于让深度学习技能的立异与运用更简略。7 月初,跟着 Paddle Fluid 1.5 版其他发布,国内业界首个视频辨认与定位东西集 PaddleVideo 也迎来了重磅更新。

PaddleVideo 在实践工业界能够构成许多具体运用,包括:视频精彩片段猜测、要害镜头定位、视频编排等使命,例如定位 NBA 篮球赛视频中扣篮镜头,电视剧中的武打镜头号。如下图所示:

本文结尾,为广阔算法和开发同学预备了 PaddleVideo 模型实战的运用事例,视频编排、资料拼接和标题生成作业完全是程序模型主动完结的,极大地减轻了人力编排的作业量,作用也还不错。不过,在看具体模型具体运用之前,让咱们能够先来了解一下 PaddleVideo。

1.PaddleVideo 是什么?

PaddleVideo 是飞桨在核算机视觉范畴为用户供给的模型库 PaddleCV 中的视频辨认与定位部分的模型库。PaddleVideo 的悉数模型都是开源的,用户能够一键式快速装备模型完结练习和评测。

PaddleVideo 现在视频分类和动作定位模型包括:

2.重磅更新内容详解

本次重磅更新关键如下:

  • 添加动作定位模型 C-TCN,该模型是 2018 年 ActivityNet 夺冠计划。
  • 添加已发布的模型主干网络,Non-local 模型添加 ResNet101 和 l3d 网络结构
  • 优化现已发布的分类模型,NeXtVLAD 练习速度提高 60%,TSM 练习速度抢先同类结构 39%

首要是动作定位模型 C-TCN。在介绍模型前,需求了解一下 ActivityNet。

ActivityNet 是现在视频了解范畴影响力最大的赛事,与每年的尖端学术会议 CVPR 一同举行。在 2019 年的竞赛中,百度公司核算机视觉团队取得视频动作提名、视频动作检测两项使命的冠军,并在新增使命 EPIC-Kitchens 动作辨认挑战赛中获两项测验集冠军(Seen kitchens 和 Unseen kitchens)。这已是百度视觉团队接连三年在 ActivityNet 相关赛事中斩获冠军。

了解了 ActivityNet 竞赛的含金量,咱们快来看一下第 1 条更新:C-TCN 模型。

2.1.动作定位模型 C-TCN

问题布景:定位视频中特定类其他时序动作片段的动作开始时刻和停止时刻点并正确辨认动作类别。

研讨现状:当时的干流做法是将视频特征 (时刻维度 T*C 单帧图画特征维度) 沿着时刻维度做一维卷积规划各种网络结构 1D-TCN,咱们试验发现跟着网络加深之后网络的分类 loss 较浅层网络结构会差许多,也就是说类别信息在 1D 时序卷积网络中会跟着网络变深而渐渐丢掉,如下图所示。因而,咱们规划了 C-TCN,2D 的保存类别信息的卷积,而且试验证明了 C-TCN 的有效性。

CTCN 卷积的进程如下图:

用 SSD+FPN 结构参加了 CTCN 后,整个网络结构如下图:

在 THUMOS14 和 ActivityNet1.3 上都取得了较好的成果,如下图:

2.2.Non-local 模型添加 ResNet101 和 l3D 网络结构

具体来说,开发者选 Non-local 这个模型,之前版别只供给了最简略的网络结构,Resnet50 + C2D,此次版别更新,添加了两个杂乱一些的网络结构:Resnet50 + I3D,和 Resnet101 + C2D。

这儿给咱们解释一下 Non-local 模型的意思。

在 CVPR 2018 录入的论文里有一篇叫《Non-local Neural Networks》。论文中,作者提出了 non-local operation 来处理 CNN 网络中日本少妇-业界首个视频辨认与定位东西集PaddleVideo重磅更新,前沿视频模型等你用的 long-range dependencies 问题。在论文中, 作者提出了 non-local operation 作为一种通用的神经网络的 building block 来捕捉依据 long-range 的依靠联系。遭到经典的 non-local means 办法的启示, non-local operation 会将某一方位的呼应作为是一种从特征图谱一切方位的加权和来核算。

该 building block 能够刺进到现在核算机视觉的许多模型傍边, 从而能够提高分类, 检测,切割等视觉使命的功能体现。

在 PaddleVideo 模型库中 Non-local 模型专门用于视频分类使命。

还有第 3 条更新:优化现已发布的分类模型,NeXtVLAD 练习速度提高 60%,TSM 练习速度抢先同类结构 39%。

2.3.NeXtVLAD 练习速度提高 60%,TSM 练习速度抢先同类结构 39%

以上的速度提高是指在相同的硬件装备下,练习速度比之前有了很大的提高。经过此次更新,NeXtVLAD 模型练习速度比 TensorFlow 快约 1.88 倍。选用的优化办法是将数据预处理部分浮点数相关的运算转移到 GPU 上运用 Paddle Op 进行核算,而 CPU 上则运用 uint8 数据类型,能够大幅减小从 CPU 到 GPU 数据复制的开支。

3.模型练习、测验和揣度

接下来,教咱们怎么运用 PaddleVideo 中模型,以本次重磅更新的模型 C-TCN 为比如。

首要进入 GitHub 的 PaddleVideo 相关页面,地址如下:

  • https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo?fr=jqzx2

经过 gitclone 指令下载代码到本地。代码结构阐明如下:

3.1.数据预备

C-TCN 模型运用 ActivityNet 1.3 数据集,具体下载办法请参阅官方下载阐明(http://activity-net.org/index.html)。在练习此模型时,需求先对 mp4 源文件抽取 RGB 和 Flow 特征,然后再用练习好的 TSN 模型提取出笼统的特征数据,并存储为 pickle 文件格局。咱们将会供给转小吃加盟化后的数据下载链接。转化后的数据文件目录日本少妇-业界首个视频辨认与定位东西集PaddleVideo重磅更新,前沿视频模型等你用结构为:

一起需求下载如下几个数据文件:Activity1.3_train_rgb.listformat,Activity1.3_val_rgb.listformat,labels.txt,est_val_label.list,val_duration_frame.list,并放到 dataset/ctcn 目录下。

3.2.模型练习

数据预备结束后,能够经过如下两种方法发动练习:

  • 从头开始练习,运用上述发动脚本程序即可发动练习,不需求用到预练习模型。
  • 可下载已发布模型经过--resume 指定权重寄存途径进行 finetune 等开发。

练习战略:

  • 选用 Momentum 优化算法练习,momentum=0.9。
  • 权重衰减系数为 1e-4。
  • 学习率在迭代次数到达 9000 的时分做一次衰减。

3.3.模型评价

可经过如下两种方法进行模型评价:

  • 运用 s/test/test_ctcn.sh 进行评价时,需求修正脚本中的--weights 参数指定需求评价的权重。
  • 若未指定--weights 参数,脚本会下载已发布模型进行评价。
  • 运转上述程序会将测验成果保存在 json 文件中,运用 ActivityNet 官方供给的测验脚本,即可核算 MAP。

3.4.模型揣度

可经过如下指令进行模型揣度:

  • 模型揣度成果存储于 CTCN_infer日本少妇-业界首个视频辨认与定位东西集PaddleVideo重磅更新,前沿视频模型等你用_result.pkl 中,经过 pickle 格局存储。
  • 若未指定--weights 参数,脚本会下载已发布模型进行揣度。

以上也是 PaddleVideo 中一切模型的具体运用办法。

4.典型事例

PaddleVideo 现在现已在典型范畴有一些实践运用,咱们来看一个实践的视频编排集锦;事例:《悲伤镜头集锦:看谁最能感动人心》

值得一提的是,以上视频并不是人工编排的,完全是结合常识图谱做出的智能化视频出产。具体来说,首要运用常识图谱的才能,咱们依据视频标题能够找到许多包括某些特别动作类其他视频,然后再运用 localization 的技能能够把每个视频中的这些片段编排出来,组合成一个新视频,然后用 NLP 的技能生成视频标题分发出去。假如你觉得很风趣,无妨点击文末的项目地址试了解一下。

好啦,本期飞桨 PaddleVideo 的介绍就告一段落啦。假如有爱好的同学,能够参加官方 QQ 群,您将遇上大批情投意合的深度学习同学。

飞桨官方 QQ 群:432676488

假如您想具体了解更多飞桨的相关内容,请参阅以下文档或点击文末阅览原文。

  • 官网地址:https://www.paddlepaddle.org.cn?fr=jqzx2
  • 项目地址:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo?fr=jqzx2

最终给咱们引荐一个GPU福利 - Tesla V100免费算力!合作PaddleHub能让模型原地起飞~ 扫码下方二维码请求~

二维码