CVPR SoccerNet-v2竞赛双冠，百度AI落地体育视频生产

发布: 2021-06-30 20:33 | 作者: | 来源: | 字体: 小中大

相关专题：华为

2021欧洲杯足球赛近日“姗姗来迟”，牵动了无数球迷的心。精彩的球赛视频背后，令人意想不到的是AI技术正在重塑体育视频产业的内容生产方式。

在近期举办的国际计算机视觉与模式识别顶会CVPR 2021上，视频理解领域最具影响力的International Challenge on Activity Recognition (ActivityNet) workshop旗下多个竞赛公布榜单。竞赛吸引了百度、阿里、字节跳动、腾讯、华为等知名企业和清华、北大、斯坦福、麻省理工学院、中科院等国内外高校和机构参与。其中，全球首个以足球比赛视频的全方位理解为目标的SoccerNet-v2足球视频理解竞赛中，百度研究院以绝对优势夺取了全部两项任务的冠军。

百度拿下全部两项任务冠军

本届竞赛所使用的 SoccerNet-v2数据集在足球理解领域规模最大，包括500场来自2014到2017年三个赛季的欧洲足球五大联赛和欧洲冠军联赛的视频，视频总时长达到764小时，人工标注达30万个，成为国际AI团队间衡量足球视频理解能力的重要标准。

双任务项目夺冠大幅提升基线平均mAP

本届SoccerNet-v2竞赛下设了事件定位(action spotting)和回放溯源(replay grounding)两个任务。其中，事件定位(action spotting)是从足球比赛实况转播视频中找到一些关键事件并确定其发生的时刻。关键事件包括17个类别，涵盖进球、点球、任意球、红牌、黄牌、角球等重要事件，以及犯规、越位、射正、射偏等人类也难以立刻分辨的事件。同时有一部分事件甚至并未被直接拍摄到，需要根据上下文来推测，这也是对视频动作识别和事件检测能力的一个挑战。

回放溯源是(replay grounding)是把足球比赛转播视频中的回放片段和原始事件进行匹配。在足球比赛视频中一个精彩事件发生之后往往有多次回放，且回放和原始事件之间可能会相隔长达上百秒，拍摄视角也经常不同，能否将回放片段和原始片段匹配是对超长距离视频理解能力的一项考察。

百度研究院图文转视频VidPress团队专注于算法研究和应用创新，此次拿下两项任务的冠军，展现出了超群的技术实力。系统采用两阶段的方法，首先特征提取器提取足球视频特征，再将提取出的特征作为第二阶段具体任务模块的输入，进行事件定位或者回放溯源。

事件定位和回放溯源的系统流程

在特征提取阶段，团队认为在足球视频上微调过的特征提取器更有利于提升事件定位和回放溯源两个下游任务的表现，因此在SoccerNetv2数据上微调了五种预训练的特征提取器模型：TPN、GTA、VTN、irCSN和I3D-Slow。这五种特征提取器模型均是最近年来视频理解领域在分类任务上表现优异的模型，在标准数据集Kinetics-400上的成绩也名列前茅。

在五种特征提取器模型之上，团队也充分利用数据，设计了多种微调特征提取器模型的策略、开发了提取特征的新方法。得到每种特征提取器在足球视频上提取的特征后，将五种特征连接起来并做了归一化处理，使得优化后的特征对足球比赛视频具有强大表达能力，为后面的下游任务打下了坚实基础。

在事件定位和回放溯源阶段采用了Transformer结构。Transformer架构的特点是更清晰、更标准化、模型容量大、扩展性强，能适应计算机视觉、自然语言等多种业务。Transformer结构在这两个任务中体现了对视觉语义特征的精确的时序处理能力，优于基线算法中Siamese网络的学习能力和训练速度。在训练过程中，事件定位采用了mix-up数据增强，更高效利用了训练数据、降低过拟合。在回放溯源的任务上，模型结构的更换使得训练时间减少到原来的八分之一。

结合前述的视觉信息语义化特征，以及为新的任务订制的Transformer结构，百度研究院在竞赛成绩上取得了较大幅度的领先。在事件定位任务上，把基线的平均mAP由52.54%提升到74.84%，提高了22.3个百分点，是第二名提升的近两倍；在回放溯源的任务上，把平均mAP由基线的40.75%提升到了71.90%，提高了31.15个百分点，比第二名63.91%的成绩高出8个百分点。

技术“照进”现实应用智能视频生成工具应运而生

百度研究院之所以能够在该项竞赛中脱颖而出，离不开基于大规模视频数据的算法能力技术积累。

该项技术有非常高的实用价值，可以大规模应用于体育赛事视频中，通过对全场比赛进行智能识别，可以在不需要人工介入的条件下，精准、实时地切分出进球、射门、犯规等动作片段。

基于此项能力，团队开发出了一系列应用工具并成功落地。

首先是行业领先的自定义足球精彩集锦生成工具。输入球员后选定比赛场次，即可自动生成这个球员的精彩瞬间视频集锦以及慢动作回放。目前这一系统已经落地在百度百科400多个足球球员和球队页面。

输入球员名称+比赛名称，生成该球员的视频集锦

其次，将文本语义理解与视频图像理解贯通，团队还搭建了足球图文战报一键转换视频平台。输入文字直播内容或者直播间地址，就能智能聚合生成对应的视频内容，提高了战报的生成效率和可读性。

根据文字直播内容智能生成对应的片段视频

此外，团队还建立了基于图像场景识别的智能视频生产线，该生产线可以快速理解上传的长视频，检测是否有进球、精准定位视频中的进球瞬间，并完成自动剪辑。

上传一段比赛视频，自动识别生成进球片段

基于在智能视频技术上的不断创新和积累，百度研究院在2020年初孵化推出了智能图文转视频工具VidPress，是业界首个支撑通用型、大规模的全自动视频生产技术。VidPress能够支持图文链接一键导入，自动自动实现配音、字幕、画面的视频内容生产，降低素材搜集、整理、匹配的时间成本。目前VidPress已作为百度大脑智能创作平台中的核心能力，为人民日报等多家媒体机构的智能视频生产赋能；为秒懂百科智能生成上千条球员精彩瞬间视频；为百家号和好看视频等平台的终端用户提供一键视频生成服务。百度大脑智能创作平台基于自然语言处理、知识图谱、视觉、语音的整合技术能力，为创作者提供多项能力，助力新闻生产的策、采、编、审、发全流程，全面提升内容生产效率。

全视频时代到来，各行各业对视频的应用、体验和效能都提出了全新升级需求，智能视频变化趋势背后的驱动力少不了AI的身影。无论是足球比赛视频，还是其他内容丰富、形式多样的视频内容，未来百度也将持续在相关领域的技术上不断突破迭代，并持续赋能应用与产品落地，为视频行业的发展与变革注入充足动力。