关注

体育赛事视频的智能增强技术

体育场注册技术与开场/回顾片段检测

在WACV会议上发表的两篇论文提出了用于提升视频流媒体体验的神经网络模型。

体育场注册技术

体育场注册技术涉及将视频图像映射到球场的拓扑模型上,以增强视频源的显示效果。美国橄榄球转播中的虚拟首攻线或游泳转播中的虚拟世界纪录线都采用了这一技术。

通常情况下,体育场注册需要现场摄像机配备传感器并根据球场参考点进行校准。将传感器输出与摄像机视频相结合,可以实现非常精确的球场注册。

这项研究解决了在没有仪器设备的情况下,使用单个能够进行平移、倾斜和变焦运动的摄像机的视频进行体育场注册的问题。这可以为小联盟或业余体育赛事的转播、小众体育项目的转播,甚至大型体育赛事中未安装仪器的辅助摄像机的视频信号添加尖端图形。

此前关于此问题的研究仅使用少数关键点(通常是球场上标记线的交叉点)来建模球场拓扑,而这项研究则使用密集的关键点网格来建模球场。

技术架构

使用根据新建模方案标注的视频,训练一个神经网络,将图像像素与球场模型中的特定关键点关联起来。

密集网格提高了注册精度,但前提是关键点被正确识别。然而,不位于球场线交叉点的关键点更难识别。

因此,研究采用第二组信息来改进映射。这是一组密集的球场特征,代表球场上线之间以及其它可识别区域之间的标准距离。

新网络架构整合了几种旨在减少计算开销的特性。

首先,这是一个多任务网络:从输入数据中,它生成一个单一的向量表示,该表示同时传递给关键点估计器和密集特征提取器。

其次,只有当网络有理由相信关键点估计不准确时,它才会使用密集特征进行验证。具体来说,根据视频帧的初始关键点估计,网络会抽取多个不同的关键点样本,并确定它们是否彼此对齐。如果不对齐,则使用密集特征来优化其估计。

通过结合这些技术,体育场注册系统得以实时运行。在测试中,将其与多个最先进的体育场注册系统在五个数据集(足球、美式橄榄球、冰球、篮球和网球)上进行了比较。

在不同的运动项目中,系统的性能从与基线相当到显著优于基线。例如,对于美式橄榄球,根据标准版本的IoU度量,系统的准确率是性能最佳基线的2.5倍。

开场与回顾片段检测

观众熟悉的选项是可以跳过剧集开头的开场片段(通常包含演职员表和主题音乐)和回顾片段(对之前剧情的快速总结)。

然而,对于现有内容,提供跳过开场和回顾片段的选项需要手动编码。这项研究旨在通过自动检测开场和回顾片段,将该选项扩展到其他节目。

开场和回顾片段都具有使其可被检测的显著特征。开场片段通常涉及叠加在屏幕上的文本,背景往往伴有较长的音乐表演;而回顾片段通常包含场景之间异常快速的切换。通常,它们也会由文本引入。

检测器架构

检测器是一个神经网络,其架构旨在最大化对这些元素的响应。与需要整个剧集系列才能找到开场和回顾时间戳的替代方法不同,该方法可以独立处理每一集,因此更具实用性。

在该系统中,给定的视频帧首先传递到卷积神经网络。CNN旨在逐步处理输入图像,将相同的滤波器应用于连续的像素块。因此,它们可以学习识别文本,无论文本出现在屏幕的哪个区域。输入音频也被传递到同一个CNN,该网络学习音频和视频的融合表示。

CNN的输出随后传递到一个双向长短期记忆网络。LSTM是一种按顺序处理输入的神经网络,每个输出都反映了之前的输入和输出。Bi-LSTM则向前和向后两次通过同一个序列。这使得网络能够识别更长期的依赖关系。

最后,LSTM的输出传递到一个条件随机场,它本质上执行曲线平滑处理。视频片段内更平滑的轮廓可以更清晰地识别片段之间的边界。

在测试中,将新系统的性能与使用相同CNN但采用不同方法处理CNN输出的基线进行了比较。结果发现,新系统显著优于所有四种基线方法。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

转载自CSDN-专业IT技术社区

原文链接:https://blog.csdn.net/codeshare1135/article/details/158069203

评论

赞0

评论列表

微信小程序
QQ小程序

关于作者

点赞数:0
关注数:0
粉丝:0
文章:0
关注标签:0
加入于:--