△「ICCV2021 群星闪耀·围炉夜话」 活动持续报名中 △
复杂视频中的人物检索是视频分析的重要问题,它要求从一段完整的视频中抽取出包含特定目标人物的全部出场片段。自动地针对视频内容进行有效的信息抽取和理解,从而检索出目标人物,可以更好地帮助人们快速且准确地理解视频内容。
本文工作由中国科学技术大学与华为云AI联合完成,并由华为-中科大企业智能联合创新项目资助。相关成果已被中国计算机学会推荐A类国际期刊ACM TOIS录用。
论文标题:
Social Context-aware Person Search in Videos via Multi-modal Cues
期刊名称:
ACM Transactions on Information Systems
论文作者 :
Dan Li, Tong Xu, Peilun Zhou, Weidong He, Yanbin Hao, Yi Zheng, Enhong Che
一、引言
当前的主流视频媒体平台中已经出现了许多智能化的视频分析功能,使得用户更方便快捷地查询、理解视频内容。例如,优酷视频与爱奇艺视频所推出的“只看他”功能,可以根据用户喜好自动生成特定视频人物的剪辑,实现了对海量的视频数据进行浓缩与关键信息抽取。
然而,传统的人物检索方法往往基于视觉特征,却很少利用到视频中富含由图像与文本共同构成的高层次语义信息。而事实上,视频中除了由视频帧构成的视觉特征外,还包含着大量的不同类型的文本信息,诸如字幕和弹幕等。先前,我们已经针对这些语义线索进行了初步的尝试(详见“ ”一文)。而更为有趣的是,这些视觉与文本信息还可能共同揭示当前片段所蕴含的社交关系线索,从而在视觉信息质量较低时能够提供可靠的高层次语义支撑。例如,如果我们能得到当前帧所在场景为“校园”,就可以结合人物之间的“同学”或“师生”关系,结合其中视觉特征较好的一方信息,得到仅凭视觉特征难以识别的另一方的身份信息。
二、技术细节2.1 问题定义
给定以不同时刻帧构成的集合 为表示的视频 ,以及待检索角色 形成的关系图谱 作为先验。对于任意一个人物 作为查询,返回所有该人物出现的帧集合 。
2.2 模型整体框架
我们提出的多模态人物检索模型主要包括:人物特征提取步骤、场景分割步骤、图建模步骤,以及关系感知的特征聚合步骤。
2.3 人物特征提取
为了对不同种类特征,以及各特征抽取模型之间的效果进行探索,我们实践了身体与脸部特征,以及其对应不同抽取模型的组合。对于身体特征的提取,我们尝试了以跨层次语义对齐结构(CLSA),与多层次因子分解(MLFN)两种模型结构作为特征抽取器进行实验。对于脸部特征的提取,我们尝试了FaceNet,与ArcFace两种模型结构作为特征抽取器进行实验。经过各种特征提取器,我们可以得到身体特征 ,同时得到脸部特征 。
2.4 场景分割步骤
复杂视频中场景极具变化性使得同一人物身份的不同出场都会有非常大的视觉差异。因此我们以视觉风格作为划分,将视频切分为一系列片段,每个片段代表一个场景。位于同一场景内的视觉风格将保持相对稳定,较好地利用了复杂视频中的时序信息。与此同时,对场景进行分割也能将位于不同场景的社交关系语义分割开来,提升了语义信息的纯度。
我们记录下场景分割后所得到的每个场景的起止时间戳 ,并基于场景切分的起止时间,将帧集合 按照对应的时间戳,划分到不同的场景中。
2.5 图建模步骤
在得到了相应的场景划分后,我们以图的方式建模每个场景。图中的节点代表人物,包括候选人物与查询人物;节点的特征为人物的视觉特征。图中的边包括查询人物节点之间的边,候选人物节点之间的边,以及查询人物与候选人物之间的边。连接两个代表人物的节点的边象征着所连接的两个节点 与 之间的社交关系 及其概率 。对于查询节点之间的社交关系,由关系图谱可直接得到。而对于候选节点之间的社交关系,由于其身份未知,我们结合视觉特征 与文本特征 ,采用支持向量机分类得到其社交关系:
其中视觉特征 是身体特征 与脸部特征 的组合;文本特征 由当前场景时间窗口内的所有弹幕、字幕通过tf-idf或word2vec方法得到。
2.6 关系感知的特征集合
接着我们通过上一步得到的图中边所代表的社交关系,结合关系图谱 完成邻接矩阵权重的计算。为任意一条边计算其在邻接矩阵的权重时,我们基于如下思想:
· 如果两个节点的邻居节点集合、以及这两个节点与邻居集合构成的社交关系集合(也即边的种类)有着较高的重合度,连接它们的边的权重应该尽可能大;
进而,我们设计了如下策略计算查询节点 与候选节点 之间的边权重 。具体来说,我们首先筛选出 所有的邻居集合 ,以及与邻居集合所连成的边代表的社交关系集合 :
其中 代表所有的邻居节点集合。 代表两个节点之间的上下文信息,由临近时间窗口内的文本特征 与节点的视觉特征 进行拼接映射得到。然后我们根据已有的关系图谱 ,筛选出所有与 有重合边的查询节点集合 :
其中 代表在关系图谱 中查询人物 与 之间的社交关系,并且满足查询的结果与 所反映的社交关系一致。最终, 与 的最大重合度可以用两个集合中节点组合的特征相似度的最大值来衡量。得到的结果即为查询节点 与候选节点 之间的边权重 :
对于候选节点 与候选节点 之间边的权重,类似的,我们筛选出邻居集合以及与邻居集合构成边的社交关系集合 ,以及与 存在交集的查询节点集合 :
候选节点 与候选节点 之间的边权重 可表示为两个集合中,节点的最大相似度值:
在以上述方式计算图的邻接矩阵后,我们采用线性加权求和的方式,为每个节点聚合其各邻居的特征,并最终分类得到每个节点的身份类别:
三、实验
3.1数据集
在数据方面,我们从 BiliBili 视频网站获取了70部电影,平均时长约1.9小时,我们选择了电影中的376个主要人物,进行了社交关系,以及毫秒粒度的对人物出场的标注。
3.2实验结果
我们采用Recall, Precision,F1值作为最终的评测指标,得到的总体结果如下。可以看出,引入社交关系(social context aware)作为线索,对于人物检索的优化是巨大的:实现了6%以上的效果提升,并且这个提升是对各种特征组合(-MF、-MA、-CF、-CA)都生效的。同时我们发现,融合了多种视觉特征的模型(visual context aware)比只利用单种特征的模型(visual match-based)有着明显的优势。而舍弃社交关系建模,仅把文本作为附加特征的模型(visual&textual context aware)会产生适得其反的效果,进一步说明了将多模态信息抽象成高层次语义线索(社交关系)的重要性。
与此同时,我们还分析了Top Accuracy指标,用于衡量人物检索模型为正确的类别赋予高置信度概率的能力,得到的结果如下表所示。相较于其他模型可以看出,我们的检索模型相比纯视觉模型在分类的稳定性上也有着长足的提升。
3.3消融实验
同时,为了进一步检验不同模态信息对于生成关系线索的有效性,我们做了如下对比实验,包括仅用文本( w/o V)进行关系线索的生成,仅利用视觉信息(SCPS w/o T)进行关系线索的生成,实验结果如下表所示:
实验结果进一步说明了多模态信息对于复杂视频中人物检索的辅助能力,同时也印证了通过社交关系来建模人物识别是一条可行的路径。
Illustrastion by Clip from Icons8
-The End-
怀念不如相见!
10.16晚18:00
将门-TechBeat将在上海与大家一起围炉夜话
ICCV线上线下嘉宾连线交流
分享AI道路上的故事集、经验贴
扫描下方二维码,即刻索票
还不知道本次活动详情?
扫码观看!
本周上新!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com