基于多模态学习的视觉实体链接

Ann2021-12-04 18:03:16

Introduction

现有的视觉场景理解方法主要侧重于粗粒度识别视觉对象以及他们之间的关系,而忽略了细粒度场景理解。事实上,例如新闻阅读和网上购物等场景下,都存在细粒度识别出图片中的元素为实体的需求。为此,这篇文章提出了一项新的研究任务:用于细粒度场景理解的可视化实体链接。首先从不同的模态中提取候选实体特征,然后设计了一个基于深度模态注意力神经网络的学习排名方法,将所有的特征聚合起来,将视觉对象映射到知识图谱中的实体。实验表明,与baseline对比,这一方法的准确率从66%提高到了83%。

Method

论文方法的整体框架图如图所示,由特征提取模块和视觉实体链接两个模块组成。

图像数据的处理是首先生成一个粗粒度的场景图,再通过VGG-16网络来提取图像中物体的视觉特征。图像的描述文本一方面会通过GRU网络,提取物体的文本特征,另一方面会通过基于BERT的方法进行命名实体识别,并通过实体名在通用知识库中搜索出候选的实体。分别获得视觉特征、文本特征和知识图谱特征后,利用提出的基于深度模态注意力神经网络的学习排名方法(deep modal-attention neural network-based learning-to-rank method),汇总所有的特征并将视觉对象映射到知识图谱中的实体。

Experiments

Datasets

目前计算机视觉数据集基本上没有命名实体的数据,因此论文作者建立了VELD(Visual Entity Linking Dataset)数据集,由39k个左右的新闻图片和文字说明对组成,并且全部经过人工标注和筛选,确保图片说明文字中含有相关的命名实体。

VELD数据集与MSCOCO和BreakingNews的比较

Tasks

给定一个图像的边界框和相应的说明文字,目标是将图像边界框与DBpedia知识库中相应的实体进行链接。


Results

作者提出的研究任务相对较新,用于比较的模型比较有限。下表是作者选择的对于实体链接和视觉对象识别目前最常见的几种方法进行的对比实验结果,T表示文本模态、V表示视觉模态、KG表示知识图谱模态。

前两个模型使用了视觉模态和知识图谱模态信息,结果表明这类静态离线训练的深度神经网络不能很好地完成视觉实体链接的任务,接下来的四个文本模态+知识图谱模态的模型得到的结果也与作者的模型有较大差距。即使是与类似的多模态学习模型DZMNED对比,作者的模型依然有非常显著的优势。原因在于作者的模型是对于三种模态特征的融合,而不仅是简单的基于模态的连接。

上图是模态融合的一个例子,在不同情况下不同的模态有着不同的权重,颜色越深则权重越大。以第一行为例,首先生成了Jobs,Apple,iPhone的候选实体列表。在对Jobs进行链接的过程中,可以看到视觉模态的权重要更大,因为从文本上看Jobs这一名字可能对应了很多个人;而对于AppleiPhone两个实体来说,视觉模态的权重则比文本低得多,因为仅依靠文本就可以很容易地找到与上下文语义相对应的知识图谱实体。

本作品采用《CC 协议》,转载必须注明作者和本文链接
现有视觉场景理解方法主要侧重于粗粒度识别视觉对象以及他们之间关系,而忽略了细粒度场景理解。事实上,例如新闻阅读和网上购物等场景下,都存在细粒度识别出图片中元素为实体需求。为此,这篇文章提出了一项新研究任务:用于细粒度场景理解可视化实体链接。首先从不同模态中提取候选实体特征,然后设计了一个基于深度模态注意力神经网络学习排名方法,将所有特征聚合起来,将视觉对象映射到知识图谱中实体
美国国防高级研究计划局(DARPA)一直处在人工智能研究前沿,可以说,美国人工智能发展很大程度上归功于DARPA支持。从20世纪60年代初至今,在60余年研究中,从最初基础研究项目到军事应用研究,DARPA在基础研究和应用研究之间建立了平衡,先后进行了自然语言理解、感知和机器人、可解释人工智能、下一代人工智能、人机融合、基于人工智能网络攻击与防御技术等领域研究。
数字孪生作为数字化技术发展高级阶段,成为推动城市治理数字化转型重要组成部分。上海市徐汇区将数字孪生底座建设作为提升城市治理效能重要抓手,积极探索数字孪生赋能城市治理新模式、新路径,目前已初步完成区域内数字孪生基础建设,并逐步向应用场景拓展开放。二是构建全域建筑,基于GIS平台推进三维建筑模型覆盖、完善空间管理单位划分并推动精细化建模,初步建成了覆盖全区数字孪生底座。
AI服务层统一管理模型服务,服务上线推理之后由AI服务层统一对外提供服务。AI服务层支持不同模型服务编排、模型服务AB测试和模型服务监控。
2023年11月23日至25日,2023第八届全国密码技术竞赛决赛和颁奖典礼在新疆大学博达校区圆满落幕。
人工智能密码学”为观察人工智能与密码系统互动、影响提供新视角,也为当下后量子密码技术探索提供新方案,无疑是一个值得探究新方向。
6G移动通信网络将通信领域边界从物理世界进一步拓展至数字世界,通过在物理世界和数字世界之间提供即时、高效和智能连接来重塑世界,这一趋势将开启移动通信新篇章。6G网络超大规模全局性连接将给网络运营和管理带来巨大挑战,亟待革命性理论和技术创新。
根据 MarketsandMarkets 公司 2018 年发布《安全市场中人工智能》报告,全球人工智能赋能安全市场规模在 2017 年已达 39.2 亿美元,预计 2025 年将达到 348.1 亿美元,平均每年增长率超过 30%。
长期以来,人类试图创造智能体来提高生产效率。随着人工智能从六七十年代专家系统,发展到八十年代概率推理,再到近十年机器学习,机器已经初步具备人类分析能力(Analytical),甚至在许多领域比人类做得更好,例如垃圾邮件检测、商品推荐、图像识别、欺诈信息识别等。然而,人类不仅具备分析能力,还具备强大创造能力,例如设计产品、撰写诗歌、制作游戏等。因此,生成式AI技术也逐步取得跨越式发展,并在
Ann
暂无描述