THINE:针对时序异质信息网络的表示学习

一颗小胡椒2021-12-27 08:05:58

异质信息网络(Heterogeneous Information Networks,HINs)嵌入以其优异的性能受到越来越多的关注,它将多种类型的节点映射到低维空间,同时保留网络的特征和结构。然而,目前的大多数工作都是针对静态HINs而提出的,这与实际情况形成了对比。现实生活中的HINs会随着时间的推移而发展,简单地将其视为静态的,势必无法准确捕获网络的结构和语义。基于此,我们提出了一个时序异质信息网络嵌入模型(THINE)用于捕获多种类型节点之间的动态信息,其利用候选元路径集来捕获HINs的结构和语义,同时使用Hawkes过程来模拟网络的演化。在三个真实世界的时序HINs上的大量实验表明,在静态和动态任务中,THINE的表现都是最好的。

该论文“Temporal Heterogeneous Information Network Embedding”发表在IJCAI 2021,即国际人工智能联合会议(International Joint Conference on Artificial Intelligence),IJCAI是人工智能领域中最主要的学术会议之一,是中国计算机学会(CCF)A类会议。

  • 论文链接:
  • https://www.ijcai.org/proceedings/2021/0203.pdf

简介

近年来,异质信息网络(Heterogeneous Information Networks,HINs)嵌入以其优异的性能受到越来越多的关注。它将多种类型的节点映射到低维空间,同时保留网络的特征和结构。PTE、Meta-path2Vec等许多优秀算法已成功应用于各种网络相关任务中,如节点分类、节点聚类、链路预测等。然而,目前的大多数工作都是针对静态HINs而提出的,这与实际情况形成了对比。现实生活中的HINs会随着时间的推移而发展,比如学术网络,作者可能会在不同的年份发表不同的论文;而在Yelp数据集中,随着时间的变化,用户的评论也会产生不同的星级。因此,简单地将时序HIN视为静态HIN,不可避免地无法准确捕获网络的结构和语义。

因此,为了1)有效地保持时序HINs中动态的结构和语义;2)捕捉异构节点之间的动态影响。我们提出了一个新颖的时序HIN嵌入模型(THINE)用于捕获多种类型节点之间的动态信息。我们首先定义各种元路径来捕获HIN的语义和结构;然后,对于特定的下游任务,我们生成与该任务相关的候选元路径集;最后,通过Hawkes过程建模节点间的时间影响,得到每个节点的嵌入;此外,THINE还使用了两层的注意机制优化模型,其中一层是为了区分不同类型的元路径,另一层用于区分邻居节点的距离。

模型设计

图1-THINE模型

THINE的整体模型如图1所示,其首先使用基于元路径的随机游走来提取HIN的信息。元路径的构建决定了我们可以捕获什么语义和结构。因此,元路径的选择是HINs研究的关键。例如,对于学术网络,除了考虑先前模型所考虑的作者-论文关系的元路径外,我们还考虑了论文-论文关系的元路径,即APPA。凭借这些元路径,我们可以很好地保留HINs中的语义。此外,网络中的节点和边受到节点自身和相关候选元路径集的影响。因此,我们基于节点对的影响,对候选集的影响进行建模,以理解时序HIN。之后,我们用 Hawkes过程建模时间的影响。一般来说, Hawkes过程被用来模拟过去事件对现在的影响。显然,越久远的事件,对现今的影响就越小。因此,对于THINE,我们对每一个影响都用 Hawkes过程加以关注。正式地,候选元路径集的影响,即所有相关元路径实例的影响,被定义为:

其中,m表示一条元路径实例,tmi,i∈(s, m, e)表示候选元路径集、一条元路径实例和一条边的影响。因此,ηs(t)、ηm(t)和ηe(t)分别表示时间t之前相应的影响。由此,我们首先需要建模一条元路径实例的影响ηm(t),即是它包含的所有边的影响。因此,它被定义为:

其中,eij 表示节点vi和vj之间的一条边。一条边可以用它连接的两个节点来表示,因此,我们利用节点对的影响和 Hawkes过程来模拟一个时间边的影响,即:

ti,j表示边ei,j的时间戳,ηi,j为节点对的影响,使用负欧几里得距离的平方表示。k(·)为指数函数,用于建模时间衰减效应。需要注意的是,由于计算复杂性,我们选择了候选元路径集的子集进行训练。具体来说,我们选择从时间t最近生成的n个元路径实例,其中n是一个超参数。对于一个元路径实例,我们同样选择离源节点最近的z条候选边来训练,而z也是一个超参数。

此外,THINE还使用了两层注意力机制优化模型。例如图1(c)所示,边 的候选元路径集包括m1:(a1,p2,c1,p3,a3)以及m2:(a2,p3,a3)。 显然,m1 和m2 是根据不同的元路径APCPA和APA生成的,它们对下游任务有着不同的影响,为了捕捉这种微妙的区别,我们应用了语义层面的注意机制。 形式上,我们定义不同类型的元路径的权值如下:

其中c是任务中定义的所有元路径的集合,而ωb 表示第b元路径的权值。在此基础上,我们将候选元路径集的影响重新表述为:

除此之外,m1以及m2中的节点到a3的距离是不同的,因此,一种结构级别的注意机制被用来捕捉这种差异,即设置了与跳数相关的注意力机制。我们将与跳数相关的权值表示为:

因此一个元路径实例的影响被重新定义为:

在上述公式的基础上,我们定义了条件强度函数λx,y(t)表示节点vx和vy之间在t时刻生成连接的强度,具体为:

考虑到条件强度函数应返回正实数,我们采用指数函数传递λx,y(t),同时将λx,y(t)收缩至0-1之间,表示节点vx 和vy之间建立关系的概率。此外,为了避免在计算时涉及整个节点集,我们使用了负采样技术,损失函数可以重新表示如下:

最后,我们使用Adam优化THINE。

实验相关

数据集:我们在3个不同的真实世界数据集上测试THINE,分别为Aminer、DBLP和Yelp。他们的统计数据如表1所示。

表1 数据集详细信息


对比方法:我们比较THINE与以下11种方法的性能,包括9种网络嵌入方法和2种图神经网络方法,详细信息如表2所示。

表2 对比方法信息

节点分类:我们以学习到的节点嵌入作为特征来训练逻辑回归分类器,用于预测节点标签。实验结果如表3所示。

表3 节点分类实验结果

从结果可以看出,在三个数据集上,THINE优于其他方法,这说明捕捉所有的动态和不同类型节点之间的影响有助于理解HINs的结构。此外,当使用60%或80%的训练集时,我们的模型得到了类似的结果,这也表明了THINE的鲁棒性。

链路预测:在链路预测任务中,我们利用| ux − uy|为特征训练逻辑回归分类器,其中ux和uy分别是节点vx和vy的节点嵌入。对于Aminer和DBLP,我们关注合著者的关系。因此,我们随机隐藏25%的AP连接,因为合著者信息隐含在元路径APA中。对于Yelp,我们隐藏了25%的UR连接来预测用户之间的联系。在每个数据集上,我们随机选择25000条边作为正边,同时生成25000条负边。链路预测结果如表4所示。

表4 链路预测实验结果

从表4中可以看出,THINE方法优于所有的基线,并且大多数动态方法对链路预测都有很好的效果,这进一步说明时间信息有助于提取时序HINs的结构和语义。

时序链路推荐:我们研究了THINE在动态任务下捕获网络时间信息的有效性。具体来说,我们完成了时序链路推荐实验,我们在时间t之前的HINs上训练所有方法,然后在时间t之后做出推荐。对于每个数据集,都使用周期的前80%进行训练,然后预测时间t后测试节点的top- k连接,最后计算相应结果的精度和召回率,实验结果如表5所示。

表5 时序推荐实验结果(同质)

为了使我们的结果更有说服力,我们还在异质节点之间做出了推荐。注意,我们删除了一些不适合此任务的基线或数据集。具体结果如表6所示:

表6 时序推荐实验结果(异质)

我们可以看出,THINE的准确率和召回率都是最优的。此外,针对HIN的方法在异质推荐任务中优于同质网络模型,但在同质推荐中表现较差,这可能说明HIN的方法也应该注意同类型节点之间的影响,这有助于在下游任务中获得更好的表现。

总结

我们提出了一种用于研究时序HINs嵌入问题的算法THINE,其利用候选元路径集来捕获结构和语义,同时使用Hawkes过程来模拟网络的演化。在三个真实世界的时序HINs上的大量实验表明,在静态和动态任务中,THINE的表现都是最好的。

网络节点网络结构
本作品采用《CC 协议》,转载必须注明作者和本文链接
网络安全威胁评估技术被广泛应用在态势感知、攻击预警等方面。目前,大多威胁评估模型构建仅考虑节点自身的状态,但节点间的交互关系对安全威胁评估有较大影响。因此,提出一种基于复杂网络的多维网络安全威胁评估模型,从目标脆弱性、安全威胁状态和攻击危害损失3个维度衡量节点的初始状态,借助构建连续动力学复杂网络模型,模拟节点间的交互关系,实现对网络综合态势的评估。采用2020年12月—2021年2月某云上获取的
1世纪以来,大数据技术蓬勃发展、军事应用潜力凸显,已逐步成为智能化装备的重要技术基础,成为打赢未来智能化战争和提升国防管理决策质量效率的重要引擎。美军紧盯大数据发展战略机遇,出台了《国防部数据战略》等一系列军事数据战略文件加速军事数据建设,进而谋求以数据为中心的全方位军事优势。文章分析了美军大力推进数据建设的需求动因,总结了美军加快推进数据建设的主要路径和做法,构建了“两维三层”的美军数据战略体系
加强火电厂网络安全整体防护能力,降低工控网络被渗透攻击风险。
云计算的快速发展颠覆了传统IT模式,越来越多组织通过租用云服务来降低IT建设成本。本质上说云计算不是一种新技术,而是一种服务模式,通过网络提供计算资源,并且让云租户可按需动态自助供给、管理各类计算资源。 云计算平台通常由设施、硬件、资源抽象控制层、虚拟化计算资源、 软件平台和应用软件等组成,这里面涉及大量的虚拟化技术,云计算平台安全与虚拟化安全密不可分。
看陕西省联社在数字化转型中,如何做好网络安全主动防御
工业互联网安全的落地第一步,是确保工控环境中的防护能力,之后是检测/审计能力。本次《工业互联网安全能力指南》的发布内容为报告中的工控防护能力部分,以及工控检测/审计能力部分。
2021年8月2日,2021全球数字经济大会在北京国家会议中心举行。“党的十八大以来,党中央高度重视发展数字经济,将其上升为国家战略。”截至2022年5月底,已建成170万个5G基站,5G移动电话用户达4.28亿户。数字技术战“疫”作出新贡献。
坚持防范风险,全面筑牢网络安全和数字安全屏障。加快出台《网络数据安全管理条例》等行政法规,完善网络和数据安全法律法规体系。提升网络安全防护能力,加强关键信息基础设施保护。建立数据分类分级管理制度和个人信息保护认证制度,强化数据安全风险评估、监测预警、检测认证和应急处置,加强对重要数据、商业秘密和个人信息的保护,规范对未成年人个人信息的使用。
今年以来人民银行各省级分支机构先后开展了SD-WAN技术在省域网络中的应用,取得了一定的成效,大幅提升了省市互联网络的管理能力和服务水平。通过硬件方式实现的SD-WAN能在不破坏现有架构的前提下达到预期效果。作为一种新兴的网络管理技术,SD-WAN自2014年被正式提出后便迅速被推广应用。
一颗小胡椒
暂无描述