资本市场上的敏感舆情经过大量个体快速传播,往往会被强化为“群体性认知”。对于各个公司而言,舆情有时只能造成市值的暂时波动,有时却会对其声誉带来持久的损害。在舆情通过互联网迅速且广泛传播的时代,资讯的来源日益丰富,其影响也倍受关注。

舆情也直接影响投资者对所关注的公司和行业在资本市场表现的预期。大量的新闻和突发事件每天涌入各大新闻门户和社交媒体,如何快速、高效、准确地捕捉与关注标的相关的市场舆情已成为金融研究的热点问题。

为此,德邦证券股份有限公司数据智能科创团队从海量多态的舆情资讯中提取有价值的信息,建立个性化的指标体系,针对新闻资讯所关联的标的、风险信息的类别和正负面情感倾向,建立深度学习分类模型,用以预警舆情风险,发掘投资价值。

多角度挖掘风险资讯需求场景

风险管理是证券公司各种金融活动的核心。德邦证券的风险资讯监测体系针对自身需求场景,多角度发掘公司的经营风险和潜在价值信号;根据新闻公告等舆情信息的类别体系,构建机器学习舆情模型,对舆情资讯进行分析分类,及时发现标的负面消息、经营、涉诉等风险。极大地提高了业务部门接收市场舆情的精准度和时效,助力业务人员识别风险和发现业务机会。

风险资讯监测流程设计

1.资讯数据采集:相关网站、平台多管齐下

资讯数据来源于商用资讯和德邦自采集资讯,包括证券行业相关的资讯网站,如监管机构、行业协会、公司公告等。自行数据采集模块在后台发起自动检索任务,通过所关注资讯源的网页间超链接来采集资讯内容。

2.模型构建准备:标签定义和训练样本选取

根据资讯样本集的风险标签,筛选出现量级较大的标签作为训练风险标签的样本集,同时,提取资讯样本集的文本信息和情感评分(严重负面、一般负面、中性、正面)作为训练情感值的样本集。

风险标签体系包含市场风险、治理和管理风险和经营风险等一级指标及相应的二级指标。辅助风险管理对企业风险进行全面监控,如经营风险标签能够识别生产经营变动导致的企业生产端风险或销售端风险。

由于财务活动通常贯穿于企业生产经营的整个过程中,财务风险也是一个重要的标签。建立财务衍生指标标签,对企业的偿债能力、盈利能力、资产质量等进行分析,识别潜在风险。

3.自然语言处理:风险标签及情感方向推理

资讯内容是非结构化的信息,并且是冗杂的,因此需要进行多维度的处理来识别内容的风险标签、所关联的企业主体及其相关联程度、资讯内容的情感性和评分值。

(1)文本去重

每日获取的新闻资讯之间会存在描述同一事件的相似新闻,为此,模型采用了三步去重方法。

首先对每条资讯做哈希编码处理,并用SimHash将当天新闻资讯和前数天新闻资讯做相似度比对并做第一步去重处理;对于SimHash去重后的当日资讯,基于资讯标题使用MinHash局部敏感性分析的方法实现第二步去重处理;

最后基于资讯内容采用MinHash Ensemble局部敏感性分析的方法实现第三步去重。

(2)公司机构命名实体识别

将当日资讯的标题和内容通过词向量嵌入处理后输入Transformer Blocks进行编码和解码处理;

之后使用序列化标注算法中的条件随机场CRF解码算法识别出资讯中包含的所有公司机构;

最后过滤和选取出现频率高的公司机构作为这条资讯对应的标的公司。

(3)资讯数据标签推理

将资讯标题提升权重并与其正文文本结合作为分类推理的输入项。使用预训练完成的正负情感性偏向模型和风险事件标签模型,对每一条输入资讯分别推理其正负情感方向和风险事件标签分类,得到分析推理结果。

4.前端用户触达:风险资讯订阅与接收

对于新闻公告类舆情数据,通过资讯汇集、舆情模型分析结合人工识别,对关注主体的关联舆情进行分类监测和预警;

落地智能资讯平台实现风险资讯对项目负责人、相关部门和公司管理层的多级个性化推送。


同时,每个用户可以订阅组合内的预警规则,预警规则订阅成功后,用户可在移动端接收相应的预警消息。

图1 风险资讯监测的整体流程

落 地 成 果

德邦证券针对自身场景需求,经过同业调研,结合对大数据生态、数据建模、机器学习等理论探索,建设落地了资讯风险监测体系,较好的支持了业务应用。

1.全天候分类监测和预警助力业务提效

在系统实践中,将自然语言处理和前沿机器学习算法结合,构建深度学习舆情模型,对舆情资讯的风险属性,实现了90%以上的自动化识别率,在精准度和及时性两方面均远超传统的人工分析方法,真正将数据、算法和算力落地转化为企业经济效益。

将权益投资部门对于投资标的分析经验,落地为转化为模型中的定量指标,并与数据源对接,通过分布式计算引擎自动计算为定量数值;实现全市场横向分行业,纵向跨财务报告期的深度挖掘,直观地在上层业务系统中展示,替代原来对个别标的的手工计算。

业务人员在移动端接收到经过分析和分类的风险资讯,再根据业务实际开展时与融资人签署合同中约定的预警、违约各类场景判断风险事件的严重程度,制定后续的应对方案。

2.虽有局限,瑕不掩瑜

资讯数据应用现阶段仍存局限,但应用价值巨大。

首先,如上文介绍的,多个媒体源以不同方式描述同一类新闻,经过“语义分析算法”自动对海量新闻做情感分析和去重后,即使再经过大团队人工审核,也达不到完全准确;尽管如此,还是在很大程度上缓解了信息不对称的风险。

再者,从资讯内容来看,非官方来源发布的信息,其本身是否真实准确,不能一概而论。然而很多时候,即便是待核实的资讯,经过广泛传播后,也会影响市场情绪,继而引发资产价格波动,所以仍然具有重要的参考价值。

下一步工作展望

资讯风险监测体系在实践中取得了较好的效果,从长远看,在场景发掘、丰富数据源、舆情模型提升,以及数据治理结合几个方面仍有广阔的优化提升空间。

1.发掘更多资讯风险监测场景

利用各业务部门、风险管理部门和研究所人员的专业经验,结合不同业务的风险指标特点,构建和训练适合的指标分析模型,发掘和支持更丰富的风险监测场景。

2.拓展丰富资讯源

支持更多的资讯风险监测场景,必然需要更丰富的资讯数据源,在目前企业工商数据、新闻公告数据、财务数据等基础上,扩充更多网络媒体、社交媒体数据源,进一步提升市场风险资讯的及时和全面性。

3.与数据治理体系结合

券商的资讯数据通常来自多家资讯供应商,各家数据源的数据形态、专业优势和侧重不同,此外还有一部分更贴近需求的个性化自定义检索的资讯数据,往往有不同的数据标准和数据模型。通过数据治理可以根据各资讯数据源的优势,建立统一的数据标准和数据模型汇聚归入数据仓库,通过有效数据质控提升数据的质量,为需求部门提供更为优质的资讯数据服务。

4.提升舆情分析模型的精度和效率

在舆情分析模型方面,追踪机器学习和深度学习理论的最新进展,引入新的舆情分析算法和策略,研究应用分布式模型训练集群,继续提升新闻语义识别和分类的精度、召回率、F1稳定性指标,并提升模型优化、调参训练、生产发布的闭环流程效率。