研报&论文

金融科技(Fintech)和数据挖掘研究(二):知识图谱的构建与应用-海通证券-20190423

由qxiao创建,最终由qxiao 被浏览 140 用户

摘要

知识图谱的介绍。知识图谱的概念最早于2012年由谷歌提出,是一种直观显示各个实体关联信息的有效数据结构,旨在描述真实世界中存在的各种实体或概念及其关系。它脱胎于“语义网络”,随着网络和计算机技术的发展而逐渐演变。目前,知识图谱一词已经成为知识应用领域的一个通用词汇,不仅仅局限于谷歌搜索引擎的知识库及服务功能,而成为了人工智能领域炙手可热的概念。

知识图谱的构建与应用技术

构建知识图谱的本质是一个从数据采集,数据建模到数据存储的过程。

  1. 通过结构化数据库、爬虫等方式获取知识图谱原始数据;
  2. 对数据进行预处理。其中,文本数据往往需要借助自然语言处理技术;
  3. 提取数据中的实体和关系。其中,不同来源的知识需要进行知识融合;
  4. 构建三元组;
  5. 存储三元组信息。可以采用关系数据库和Neo4j等图数据库;
  6. 使用知识图谱。


知识图谱在金融投资领域的应用

通过知识图谱,我们可以进行产业链的挖掘,建立更为全面深入的事件驱动投资策略,构建知识图谱类因子,改善现有分析框架等。

产业链挖掘

通过对比产业链的产品和服务网络中的“实体”与上市公司主营业务产品网络中的“实体”,并将相同的“实体”进行链接,即可确认不同公司在产业链中的具体位臵。此外,知识图谱也可以根据不同的关系得到不同的网络信息,例如,股权网络挖掘、供应链挖掘、热点主题挖掘等。

事件驱动策略

以业绩预警事件在应收账款网络中的传播为例,除了直接发生业绩预警事件的上市公司外,这些公司的主要应收账款债权人也受到相同方向的冲击,但影响幅度会有所减弱且具有一定的滞后性。类似地,其他事件也可能存在这种传递效应,例如,大股东重大负面信息(例如,偷税漏税)在股权网络中的传播、主营业务产品产量大幅减少在供应链网络中的传播等。

知识图谱类因子

可以采用供应链、股权等数据构建图网络相关因子,包括:下游企业的业绩、上游企业的基本面、关联公司的数量和分散度、企业在图网络中的重要性、中心性等因子。由于这类因子包含关联结构,能够提供额外的信息,因而与传统因子的相关性通常较低。

对现有分析框架的改进

以行业基本面量化为例,知识图谱标准化了不同品种/行业的分析和研究框架,由此带来的改进主要体现在以下三点。

  1. 可以对知识图谱中的任一节点进行预测和分析。例如,要研究铝的库存情况,只需选取与库存有关联关系的所有节点作为初始变量集;
  2. 将知识图谱中的结构信息带入量化模型中。例如,采用主成分分析降维,可以对每个包含关系下的分项变化汇总为一个主成分等。
  3. 可以在传统量化模型的基础上叠加行业观点。

正文

/wiki/static/upload/53/53dbd5b5-5284-4947-a964-988fab2bf828.pdf

\

标签

数据挖掘
{link}