专利 基于行业拥挤度的金融时间序列预测方法、装置及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211148795.1 (22)申请日 2022.09.20 (71)申请人中国建设银行股份有限公司地址 100033 北京市西城区金融大街25号 (72)发明人刘本农　闫拴　杨洲清　莫湘群　 (74)专利代理机构北京三友知识产权代理有限公司 11127 专利代理师贾磊　李辉 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 40/04(2012.01) G06F 16/36(2019.01) G06K 9/62(2022.01) G06F 17/18(2006.01) (54)发明名称基于行业拥挤度的金融时间序列预测方法、装置及设备 (57)摘要本文涉及人工智能技术领域，提供了一种基于行业拥挤度的金融时间序列预测方法、装置及设备，该方法包括：获取实体集合内每个实体的指定属性信息；根据指定属性信息构建每个实体的知识图谱；基于知识图谱对实体集合进行行业分类，获得多个行业类；确定每个行业类的第一金融变量在第一历史时段内的第一统计学指标；根据第一统计学指标确定对应行业类的行业拥挤度标签；确定每个实体的第二金融变量在第二历史时段内的第二统计学指标；当任意一个行业类的行业拥挤度标签为高拥挤度时，根据行业拥挤度标签及第二统计学指标，对应预测该行业类下每个实体的第二金融变量在指定未来时段内的变化趋势。本文实施例可以提高金融时间序列预测的准确性。权利要求书4页说明书14页附图6页 CN 115481803 A 2022.12.16 CN 115481803 A 1.一种基于行业拥挤度的金融时间序列预测方法，其特征在于，包括：获取实体集合内每个实体的指定属性信息；根据所述指定属性信息构建每个实体的知识图谱；基于所述知识图谱对所述实体集合进行行业分类，获得多个行业类；确定每个所述行业类的第一金融变量在第一历史时段内的第一统计学指标；根据所述第一统计学指标确定对应行业类的行业拥挤度标签；确定所述实体集合内每个实体的第二金融变量在第二历史时段内的第二统计学指标；当任意一个所述行业类的行业拥挤度标签为高拥挤度时，根据所述行业拥挤度标签及所述第二统计学指标，对应预测该行业类下每个实体的第二金融变量在指定未来时段内的变化趋势。 2.如权利要求1所述的基于行业拥挤度的金融时间序列预测方法，其特征在于，基于所述知识图谱对所述实体集合进行行业分类，包括：从所述实体集合内选择多个基准实体，形成基准实体集合；对于每个基准实体，基于所述知识图谱计算该基准实体与所述实体集合内的每个非基准实体之间的距离；对于每个基准实体，根据该基准实体与所述实体集合内的每个非基准实体之间的距离，确定所述实体集合内与该基准实体属于同一行业类的实体。 3.如权利要求2所述的基于行业拥挤度的金融时间序列预测方法，其特征在于，基于所述知识图谱计算该基准实体与所述实体集合内的每个非基准实体之间的距离，包括：从该基准实体的知识图谱中读取其上、下游实体的行业描述文本；并从每个非基准实体的知识图谱中分别读取其上、下游实体的行业描述文本；分别生成每个非基准实体的每个上游实体的行业描述文本的第一共现矩阵，该基准实体的每个上游实体的行业描述文本的第二共现矩阵，每个非基准实体的每个下游实体的行业描述文本的第三共现矩阵，以及该基准实体的每个下游实体的行业描述文本的第四共现矩阵；对于每个非基准实体，计算其对应的每个第一共现矩阵与每个所述第二共现矩阵的第一距离，形成该非基准实体对应的第一距离集合；并计算其对应的每个第三共现矩阵与每个所述第四共现矩阵的第二距离，形成该非基准实体对应的第二距离集合。 4.如权利要求3所述的基于行业拥挤度的金融时间序列预测方法，根据该基准实体与所述实体集合内的每个非基准实体之间的距离，确定所述实体集合内与该基准实体属于同一行业类的实体，包括：对于每个非基准实体，确定其对应的第一距离集合中小于第一距离阈值的所有第一距离，形成第一距离子集合；并确定其对应的第二距离集合中小于第二距离阈值的所有第二距离，形成第二距离子集合；对于每个非基准实体，确认及是否成；如果成立，则确认该非基准实体与该基准实体属于同一行业类；其中， U为第一评价值， Ri为第一距离子集合中第i个第一距离对应的业务占比数据对中权　利　要　求　书 1/4 页 2 CN 115481803 A 2的较小者， M 为第一距离子集合的元素个数， λ1为第一评价值阈值， D为第二评价值， rj为第二距离子集合中第 j个第二距离对应的业务占比数据对中的较小者， N为第二距离子集合的元素个数， λ2为第二评价值阈值。 5.如权利要求3所述的基于行业拥挤度的金融时间序列预测方法，其特征在于，每个所述第一距离及每个所述第二距离根据如下距离模型计算得到：其中， Wi为第i个共现矩阵， Wj为第j个共现矩阵， Xij为特定单词i和上下文单词j在特定上下文窗口内出现的次数， logXij表示Wi与Wj的距离，为Wi对应的词向量的转置， vj为Wj对应的词向量，为以自然常数为底且和vj的乘积为指数的指数函数， k为单词维度， V为给定行业描述文本， vk为在取单词维度为k时对应的词向量，为以自然常数为底且和vk的乘积为指数的指数函数。 6.如权利要求3所述的基于行业拥挤度的金融时间序列预测方法，其特征在于，所述第一共现矩阵、所述第二共现矩阵、所述第三共现矩阵和所述第四共现矩阵，通过以下方式确定：对于给定行业描述文本，分别获取上下文窗口集合中每个上下文窗口下的共现矩阵；根据损失函数计算每个上下文窗口下的共现矩阵的损失值；将最小损失值对应的共现矩阵作为所述给定行业描述文本的共现矩阵；其中， J为损失值， V为给定行业描述文本， Xij＜Xmax为损失函数的系数函数， Xij为特定单词i和上下文单词j在特定上下文窗口内出现的次数， Xmax为特定单词i 和上下文单词j在特定上下文窗口内出现的最大次数， a为常数且0≤a≤1， Wi为第i个共现矩阵， Wj为第j个共现矩阵，为Wi的转置， bi和bj分别为Wi和Wj的计算加权最小二乘回归模型的算子。 7.如权利要求1所述的基于行业拥挤度的金融时间序列预测方法，其特征在于，确定每个所述行业类的第一金融变量在第一历史时段内的第一统计学指标，包括：确定每个所述行业类的第一金融变量在第一历史时段内的方差。 8.如权利要求7所述的基于行业拥挤度的金融时间序列预测方法，其特征在于，根据所述第一统计学指标确定对应行业类的行业拥挤度标签，包括：判断σm是否满足如果σm满足则将σm对应的行业类识别为高拥挤度；如果σm不满足则将σm对应的行业类识别为低拥挤度；权　利　要　求　书 2/4 页 3 CN 115481803 A 3

专利 基于行业拥挤度的金融时间序列预测方法、装置及设备

专利基于行业拥挤度的金融时间序列预测方法、装置及设备