(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211148795.1
(22)申请日 2022.09.20
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
(72)发明人 刘本农 闫拴 杨洲清 莫湘群
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 贾磊 李辉
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 40/04(2012.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06F 17/18(2006.01)
(54)发明名称
基于行业拥挤度的金融时间序列预测方法、
装置及设备
(57)摘要
本文涉及人工智能技术领域, 提供了一种基
于行业拥挤度的金融时间序列预测方法、 装置及
设备, 该方法包括: 获取实体集合内每个实体的
指定属性信息; 根据指定属性信息构建每个实体
的知识图谱; 基于知识图谱对实体集合进行行业
分类, 获得多个行业类; 确定每个行业类的第一
金融变量在第一历史时段内的第一统计学指标;
根据第一统计学指标确定对应行业类的行业拥
挤度标签; 确定每个实体的第二金融变量在第二
历史时段内的第二统计学指标; 当任意一个行业
类的行业拥挤度标签为高拥挤度时, 根据行业拥
挤度标签及第二统计学指标, 对应预测该行业类
下每个实体的第二金融变量在指定未来时段内
的变化趋势。 本文实施例可以提高金融时间序列
预测的准确性。
权利要求书4页 说明书14页 附图6页
CN 115481803 A
2022.12.16
CN 115481803 A
1.一种基于行业拥挤度的金融时间序列预测方法, 其特 征在于, 包括:
获取实体集 合内每个实体的指定属性信息;
根据所述指定属性信息构建每 个实体的知识图谱;
基于所述知识图谱 对所述实体集 合进行行业分类, 获得多个行业类;
确定每个所述行业类的第一金融变量在第一历史时段内的第一统计学指标;
根据所述第一统计学指标确定对应行业类的行业拥挤度标签;
确定所述实体集 合内每个实体的第二金融变量在第二历史时段内的第二统计学指标;
当任意一个所述行业类的行业拥挤度标签为高拥挤度时, 根据 所述行业拥挤度标签及
所述第二统计学指标, 对应预测该行业类下每个实体的第二金融变量在指 定未来时段内的
变化趋势。
2.如权利要求1所述的基于行业拥挤度的金融时间序列 预测方法, 其特征在于, 基于所
述知识图谱 对所述实体集 合进行行业分类, 包括:
从所述实体集 合内选择多个 基准实体, 形成基准实体集 合;
对于每个基准实体, 基于所述知识图谱计算该基准实体与所述实体集合内的每个非基
准实体之间的距离;
对于每个基准实体, 根据该基准实体与所述实体集合内的每个非基准实体之间的距
离, 确定所述实体集 合内与该基准实体属于同一行业类的实体。
3.如权利要求2所述的基于行业拥挤度的金融时间序列 预测方法, 其特征在于, 基于所
述知识图谱计算该基准实体与所述实体集 合内的每 个非基准实体之间的距离, 包括:
从该基准实体的知识图谱中读取其上、 下游实体的行业描述文本; 并从每个非基准实
体的知识图谱中分别读取其上、 下游实体的行业描述文本;
分别生成每个非基准实体的每个上游实体的行业描述文本的第 一共现矩阵, 该基准实
体的每个上游实体的行业描述文本的第二共现矩阵, 每个非基准 实体的每个下游实体的行
业描述文本的第三共现矩阵, 以及该基准实体的每个下游实体的行业描述文本的第四共现
矩阵;
对于每个非基准实体, 计算其对应的每个第 一共现矩阵与每个所述第 二共现矩阵的第
一距离, 形成该非基准实体对应的第一距离集合; 并计算其对应的每个第三共现矩阵与每
个所述第四共现矩阵的第二距离, 形成该非基准实体对应的第二距离集 合。
4.如权利要求3所述的基于行业拥挤度的金融时间序列预测方法, 根据该基准实体与
所述实体集合内的每个非基准实体之 间的距离, 确定所述实体集合内与该基准实体属于同
一行业类的实体, 包括:
对于每个非基准实体, 确定其对应的第 一距离集合中小于第 一距离阈值的所有第 一距
离, 形成第一距离子集合; 并确定其对应的第二距离集合中小于第二距离阈值的所有第二
距离, 形成第二距离 子集合;
对于每个非基准实体, 确认
及
是否成;
如果成立, 则确认该非基准实体与该基准实体属于同一行业类;
其中, U为第一评价值, Ri为第一距离子集合中第i个第一距离对应的业务占比数据对中权 利 要 求 书 1/4 页
2
CN 115481803 A
2的较小者, M 为第一距离子 集合的元素个数, λ1为第一评 价值阈值, D为第二评 价值, rj为第二
距离子集合中第 j个第二距离对应的业务占比数据对中的较小者, N为第二距离子集合的元
素个数, λ2为第二评价 值阈值。
5.如权利要求3所述的基于行业拥挤度的金融时间序列 预测方法, 其特征在于, 每个所
述第一距离及每 个所述第二距离根据如下距离模型计算得到:
其中, Wi为第i个共现矩阵, Wj为第j个共现矩阵, Xij为特定单词i和上下文单词j在特定
上下文窗 口内出现的次数, logXij表示Wi与Wj的距离,
为Wi对应的词向量的转置, vj为Wj对
应的词向量,
为以自然常数为底且
和vj的乘积为指数的指数函数, k为单词维
度, V为给定行业描述文本, vk为在取单词维度为k时对应的词向量,
为以自然常数
为底且
和vk的乘积为指数的指数函数。
6.如权利要求3所述的基于行业拥挤度的金融时间序列 预测方法, 其特征在于, 所述第
一共现矩阵、 所述第二共现矩阵、 所述第三共现矩阵和所述第四共现矩阵, 通过以下方式确
定:
对于给定行业描述文本, 分别获取 上下文窗口集 合中每个上下文窗口下的共现矩阵;
根据损失函数
计算每个上下文窗口下的共现矩
阵的损失值;
将最小损失值对应的共现矩阵作为所述给定行业描述文本的共现矩阵;
其中, J为损失值, V为给定行业描述文本,
Xij<Xmax为损失函数的系
数函数, Xij为特定单词i和上下文单词j在特定上下文窗口内出现的次数, Xmax为特定单词i
和上下文单词j在特定上下文窗口内出现的最大次数, a为常数且0≤a≤1, Wi为第i个共现
矩阵, Wj为第j个共现矩阵,
为Wi的转置, bi和bj分别为Wi和Wj的计算加权最小二乘回归模
型的算子 。
7.如权利要求1所述的基于行业拥挤度的金融时间序列 预测方法, 其特征在于, 确定每
个所述行业类的第一金融变量在第一历史时段内的第一统计学指标, 包括:
确定每个所述行业类的第一金融变量在第一历史时段内的方差 。
8.如权利要求7所述的基于行业拥挤度的金融时间序列 预测方法, 其特征在于, 根据 所
述第一统计学指标确定对应行业类的行业拥挤度标签, 包括:
判断σm是否满足
如果σm满足
则将σm对应的行业类识别为高拥挤度;
如果σm不满足
则将σm对应的行业类识别为低拥挤度;权 利 要 求 书 2/4 页
3
CN 115481803 A
3
专利 基于行业拥挤度的金融时间序列预测方法、装置及设备
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:43:05上传分享