说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210457333.1 (22)申请日 2022.04.27 (71)申请人 河南天眼查科技有限公司 地址 450000 河南省郑州市郑东 新区龙子 湖明理路与尚德街交汇处河南 企业联 合大厦-豫发中心 22层 (72)发明人 温嘉瑶 (74)专利代理 机构 北京工信联合知识产权代理 有限公司 1 1266 专利代理师 傅婷 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) (54)发明名称 嵌入向量的生 成方法、 基于企业对的同名人 员分类方法及装置 (57)摘要 本发明公开了一种嵌入向量的生 成方法、 基 于企业对的同名人员分类方法及装置, 该方法包 括: 以企业关联关系数据库中每个企业为节点、 以每个企业之间的所有关联关系信息的权重之 和为边, 生成企业关联关系同构图; 对企业关联 关系同构图进行采样, 得到每个企业的采样序 列; 采用预设的自然语言处理模 型对每个企业的 采样序列进行训练处理, 得到每个企业的嵌入向 量。 本发明实施例提供的方法及装置, 通过采用 同构图构建企业关联关系图, 结构简单; 同时避 免了部分关联关系无法转化为标签构建关系图 的问题, 可以实现所有关联关系均包含在关系图 中; 并且新增企业以及企业关系可以直接通过增 加节点以及边权重的方法实现, 易于引入新的企 业以及企业间关系。 权利要求书2页 说明书11页 附图3页 CN 114896412 A 2022.08.12 CN 114896412 A 1.一种嵌入向量的生成方法, 其特 征在于, 所述方法包括: 以企业关联关系数据库中每个企业为节点、 以每个企业之间的所有关联关系信 息的权 重之和为 边, 生成企业关联关系同构图; 对所述企业关联关系同构图进行采样, 得到每 个企业的采样序列; 采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处理, 得到每个企 业的嵌入向量。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述企业关联关系同构图进行采 样, 得到每 个企业的采样序列, 包括: 以所述企业关联关系同构图中每个节点为起点, 沿着边进行随机游走, 直至途径k个节 点, 得到每 个企业的游走序列, 其中k 为正整数。 3.根据权利要求2所述的方法, 其特征在于, 当一个节点具有多个边时, 所述沿着边进 行随机游走, 包括: 根据同一个节点的每条边在所有边中所占的权重, 确定沿着每条边进行随机游走的概 率。 4.根据权利要求1所述的方法, 其特征在于, 所述采用预设的自然语言处理模型对所述 每个企业的采样序列进行训练 处理, 得到每 个企业的嵌入向量, 包括: 采用预设的word2vec自然语言处理模型对所述每个企业的采样序列进行训练处理, 得 到每个企业的嵌入向量。 5.一种基于企业对的同名人员分类方法, 其特 征在于, 所述方法包括: 在待分类企业对中的两家企业均在当前的企业关联关系同构图中的情况 下, 从预先采用如权利要求1 ‑4任一所述方法得到的嵌入向量中, 提取待分类企业对中两 家企业的嵌入向量; 将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测, 得到预测结果; 其 中, 所述企业对由同名人员名下的两个企业组成。 6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括: 在待分类企业对中的两家企业存在至少一家企业不在所述当前的企业关联关系同构 图中的情况 下, 将未在所述当前的企业关联关系同构图中的企业添加至所述当前的企业关联关系同 构图中, 生成最 新的企业关联关系同构图; 采用与待分类企业对中的两家企业均在当前的企业关联关系同构图中类似的企业对 分类方法进行企业对分类。 7.根据权利要求6所述的方法, 其特征在于, 所述将未在所述当前的企业关联关系同构 图中的企业添加至所述当前的企业关联关系同构图中, 包括: 寻找与未在所述当前的企业关联关系同构图中的企业具有关联关系的企业, 将所述未 在所述当前 的企业关联关系同构图中的企业作为新的节点以及其与具有关联关系的企业 之间的所有关联关系的权 重之和作为 新的边添加至所述当前的企业关联关系同构图中。 8.根据权利要求5 ‑7任一所述的方法, 其特征在于, 所述预测结果包括将 企业对划分为 正标签或负标签, 其中, 正负标签 基于所述企业对是否属于同一个自然人划分得到 。 9.根据权利要求8所述的方法, 其特征在于, 所述二分类模型预先采用如下方法构建得权 利 要 求 书 1/2 页 2 CN 114896412 A 2到: 获取带正负标签的企业对; 从所述嵌入向量中, 提取带正负标签的企业对中每个企业的嵌入向量, 形成企业对的 嵌入向量对; 将所述企业对的嵌入向量对输入到初始的二分类模型进行标签类别预测, 得到企业对 的预测标签; 根据企业对的所带正负标签和所述预测标签计算评价指标值, 并通过所述评价指标值 确定初始的所述 二分类模型的阈值, 得到最终的二分类模型。 10.根据权利要求9所述的方法, 其特征在于, 所述通过所述评价指标值确定初始的所 述二分类模型的阈值, 包括: 从初始的所述二分类模型的阈值范围中, 选取所述评价指标值最高时所对应的阈值; 其中, 初始的所述二分类模型的阈值范围通过计算所有带正或负标签的企业对的嵌入向量 对中两个嵌入向量的余弦相似度得到 。 11.根据权利要求5所述的方法, 其特征在于, 所述将所述两家企业的嵌入向量输入预 先构建的二分类模型进行 预测, 得到预测结果之前, 还 包括: 将待分类企业对中两家企业的嵌入向量输入同一个全连接网络, 得到转换后的两家企 业的嵌入向量。 12.一种嵌入向量的生成装置, 其特 征在于, 所述装置包括: 同构图生成单元, 用于以企业关联关系数据库中每个企业为节点、 以每个企业之间的 所有关联关系信息的权 重之和为 边, 生成企业关联关系同构图; 采样单元, 用于对所述企业关联关系同构图进行采样, 得到每 个企业的采样序列; 处理单元, 用于采用预设的自然语言处理模型对所述每个企业的采样序列进行训练处 理, 得到每 个企业的嵌入向量。 13.一种基于企业对的同名人员分类装置, 其特 征在于, 所述装置包括: 在待分类企业对中的两家企业均在当前的企业关联关系同构图中的情况 下, 嵌入向量提取单元, 用于从预先采用如权利要求1 ‑4任一所述方法得到的嵌入向量中, 提取待分类企业对中两家企业的嵌入向量; 分类单元, 用于将所述两家企业的嵌入向量输入预先构建的二分类模型进行预测, 得 到预测结果; 其中, 所述企业对由同名人员名下的两个企业组成。 14.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计 算机程序用于执 行权利要求1 ‑4任一项所述的方法或权利要求5 ‑11任一项所述的方法。 15.一种电子设备, 包括: 处理器; 用于存储所述处 理器可执行指令的存 储器; 所述处理器, 用于从所述存储器中读取所述可执行指令, 并执行所述指令以实现权利 要求1‑4中任一项所述的方法或权利要求5 ‑11任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114896412 A 3
专利 嵌入向量的生成方法、基于企业对的同名人员分类方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:59:37
上传分享
举报
下载
原文档
(563.5 KB)
分享
友情链接
T-CEC 664—2022 电力行业职业技能标准 电力网络安全员.pdf
T-ACEF 030—2022 城镇排水系统 厂、站、网一体化 运行监测与智能化管理技术规程.pdf
GB-T 37972-2019 信息安全技术 云计算服务运行监管框架.pdf
YD-T 2699-2014 电信网和互联网安全防护基线配置要求及检测要求-安全设备.pdf
GB-T 12985-1991 在产品设计中应用人体尺寸百分位数的通则.pdf
GB-T 19115.2-2018 风光互补发电系统 第2部分:试验方法.pdf
GB-T 26471-2023 塔式起重机 安装、拆卸与爬升规则.pdf
YD-T 3763.6-2021 研发运营一体化(DevOps)能力成熟度模型 第6部分:安全及风险管理.pdf
GM-T 0003.2-2012 SM2椭圆曲线公钥密码算法第2部分:数字签名算法.pdf
GB-T 32686-2016 光敏材料用多官能团丙烯酸酯单体中有机溶剂的测定 顶空进样毛细管气相色谱法.pdf
思度安全-DSMM-009 网络可用性管理规范V1.0.pdf
GM-T 0124-2022 安全隔离与信息交换产品密码检测规范.pdf
GB-T 32905-2016 信息安全技术 SM3密码杂凑算法.pdf
ISO IEC 27034-3-2018.pdf
GB-T 17874-2021 电子特气 三氯化硼.pdf
GB-T 42381.8-2023 数据质量 第8部分:信息和数据质量:概念和测量.pdf
T-CTA 002—2019 船舶水尺计重工作规范.pdf
DB52-T 1401.23-2020 山地旅游 第23部分:漂流服务规范 贵州省.pdf
GB-T 39701-2020 粉煤灰中铵离子含量的限量及检验方法.pdf
T-CIATCM 016—2019 针灸科电子病历基本数据集.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(563.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。