说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210628672.1 (22)申请日 2022.06.06 (71)申请人 四川封面传媒科技有限责任公司 地址 610020 四川省成 都市锦江区红星路 二段70号1幢传媒大厦8楼 (72)发明人 李少博 徐桢虎 高登科 (74)专利代理 机构 成都虹桥专利事务所(普通 合伙) 51124 专利代理师 陈春光 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06F 40/279(2020.01) G06N 3/04(2006.01) (54)发明名称 敏感信息知识图谱构建方法、 装置及敏感信 息确定方法 (57)摘要 本发明涉及信息处理技术领域, 公开了一种 敏感信息知识图谱构建方法、 装置及敏感信息确 定方法, 旨在解决现有的敏感信息识别精度较差 的问题, 方案主要包括: 根据敏感词数据及其同 近义词进行信息检索, 获得包含 敏感词或其同近 义词的敏感信息数据; 分别进行句子级别的依从 分析、 实体抽取和事件抽取, 分别得到敏感词上 下位词语元组、 实体和事件三元组, 并构建知识 库; 对知识库中的数据进行指代消解和实体消歧 处理后, 建立敏感事件和敏感词两个维度的本 体, 并将本体写入图数据库, 得到敏感信息知识 图谱。 基于敏感信息知 识图谱构建知识图谱检索 引擎, 并基于知识图谱检索引擎识别敏感信息。 本发明提高了敏感信息的识别精度。 权利要求书2页 说明书6页 附图3页 CN 115062158 A 2022.09.16 CN 115062158 A 1.敏感信息知识图谱构建方法, 其特 征在于, 包括以下步骤: 获取敏感词数据, 根据所述敏感词数据及其同近义词进行信息检索, 获得包含敏感词 或其同近义词的敏感信息数据; 根据所述敏感信息数据分别进行句子级别的依从分析、 实体抽取和事件抽取, 分别得 到敏感词上下位词语元组、 实体和事件三元组, 并根据所述敏感词上下位词语元组、 实体和 事件三元组构建知识库; 对所述知识库中的数据进行指代消解和实体消歧处理后, 根据 所述敏感词上下位词语 元组、 实体和事件三元组之间的上下位关系及语义关系, 建立敏感事件和敏感词两个维度 的本体, 并将所述本体写入图数据库, 得到敏感信息知识图谱。 2.如权利要求1所述的敏感信息知识图谱构建方法, 其特征在于, 所述获取敏感词数 据, 具体包括: 分别从至少两个数据源收集敏感词数据, 并分别根据敏感词数据的质量、 种类多样性 和实用性对数据源进行打分, 根据打分结果确定各数据源的权重, 将权重排名靠前 的至少 一个数据源 对应的敏感词数据保存至敏感词数据库; 建立定期调用检测机制, 定期从权重排名靠前的至少一个数据源收集敏感词数据, 并 将其保存至敏感词数据库; 从本地业务数据中收集敏感词数据, 并将其保存至敏感词数据库; 从敏感词数据库中获取 敏感词数据。 3.如权利要求2所述的敏感信息知识图谱构建方法, 其特 征在于, 还 包括: 确定发布敏感词数据的账户信息, 根据所述账户信息进行用户行为分析, 确定长期散 播敏感信息的重点账户, 定期收集所述重点账户对应的敏感词数据并将其保存至敏感词数 据库。 4.如权利要求3所述的敏感信息知识图谱构建方法, 其特 征在于, 还 包括: 对收集的敏感词数据进行预处理之后再保存至敏感词数据库, 所述对收集的敏感词数 据进行预处理, 至少包括: 对所述敏感词数据进行数据清洗, 并对数据清洗之后的敏感词数据进行人工审核, 所 述数据清洗 至少包括: 简繁体归一 化、 拼音归一 化以及去重 。 5.如权利要求1所述的敏感信息知识图谱构建方法, 其特 征在于, 还 包括: 根据所述敏感信息数据进行句子级别的实体抽取后, 统计各实体出现的次数, 并根据 出现的次数确定各实体的实体得分; 根据所述敏感信息数据进行句子级别的事件抽取时, 若句子中包含多个事件, 则根据 事件中各实体的实体得分进行加权求和, 得到各事件三元组的得分, 选取得分最高的事件 三元组作为该句子的敏感内容描述。 6.如权利要求1或5所述的敏感信息知识图谱构建方法, 其特征在于, 根据所述敏感信 息数据进行句子级别的实体抽取, 具体包括: 基于BERT+CRF模型对所述敏感信息数据中的句子进行实体抽取。 7.如权利要求1或5所述的敏感信息知识图谱构建方法, 其特征在于, 根据所述敏感信 息数据进行句子级别的事 件抽取, 具体包括: 基于动态多池卷积神经网络对所述敏感信息数据中的句子分别进行触发词识别和论权 利 要 求 书 1/2 页 2 CN 115062158 A 2元识别, 所述论元识别的网络结构中至少包括embedding层和attention层, 所述embedding 层的初始值 为微调后的BERT模型。 8.如权利要求1所述的敏感信 息知识图谱构建方法, 其特征在于, 根据 所述敏感词上下 位词语元组、 实体和事 件三元组构建知识库之前还 包括: 对所述敏感词上下位词语元组、 实体和事件三元组进行数据清洗并进行人工审核, 所 述数据清洗 至少包括: 简繁体归一 化、 拼音归一 化以及去重 。 9.敏感信息知识图谱构建装置, 其特 征在于, 包括: 获取单元, 用于获取敏感词数据, 根据 所述敏感词数据及其同近义词进行信息检索, 获 得包含敏感词或其同近义词的敏感信息数据; 分析单元, 用于根据所述敏感信息数据分别进行句子级别的依从分析、 实体抽取和事 件抽取, 分别得到敏感词上下位词语元组、 实体和事件三元 组, 并根据所述敏感词上下位词 语元组、 实体和事 件三元组构建知识库; 构建单元, 用于对所述知识库中的数据进行指代消解和实体消歧处理后, 根据所述敏 感词上下位词语元组、 实体和事件三元组之间的上下位关系及语义关系, 建立敏感事件和 敏感词两个维度的本体, 并将所述本体写入图数据库, 得到敏感信息知识图谱。 10.敏感信息确定方法, 其特 征在于, 包括以下步骤: 根据如权利要求1至8任一项所述的敏感信息知识图谱构建知识图谱检索引擎; 获取待审核文本, 若所述待审核文本中存在敏感词, 则根据预设距离获取敏感词及其 前后的文本得到待检测文本, 对所述待检测文本进行实体抽取及语义分析, 获取上下位词 语及实体关系; 将所述敏感词、 上下位词语及实体关系输入至知识图谱检索引擎中, 若在敏感信息知 识图谱中, 所述敏感词、 上下位词语及实体关系存在一定的关联, 则判定所述待审核文本存 在敏感信息 。权 利 要 求 书 2/2 页 3 CN 115062158 A 3
专利 敏感信息知识图谱构建方法、装置及敏感信息确定方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:59:53
上传分享
举报
下载
原文档
(584.4 KB)
分享
友情链接
GB-T 36625.1-2018 智慧城市 数据融合.pdf
DB15-T 835-2015 磷石膏改良碱化土壤技术规程 内蒙古自治区.pdf
GB-T 3462-2017 钼条和钼板坯.pdf
360 DNS 安全白皮书.pdf
GB-T 34618-2017 蒸汽疏水系统在线阀门内漏温度检测方法.pdf
GB-T 35561-2017 突发事件分类与编码.pdf
GB-T 32924-2016 信息安全技术 网络安全预警指南.pdf
GB-T 32905-2016 信息安全技术 SM3密码杂凑算法.pdf
GB-T 16603-2017 锦纶牵伸丝.pdf
DB32-T 3840-2020 水利风景区评价规范 江苏省.pdf
GB-T 36630.3-2018 信息安全技术 信息技术产品安全可控评价指标 第3部分:操作系统.pdf
GM-T 0020-2012 证书应用综合服务接口规范.pdf
GB-T 32823-2016 电网节能项目节约电力电量测量和验证技术导则.pdf
T-CI 126—2023 高寒草地碳储量及碳汇核算技术导则.pdf
专利 一种高速隔离网闸数据摆渡的实现系统及方法.PDF
GB-T 23703.7-2014 知识管理 第7部分:知识分类通用要求.pdf
GB-T 18916.61-2022 取水定额 第61部分:赖氨酸盐.pdf
GB-T 30146-2023 安全与韧性业务连续性管理体系要求 ISO 22301-2019.pdf
YDT 4403-2023 开源项目选型参考框架.pdf
汇丰科技周纪海 大型银行DevSecOps体系建设和落地实践 2021 .pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(584.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。