说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210511014.4 (22)申请日 2022.05.11 (71)申请人 四川封面传媒科技有限责任公司 地址 610020 四川省成 都市锦江区红星路 二段70号1幢传媒大厦8楼 (72)发明人 陈功彬 徐桢虎 高登科 李少博 陈涵宇 (74)专利代理 机构 成都虹桥专利事务所(普通 合伙) 51124 专利代理师 吴中伟 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01) G06F 40/211(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 基于知识图谱的新闻领域多场景文本纠错 方法 (57)摘要 本发明涉及文本纠错领域, 具体涉及一种基 于知识图谱的新闻领域多场景文本纠错方法, 技 术方案包括: 对各大新闻网站进行数据爬取、 分 类以及过滤; 然后进行信息抽取, 获取实体关系 属性、 事件数据、 实体词以及领域词; 根据实体词 与领域词得到正样本, 对正样 本进行处理得到负 样本, 正样本与负样本构成正负样本数据集; 根 据实体关系属性与事件数据构建新闻领域图谱 知识库; 根据新闻领域的不同应用场景搭建不同 的文本纠错模 型以及图谱知识库搜索引擎; 对于 待纠错的文本, 进行分词处理、 实体抽取及语义 分析, 获取上下位词语及实体关系, 然后利用搜 索引擎在图谱知识库进行图谱检索; 根据文本纠 错模型的类型进行不同的处理。 本发 明适用于新 闻领域文本纠错。 权利要求书2页 说明书7页 附图3页 CN 114817570 A 2022.07.29 CN 114817570 A 1.基于知识图谱的新闻领域多场景文本纠错方法, 其特 征在于, 包括: 步骤1、 对各 大新闻网站进行 数据爬取, 对爬取后的新闻数据进行分类以及过 滤; 步骤2、 对过滤后的新闻数据进行信息抽取, 获取实体关系属性、 事件数据、 实体词以及 领域词; 步骤3、 根据实体词与领域词得到正样本, 对正样本进行处理得到负样本, 正样本与负 样本构成正负 样本数据集; 步骤4、 根据实体关系属性与事 件数据构建新闻领域图谱知识库; 步骤5、 根据新闻领域的不同应用场景搭建不同的文本纠 错模型以及图谱知识库搜索 引擎; 步骤6、 对于待纠错的文本, 进行分词处理、 实体抽取及语义分析, 获取上下位词语及实 体关系, 然后利用搜索引擎在图谱知识库进行图谱检索; 步骤7、 对文本纠错模型的类型进行判断, 若是基于规则的模型, 则进入步骤8; 若是基 于语言模型或预训练模型, 则进入步骤9; 步骤8、 召回待纠错词的相似词集和事件集, 并计算与上下文的相似关系来选取相似得 分最高的k个相似词或事 件作为正确建议, 结束流 程, k为大于0的整数; 步骤9、 利用正负样本数据集来训练和微调文本纠错模型, 然后由文本纠错模型自动检 测和纠错, 同时结合 规则纠错, 并给 出最后的正确建议, 结束流 程。 2.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 步骤1中, 对各 大新闻网站进行 数据爬取的具体方法包括: 梳理全网各大新闻网站, 选取某段时间内各大新闻网站 的数据进行分析, 通过对各个 属性维度人工抽样评估打分后进行计算平均得分, 得到不同数据源各自的权重得分; 对梳 理出来的新闻源, 根据权重得分分配抓取资源, 所述属 性包括新闻质量、 数量、 多样性以及 时效属性。 3.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 步骤1中, 对爬取后的新闻数据进行分类, 并对分类后的数据进行 过滤的具体方法包括: 对爬取后的新闻数据, 进行划分归类, 过滤掉无法归类和信 息残缺的新闻数据; 再对分 好类别的新闻数据进行敏感以及不良过滤, 最后对新闻数据进行脏数据的清洗、 相似新闻 去重, 并全量字段 结构化处 理后存入数据库。 4.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 步骤2中, 所述信息抽取包括实体抽取、 领域词抽取以及领域事 件抽取。 5.根据权利要求4所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 所述实体抽取 的具体方法包括: 使用领域词典和深度学习 结合的方式进行实体识别抽取, 基于中文 预训练模型与条件随机场算法进 行句子级别的实体关系联合抽取, 获得实体与属 性, 实体与关系的三元组, 并计算抽取出来 实体在新闻语料中的得分, 将实体得分进 行归一 化, 选取得分之和大于设置值的实体词作为 新闻文本的实体词并保存整理存 入数据库。 6.根据权利要求5所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 所述事件抽取的具体方法包括选取领域事件三元组, 选取领域事件三元组的具体方法包 括: 对分类过滤后的新闻文本进行分句处理, 将新闻标题、 正文句子转换为语义向量, 再以权 利 要 求 书 1/2 页 2 CN 114817570 A 2标题内容作为中心向量, 并对正文句子进行建模打 分, 得到每 个句子重要程度分数; 对句子中抽取的事件三元组、 实体得分 以及每个句子重要程度分数进行加权排序, 选 取得分最高的三元组作为领域事 件三元组。 7.根据权利要求4所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 所述领域词抽取 的具体方法包括: 通过领域词典进行领域词的抽取, 对获取 的领域词与实 体词进行去重处 理, 保存去重后的领域词。 8.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 步骤3中, 得到正样本的具体方法包括: 将包 含实体词和领域词的句子作为 正样本。 9.根据权利要求8所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在于, 得到负样本的具体方法包括: 将正样本中的实体词和领域词替换成对应的相似词得到的句 子作为负样本; 或将正样本句 子转换成语音, 然后随机加入 噪音, 再转换成文本, 转换成的 文本即为负 样本。 10.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法, 其特征在 于, 步骤4中, 根据实体关系属性与事 件数据构建新闻领域图谱知识库的具体方法包括: 爬取各百科网站包含领域实体和领域事件的结构化数据, 筛选、 过滤后作为实体与事 件数据的补充; 然后对获取的实体词和领域词的相似词数据以及补充的实体与事件数据进行指代消 解以及实体消歧操作; 再以实体词和事件为主体, 实体间的关系、 实体的各个属性、 实体和事件的关系以及事 件和事件的关系作为 实体词和事件的属性字段构建实体和事件的知识库; 或以领域词汇和 领域事件为本体建立知识图谱, 包含实体词和领域词的句 子集作为词汇的延伸属 性, 同时 建立词与事 件间的关系。权 利 要 求 书 2/2 页 3 CN 114817570 A 3
专利 基于知识图谱的新闻领域多场景文本纠错方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 10:58:54
上传分享
举报
下载
原文档
(698.6 KB)
分享
友情链接
GB-T 42708-2023 金融网络安全威胁信息共享指南.pdf
GB-T 36630.1-2018 信息安全技术 信息技术产品安全可控评价指标 第1部分:总则.pdf
GB-T 38530-2020 城镇液化天然气 LNG 气化供气装置.pdf
信通院 数字化时代零信任安全蓝皮报告-2021年.pdf
TC260-003 生成式人工智能服务安全基本要求.pdf
HJ 25.2-2019 建设用地土壤污染风险管控和修复监测技术导则.pdf
GB-T 37400.1-2019 重型机械通用技术条件 第1部分:产品检验.pdf
GB-T 37025-2018 信息安全技术 物联网数据传输安全技术要求.pdf
信通院 勒索病毒安全防护手册.pdf
GB-T 7702.7-2023 煤质颗粒活性炭试验方法 第7部分:碘吸附值的测定.pdf
GB-T 30269.601-2016 信息技术 传感器网络 第601部分:信息安全:通用技术规范.pdf
中国信通院郭雪 交互式应用程序安全测试工具能力要求 标准解读 2021.pdf
GB-T 25064-2010 信息安全技术 公钥基础设施 电子签名格式规范.pdf
DB62-T 4277-2020 公务用车信息化管理平台运行管理规范 甘肃省.pdf
T-CESA 1120—2020 人工智能芯片 面向边缘侧的深度学习芯片测试指标与测试方法.pdf
GA-T 460.1-2020 居民身份证卡体材料及打印薄膜技术规范 第1部分:制卡用垫平层白色PETG薄膜.pdf
DB14-T 2624—2022 五角枫播种育苗技术规程 山西省.pdf
GB-Z 31103-2014 系统工程 GB-T 22032 系统生存周期过程 应用指南.pdf
GB-T 36896.3-2018 轻型有缆遥控水下机器人 第3部分:导管螺旋桨推进器.pdf
GB-T 25647-2010 电子政务术语.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(698.6 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。