说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210512228.3 (22)申请日 2022.05.12 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 李崭 李平  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 刘世权 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本信息处 理方法、 装置、 设备及存 储介质 (57)摘要 本发明公开了一种文本信息处理方法、 装 置、 设备及存储介质, 该方法包括获取目标文本 信息的实体探测序列和实体标签序列, 构建实体 标签混合序列; 提取实体标签混合序列的特征信 息, 并基于特征信息, 确定目标文本信息的事件 类型; 将事件类型的特征与实体标签 混合序列的 特征拼接, 获得特征矩阵; 基于特征矩阵, 确定目 标文本信息的事件论元角色。 本发 明通过实体识 别、 事件探测以及事件论元识别过程的划分与任 务分解, 将事件探测与事件论元识别的过程分 离, 对各个过程的数据情况进行分析, 通过在事 件特征构建上, 模糊了实体信息特征, 强化了非 实体语义搭配特征, 使 得模型在事件探测以及论 元识别上在专业领域有更好的效果。 权利要求书2页 说明书12页 附图4页 CN 114969360 A 2022.08.30 CN 114969360 A 1.一种文本信息处 理方法, 其特 征在于, 所述方法包括以下步骤: 获取目标文本信 息的实体探测序列和实体标签序列, 根据 所述实体探测序列和所述实 体标签序列, 构建实体标签混合序列; 提取所述实体标签混合序列的特征信息, 并基于所述特征信息, 确定目标文本信息的 事件类型; 将事件类型的特 征与实体标签混合序列的特 征拼接, 获得 特征矩阵; 基于所述特 征矩阵, 确定目标文本信息的事 件论元角色。 2.如权利要求1所述的文本信 息处理方法, 其特征在于, 所述获取目标文本信 息的实体 探测序列和实体标签序列步骤之前, 所述方法还 包括: 在接收到对目标文本信息时, 对所述目标文本信息进行 标准化处理; 其中, 所述标准 化处理包括分句处 理。 3.如权利要求2所述的文本信 息处理方法, 其特征在于, 所述获取目标文本信 息的实体 探测序列和实体标签序列步骤, 具体包括: 根据目标文本信息的分句处理结果, 对所述目标文本信息进行实体识别, 获得目标文 本信息的实体信息和非 实体信息; 基于所述实体信息和非 实体信息, 构建实体探测序列; 获取所述实体探测序列中每 个要素的标签, 并基于所有所述标签, 构建实体标签序列。 4.如权利要求3所述的文本信 息处理方法, 其特征在于, 所述根据 所述实体探测序列和 所述实体标签序列, 构建实体标签混合序列步骤, 具体包括: 若所述实体探测序列中的要素在所述实体标签序列中有对应的标签, 则将所述要素对 应的标签作为实体标签混合序列中的标签要素; 若所述实体探测序列中的要素在所述实体标签序列中没有对应的标签, 则将所述要素 对应的字符作为实体标签混合序列中的字符要素; 根据所述标签要素和所述字符要素, 构建实体标签混合序列。 5.如权利要求4所述的文本信 息处理方法, 其特征在于, 所述提取所述实体标签混合序 列的特征信息, 并基于所述特 征信息, 确定目标文本信息的事 件类型步骤, 具体包括: 利用BILSTM ‑SOFTMAX模型对所述实体标签混合序列 中每个实体信息 的事件类型进行 识别; 其中, 所述BI LSTM‑SOFTMAX模型包括特 征捕获层和概 率决策层; 所述特征捕 获层对所述实体标签序列的上下文序列进行捕 获, 并基于线性全连接层把 特征信息映射到事件类型分布的特征矩阵, 获得所述 实体标签混合特征对应的事件标签类 别概率分布矩阵; 所述概率决策层对事件标签类别概率分布矩阵进行归一化处理, 获得实体标签混合序 列中每个实体信息的事 件类型。 6.如权利要求5所述的文本信 息处理方法, 其特征在于, 所述将事件类型的特征与实体 标签混合序列的特 征拼接, 获得 特征矩阵步骤, 具体包括: 基于实体标签混合序列, 采用one ‑hot编码, 对实体标签混合序列的特征编码, 并提取 所述特征编码的特 征, 获得特征向量矩阵; 对事件类型进行one ‑hot编码, 获得事件类型的特征编码, 并将所述特征向量矩阵和所 述事件类型的特 征编码进行拼接, 获得 特征矩阵。权 利 要 求 书 1/2 页 2 CN 114969360 A 27.如权利要求6所述的文本信息处理方法, 其特征在于, 所述基于所述特征矩阵, 确定 目标文本信息的事 件论元角色步骤, 具体包括: 利用BILSTM ‑CRF模型对所述特征矩阵中每个特征对应的事件论元角色进行识别; 其 中, 所述BI LSTM‑CRF模型包括序列特 征捕获层和序列标签预测层; 所述序列特征捕 获层对所述特征矩阵的上下文特征进行捕 获, 并基于线性全连接层把 特征映射到对应的事件论元角色, 获得所述特征矩阵对应的事件论元角色类型概率分布矩 阵; 所述序列 标签预测层根据所述事件论元角色类型概率分布矩阵, 生成观测序列与被观 测序列的特 征转移矩阵, 获得 特征矩阵中每 个特征的事件论元角色。 8.一种文本信息处 理装置, 其特 征在于, 所述文本信息处 理装置包括: 构建模块, 用于获取目标文本信息的实体探测序列和实体标签序列, 根据所述实体探 测序列和所述实体标签序列, 构建实体标签混合序列; 第一确定模块, 用于提取所述实体标签混合序列的特征信 息, 并基于所述特征信 息, 确 定目标文本信息的事 件类型; 拼接模块, 用于将事 件类型的特 征与实体标签混合序列的特 征拼接, 获得 特征矩阵; 第二确定模块, 用于基于所述特 征矩阵, 确定目标文本信息的事 件论元角色。 9.一种文本信息处理设备, 其特征在于, 所述文本信息处理设备包括: 存储器、 处理器 及存储在所述存储器上并可在所述处理器上运行的文本信息处理方法程序, 所述文本信息 处理方法程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本信息处理方 法的步骤。 10.一种存储介质, 其特征在于, 所述存储介质上存储有文本信息处理方法程序, 所述 文本信息处理方法程序被处理器执行时实现如权利要求1至7中任一项所述的文本信息处 理方法的步骤。权 利 要 求 书 2/2 页 3 CN 114969360 A 3

.PDF文档 专利 文本信息处理方法、装置、设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本信息处理方法、装置、设备及存储介质 第 1 页 专利 文本信息处理方法、装置、设备及存储介质 第 2 页 专利 文本信息处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:00:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。