(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210605906.0
(22)申请日 2022.05.31
(71)申请人 扬州大学
地址 225009 江苏省扬州市大 学南路88号
(72)发明人 赵小龙 李斌
(74)专利代理 机构 南京苏科专利代理有限责任
公司 32102
专利代理师 董旭东 陈栋智
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
课程文本资源到课程知识图谱的自动映射
方法
(57)摘要
本发明公开了软件领域内的一种课程文本
资源到课程知识图谱的自动映射方法, 包括: 步
骤1) 通过现有数据建立课程语料库, 并实现对课
程概念标签的抽取, 最后构建数据集; 步骤2) 模
型训练, 利用数据集训练模型; 步骤3) 模型调优,
使用对抗学习算法FGM参与模型BERT训练, 得到
FGM‑BERT模型; 步骤4) 模型预测, 将待映射文本
输入到训练后的模型中, 根据模 型的输出及验证
时自动选择概率阈值, 自动将文本映射到概念 标
签上, 最终完成了到课程知识图谱的映射, 本发
明解决了多标签文本分类的问题, 实现了互联网
的习题和博客等课程文本资源到课程知识概念
的有效映射。
权利要求书1页 说明书5页 附图2页
CN 114943000 A
2022.08.26
CN 114943000 A
1.一种课程文本资源到 课程知识图谱的自动映射方法, 其特 征在于, 包括以下步骤:
步骤1) 通过现有数据建立课程语料库, 数据来源包括但不限于教材、 题库、 博客, 将收
集到的数据进行清洗后建立课程语料库, 并实现对课程 概念标签的抽取, 最后构建数据集;
步骤2) 模型训练, 利用步骤1中所述的数据集训练模型, 首先利用BERT模型实现对文本
的分词及嵌入, 再通过内置的Transformer编码器实现对课程文本的语义学习, 获得聚合了
文本语义信息的分类向量[CLS], 再通过与标签的对应关系不断优化BERT参数;
步骤3) 模型调优, 使用对抗学习算法FGM参与模型BERT训练, 得到FGM ‑BERT模型;
步骤4) 模型预测, 将待映射文本输入到训练后的模型中, 根据模型的输出及验证时自
动选择概 率阈值, 自动将文本映射到概念标签上, 最终完成了 到课程知识图谱的映射。
2.根据权利要求1所述的课程文本资源到课程知识图谱的自动映射方法, 其特征在于,
步骤1) 中, 包括:
收集所需课程的语料, 建立课程语料库, 利用无监督抽取方法SIFRank结合课程字典提
高对语料分词的完整性, 通过SIFR ank输出初步结果, 然后通过CN ‑Probase进行验证输出课
程知识概念, 并将其作为标签, 筛选其中具有标记的数据构建出数据集, 并按照4:1划分为
训练集合测试集。
3.根据权利要求1所述的课程文本资源到课程知识图谱的自动映射方法, 其特征在于,
步骤2) 中, 包括:
步骤2‑1) 利用BERT实现对输入文本 的分词和词嵌入, 并在第一个位置插入[CLS]分类
token, 用作分类使用;
步骤2‑2) 利用堆叠的Transformer编码器实现对文本语义的学习;
步骤2‑3) 在BERT后加入多标签分类网络, 其隐藏层大小与提取的课程标签数量 一致。
4.根据权利要求1所述的课程文本资源到课程知识图谱的自动映射方法, 其特征在于,
步骤3) 中对抗学习算法FGM参与模型BERT训练的方法具体为:
步骤3‑1) 首先利用无对抗网络的BERT开始正常训练, 得到样本的loss, 然后对loss反
向传播得到正常的梯度n ormal_grad;
步骤3‑2) 根据得到的梯度normal_grad结合扰动半径计算出扰动
, 将扰动
累加到样
本利用BERT得到词嵌入的embed ding矩阵中, 得到修改过的样本;
步骤3‑3) 对修改过后的样本再次进行训练得到loss_adv, 然后 对loss_adv反向传播得
到adv_grad;
步骤3‑4) 删除扰动
, 恢复的原 始embedding矩阵;
步骤3‑5) 根据梯度grad=n ormal_grad+adv_grad更新模型参数。
5.根据权利要求1所述的课程文本资源到课程知识图谱的自动映射方法, 其特征在于,
步骤4) 中, 包括:
步骤4‑1) 根据模型在验证时的不同阈值的性能表现, 通过阈值自动迭代选择器筛选出
使模型Micro F1得分最高的阈值;
步骤4‑2) 将筛选出的阈值作为预测模型的阈值, 用于文本预测, 实现文本到课程知识
图谱的核心课程知识概念的映射。权 利 要 求 书 1/1 页
2
CN 114943000 A
2课程文本资源到课 程知识图谱的 自动映射 方法
技术领域
[0001]本发明涉及软件技术领域, 特别涉及一种课程文本资源到课程知识图谱的自动映
射方法。
背景技术
[0002]近年来, 随着信息技术与数字科技在教育领域的广泛应用, 我们的学习方式发生
了巨大变化。 以中国大学MOOC、 Coursera、 Khan Academy等为代表的大规模在线学习平台为
世界各地的求学者们提供了大量可在线学习的高质量课程, 打破了传统教学活动在时间和
空间上的限制, 在线学习也因此获得了广泛关注。 在线学习主要是指通过互联网进行学习
的方式, 学生们可以根据自身的实际需要从互联网获取课程知识相关的文本 (习题、 博客
等) 、 视频、 图片等资源。 这样开放式的学习方式降低了知识获取的门槛, 提高了对在线教育
资源的利用能力、 极大促进了教育公平, 具有极其深远的意 义。
[0003]课程学习的核心在于课程知识概念, 在线学习虽然降低了知识获取的门槛, 但是
知识学习的深度有限。 一方面现有的在线学习平台中课程习题数量有限, 很难起到查漏补
缺加深理解的作用, 而互联网却有着课程的大量习题却因较为分散无法有效的利用。 另一
方面, 在线 学习因缺乏老师的灵活性指导, 当课程知识概念学习遇到问题时, 有的重新寻找
学习资源, 有的则会陷入困境, 这严重影响了学习的效率, 而 各种各样的论坛中却有着大量
关于课程知识概念的博客文章, 可以很好地帮助学生理解课程知识概念, 并解决问题。 因
此, 为了提高对知识理解的深度, 进一步提高学习效率, 我们考虑将来自互联网的文本与博
客等异源文本资源与课程知识概念进行关联。
[0004]传统基于CNN 的多标签文本分类方法都是对CNN 结构改进, 以此来适应多标签文
本分类。 虽然这种方法比较简单, 但是利用CNN的池化操作时, 会造成语义信息的丢失, 并且
当文本过长时, CNN 不利于捕获前后文的关系而造成语义的偏差。 而基于RNN 的多标签文
本分类方法大多都是利用序列生成来考虑标签间的关系, 后一个标签往往 是依赖于前一个
标签的, 因此错误标签带来的影响往往就会叠加, 虽然有一些方法提出了改进, 但还是存在
着缺陷。
发明内容
[0005]针对现有技术中存在的不足, 本发明提供了一种课程文本资源到课程知识图谱的
自动映射方法, 解决了多标签文本分类的问题, 实现了互联网的习题和博客等课程文本资
源到课程知识概念的有效映射。
[0006]本发明的目的是这样实现的: 一种课程文本资源到课程知识图谱的自动映射方
法, 其特征在于, 包括以下步骤:
步骤1) 通过现有数据建立课程语料库, 数据来源包括但不限于教材、 题库、 博客,
将收集到的数据进行清洗后建立课程语料库, 并实现对课程概念标签的抽取, 最后构建数
据集; 每条数据的格式为: {(c1,c2,…,cn),(text)}, 其中c是课程概念标签, text是课程文说 明 书 1/5 页
3
CN 114943000 A
3
专利 课程文本资源到课程知识图谱的自动映射方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:01:21上传分享