(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210870267.0
(22)申请日 2022.07.18
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号
申请人 中国电子科技 集团公司第十 研究所
(72)发明人 常建涛 原韻松 孔宪光 陈维波
李鑫
(74)专利代理 机构 陕西电子 工业专利中心
61205
专利代理师 田文英 王品华
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/31(2019.01)
G06F 40/295(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06N 5/00(2006.01)
G06N 20/20(2019.01)
G06K 9/62(2022.01)
(54)发明名称
基于SMT质量大数据分析的知识图谱构建方
法
(57)摘要
本发明公开一种基于SMT质量大数据分析的
知识图谱构建方法, 其步骤为: 对SMT产线文本 数
据集进行预处理, 生成SMT产线文本数据训练集
和测试集, 构建并训练BERT ‑Bi‑LSTM‑CRF命名实
体模型, 其结构包括BERT嵌入层, Bi ‑LSTM层和
CRF层; 构建并训练BERT实体关系抽取模型, 其结
构包括BERT编码层、 信息交互层和关系抽取层;
对SMT产线结构化数据进行预处理; 利用XGBoo st
算法计算结构化数据的影响因素; 通过SMT产线
高发缺陷成因关联分析构建SMT产线质量知识图
谱。 本发明提高了SMT企业累计数据利用率, 形 成
规则, 降低产品坏品率, 降低企业 生产成本 。
权利要求书2页 说明书11页 附图4页
CN 115098703 A
2022.09.23
CN 115098703 A
1.一种基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 在SMT领域构建并
训练BERT ‑Bi‑LSTM‑CRF命名实体识别模型, 采用非结构化和结构化数据知识抽取方法构建
SMT产线质量知识图谱, 该构建方法的步骤 包括如下:
步骤1, 对生成的SMT产线 文本数据集进行 预处理:
步骤1.1, 收集待构建图谱SMT产线的文本数据作为非结构化数据的知识来源;
步骤1.2, 对生成的SMT产线文本数据集的中的样本依次进行预处理、 实体标注、 关系标
注;
步骤2, 将标注后的SMT产线数据集, 按照7:3的比例划分为训练集、 测试集;
步骤3, 构建BERT ‑Bi‑LSTM‑CRF命名实体识别模型:
步骤3.1, 搭建一个由词嵌入层、 信息抽取层, 概率输出层串联组成的BERT ‑Bi‑LSTM‑
CRF命名实体识别模型;
步骤3.2, 将BERT嵌入层的网络层 数设置为10, 隐藏单元数设置为384, 注意头个数设置
为10, Bi‑LSTM层采用Xavier方法实现对Bi ‑LSTM中的每个神经元的参数进行初始化, CRF层
采用randn 函数对转移 矩阵进行初始化;
步骤4, 训练BERT ‑Bi‑LSTM‑CRF命名实体识别模型:
将训练集输入到BERT ‑Bi‑LSTM‑CRF命名实体抽取模型中, 使用随机梯度下降法反向传
播调整Bi ‑LSTM层中的神经元个数, 直至损失值小于或等于0.1为止, 得到训练好的BERT ‑
Bi‑LSTM‑CRF模型;
步骤5, 构建BERT实体关系抽取模型:
步骤5.1, 搭建一个由BERT编码层、 信息交互层和关系抽取层串联组成的BERT实体关系
抽取模型;
步骤5.2, 将BERT编码层的最大单词数设置为64, 信息交互层的批数据大小设置为64,
关系抽取层的学习率设置为1 ×10‑5, 丢弃率设置为0.3;
步骤6, 训练BERT实体关系抽取模型:
将训练集输入到BERT实体关系抽取模型中, 使用随机梯度下降法调整学习率和丢弃
率, 直至损失值小于或等于 0.1为止, 得到训练好的BERT实体关系抽取模型;
步骤7, 对生成的SMT产线结构化数据集进行处 理:
对SMT产线结构化锡膏印刷的特征依次进行缺失值处理、 异常值剔除、 规范化和标准化
的预处理;
步骤8, 利用XGBo ost算法计算数据集的影响因素重要度;
步骤8.1, 将XGBoost算法的参数设置如下, 将学习率设置为0.1, 增益阈值设置为0.5,
最大数深度设置为5, 叶子 权值的最小和设置为0.8, 集成的最大 数数量设置为5 0;
步骤8.2, 使用PSO算法, 对XGBoost算法的学习速率、 增益阈值、 最大树深度、 叶子权值
最小和及集成的最大树数量5个参数进行优化, 直至XGBoost算法的损失值小于或等于0.1
为止, 得到每 个锡膏印刷特 征的影响因素重要度;
步骤9, 对SMT产线高发缺陷成因进行关联分析:
步骤9.1, 将SMT印刷过程 中的刮刀压力、 刮 刀速度、 印刷高度补偿、 工作台分离速度、 自
动清洗计数、 清洗速度、 工作台分离距离、 清洗供给时间、 刮刀分离距离确定为影响因素数
据;权 利 要 求 书 1/2 页
2
CN 115098703 A
2步骤9.2, 对影响因素 数据采用距离区间法对连续数据进行离 散化处理;
步骤9.3, 将SPI光学检测机实时监测数据中大于或等于SPI光学检测机自身阈值的数
据, 作为SMT产线高发缺陷关联规则的目标 数据;
步骤9.4, 根据实践经验将Apriori关联规则中的最小支 持度设定为0.1, 最小置信度设
定为0.6; 对SMT产线高发缺陷关联规则的目标数据和影响因素数据进行Apriori关联规则
挖掘, 将挖掘结果作为SMT产线高发缺陷成因关联分析的最终结果;
步骤10, 构建SMT产线质量知识图谱:
步骤10.1, 将非结构化数据抽取到的知识和结构化数据抽取到的知识, 统一表示为三
元组形式;
步骤10.2, 将三元组形式的知识导入知识图谱构建软件, 得到SMT产线质量知识图谱。
2.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于,
步骤1.2中所述的预处理指的是, 对SMT产线文本数据集中的样本依次进行格式内容剔除、
缺失值清洗、 无关数据剔除、 逻辑 错误清洗、 长文本切割。
3.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于,
步骤1.2中所述的实体标注指的是, 利用BIO序列标注方法, 对 预处理后的S MT产线文本数据
集中的样本分别以其对应知识本体进行实体标注。
4.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于,
步骤1.2中所述的关系标注指的是, 根据定义的SMT产线命名实体关系类型, 对所有实体标
注后的SMT产线中两 两实体之间进行关系标注。
5.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于,
步骤7中所述的规范化指的是, 通过下式的线性变换, 将SMT产线结构化锡膏印刷剔除异常
值后的特 征缩放到[0,1]区间内:
其中, x表示SMT产线结构化锡膏印刷剔除异常值后的特征, xmin、 xmax分别表示SMT产线
结构化锡膏印刷剔除异常值后的特征矩阵x所属列中的最小值和最大值, x*表示归一化后
的特征值。
6.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于,
步骤7中所述的标准化指的是, 采用下述公式, 对SMT产线结构化锡膏印刷规范化后的特征
进行标准化处理, 使该特征呈现正态化分布:
其中, y*表示SMT产线结构化锡膏印刷标准化后的特征值, y表示SMT产线结构化锡膏印
刷规范化后的特征, u、 σ 分别表示SMT产线结构化锡膏 印刷规范化后的特征矩阵y所属列的
均值和标准差 。权 利 要 求 书 2/2 页
3
CN 115098703 A
3
专利 基于SMT质量大数据分析的知识图谱构建方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:57:40上传分享