说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210870267.0 (22)申请日 2022.07.18 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 申请人 中国电子科技 集团公司第十 研究所 (72)发明人 常建涛 原韻松 孔宪光 陈维波  李鑫  (74)专利代理 机构 陕西电子 工业专利中心 61205 专利代理师 田文英 王品华 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 5/00(2006.01) G06N 20/20(2019.01) G06K 9/62(2022.01) (54)发明名称 基于SMT质量大数据分析的知识图谱构建方 法 (57)摘要 本发明公开一种基于SMT质量大数据分析的 知识图谱构建方法, 其步骤为: 对SMT产线文本 数 据集进行预处理, 生成SMT产线文本数据训练集 和测试集, 构建并训练BERT ‑Bi‑LSTM‑CRF命名实 体模型, 其结构包括BERT嵌入层, Bi ‑LSTM层和 CRF层; 构建并训练BERT实体关系抽取模型, 其结 构包括BERT编码层、 信息交互层和关系抽取层; 对SMT产线结构化数据进行预处理; 利用XGBoo st 算法计算结构化数据的影响因素; 通过SMT产线 高发缺陷成因关联分析构建SMT产线质量知识图 谱。 本发明提高了SMT企业累计数据利用率, 形 成 规则, 降低产品坏品率, 降低企业 生产成本 。 权利要求书2页 说明书11页 附图4页 CN 115098703 A 2022.09.23 CN 115098703 A 1.一种基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 在SMT领域构建并 训练BERT ‑Bi‑LSTM‑CRF命名实体识别模型, 采用非结构化和结构化数据知识抽取方法构建 SMT产线质量知识图谱, 该构建方法的步骤 包括如下: 步骤1, 对生成的SMT产线 文本数据集进行 预处理: 步骤1.1, 收集待构建图谱SMT产线的文本数据作为非结构化数据的知识来源; 步骤1.2, 对生成的SMT产线文本数据集的中的样本依次进行预处理、 实体标注、 关系标 注; 步骤2, 将标注后的SMT产线数据集, 按照7:3的比例划分为训练集、 测试集; 步骤3, 构建BERT ‑Bi‑LSTM‑CRF命名实体识别模型: 步骤3.1, 搭建一个由词嵌入层、 信息抽取层, 概率输出层串联组成的BERT ‑Bi‑LSTM‑ CRF命名实体识别模型; 步骤3.2, 将BERT嵌入层的网络层 数设置为10, 隐藏单元数设置为384, 注意头个数设置 为10, Bi‑LSTM层采用Xavier方法实现对Bi ‑LSTM中的每个神经元的参数进行初始化, CRF层 采用randn 函数对转移 矩阵进行初始化; 步骤4, 训练BERT ‑Bi‑LSTM‑CRF命名实体识别模型: 将训练集输入到BERT ‑Bi‑LSTM‑CRF命名实体抽取模型中, 使用随机梯度下降法反向传 播调整Bi ‑LSTM层中的神经元个数, 直至损失值小于或等于0.1为止, 得到训练好的BERT ‑ Bi‑LSTM‑CRF模型; 步骤5, 构建BERT实体关系抽取模型: 步骤5.1, 搭建一个由BERT编码层、 信息交互层和关系抽取层串联组成的BERT实体关系 抽取模型; 步骤5.2, 将BERT编码层的最大单词数设置为64, 信息交互层的批数据大小设置为64, 关系抽取层的学习率设置为1 ×10‑5, 丢弃率设置为0.3; 步骤6, 训练BERT实体关系抽取模型: 将训练集输入到BERT实体关系抽取模型中, 使用随机梯度下降法调整学习率和丢弃 率, 直至损失值小于或等于 0.1为止, 得到训练好的BERT实体关系抽取模型; 步骤7, 对生成的SMT产线结构化数据集进行处 理: 对SMT产线结构化锡膏印刷的特征依次进行缺失值处理、 异常值剔除、 规范化和标准化 的预处理; 步骤8, 利用XGBo ost算法计算数据集的影响因素重要度; 步骤8.1, 将XGBoost算法的参数设置如下, 将学习率设置为0.1, 增益阈值设置为0.5, 最大数深度设置为5, 叶子 权值的最小和设置为0.8, 集成的最大 数数量设置为5 0; 步骤8.2, 使用PSO算法, 对XGBoost算法的学习速率、 增益阈值、 最大树深度、 叶子权值 最小和及集成的最大树数量5个参数进行优化, 直至XGBoost算法的损失值小于或等于0.1 为止, 得到每 个锡膏印刷特 征的影响因素重要度; 步骤9, 对SMT产线高发缺陷成因进行关联分析: 步骤9.1, 将SMT印刷过程 中的刮刀压力、 刮 刀速度、 印刷高度补偿、 工作台分离速度、 自 动清洗计数、 清洗速度、 工作台分离距离、 清洗供给时间、 刮刀分离距离确定为影响因素数 据;权 利 要 求 书 1/2 页 2 CN 115098703 A 2步骤9.2, 对影响因素 数据采用距离区间法对连续数据进行离 散化处理; 步骤9.3, 将SPI光学检测机实时监测数据中大于或等于SPI光学检测机自身阈值的数 据, 作为SMT产线高发缺陷关联规则的目标 数据; 步骤9.4, 根据实践经验将Apriori关联规则中的最小支 持度设定为0.1, 最小置信度设 定为0.6; 对SMT产线高发缺陷关联规则的目标数据和影响因素数据进行Apriori关联规则 挖掘, 将挖掘结果作为SMT产线高发缺陷成因关联分析的最终结果; 步骤10, 构建SMT产线质量知识图谱: 步骤10.1, 将非结构化数据抽取到的知识和结构化数据抽取到的知识, 统一表示为三 元组形式; 步骤10.2, 将三元组形式的知识导入知识图谱构建软件, 得到SMT产线质量知识图谱。 2.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 步骤1.2中所述的预处理指的是, 对SMT产线文本数据集中的样本依次进行格式内容剔除、 缺失值清洗、 无关数据剔除、 逻辑 错误清洗、 长文本切割。 3.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 步骤1.2中所述的实体标注指的是, 利用BIO序列标注方法, 对 预处理后的S MT产线文本数据 集中的样本分别以其对应知识本体进行实体标注。 4.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 步骤1.2中所述的关系标注指的是, 根据定义的SMT产线命名实体关系类型, 对所有实体标 注后的SMT产线中两 两实体之间进行关系标注。 5.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 步骤7中所述的规范化指的是, 通过下式的线性变换, 将SMT产线结构化锡膏印刷剔除异常 值后的特 征缩放到[0,1]区间内: 其中, x表示SMT产线结构化锡膏印刷剔除异常值后的特征, xmin、 xmax分别表示SMT产线 结构化锡膏印刷剔除异常值后的特征矩阵x所属列中的最小值和最大值, x*表示归一化后 的特征值。 6.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法, 其特征在于, 步骤7中所述的标准化指的是, 采用下述公式, 对SMT产线结构化锡膏印刷规范化后的特征 进行标准化处理, 使该特征呈现正态化分布: 其中, y*表示SMT产线结构化锡膏印刷标准化后的特征值, y表示SMT产线结构化锡膏印 刷规范化后的特征, u、 σ 分别表示SMT产线结构化锡膏 印刷规范化后的特征矩阵y所属列的 均值和标准差 。权 利 要 求 书 2/2 页 3 CN 115098703 A 3

.PDF文档 专利 基于SMT质量大数据分析的知识图谱构建方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于SMT质量大数据分析的知识图谱构建方法 第 1 页 专利 基于SMT质量大数据分析的知识图谱构建方法 第 2 页 专利 基于SMT质量大数据分析的知识图谱构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。