专利 基于SMT质量大数据分析的知识图谱构建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210870267.0 (22)申请日 2022.07.18 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号申请人中国电子科技集团公司第十研究所 (72)发明人常建涛　原韻松　孔宪光　陈维波　李鑫　 (74)专利代理机构陕西电子工业专利中心 61205 专利代理师田文英　王品华 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/31(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 5/00(2006.01) G06N 20/20(2019.01) G06K 9/62(2022.01) (54)发明名称基于SMT质量大数据分析的知识图谱构建方法 (57)摘要本发明公开一种基于SMT质量大数据分析的知识图谱构建方法，其步骤为：对SMT产线文本数据集进行预处理，生成SMT产线文本数据训练集和测试集，构建并训练BERT ‑Bi‑LSTM‑CRF命名实体模型，其结构包括BERT嵌入层， Bi ‑LSTM层和 CRF层；构建并训练BERT实体关系抽取模型，其结构包括BERT编码层、信息交互层和关系抽取层；对SMT产线结构化数据进行预处理；利用XGBoo st 算法计算结构化数据的影响因素；通过SMT产线高发缺陷成因关联分析构建SMT产线质量知识图谱。本发明提高了SMT企业累计数据利用率，形成规则，降低产品坏品率，降低企业生产成本。权利要求书2页说明书11页附图4页 CN 115098703 A 2022.09.23 CN 115098703 A 1.一种基于SMT质量大数据分析的知识图谱构建方法，其特征在于，在SMT领域构建并训练BERT ‑Bi‑LSTM‑CRF命名实体识别模型，采用非结构化和结构化数据知识抽取方法构建 SMT产线质量知识图谱，该构建方法的步骤包括如下：步骤1，对生成的SMT产线文本数据集进行预处理：步骤1.1，收集待构建图谱SMT产线的文本数据作为非结构化数据的知识来源；步骤1.2，对生成的SMT产线文本数据集的中的样本依次进行预处理、实体标注、关系标注；步骤2，将标注后的SMT产线数据集，按照7:3的比例划分为训练集、测试集；步骤3，构建BERT ‑Bi‑LSTM‑CRF命名实体识别模型：步骤3.1，搭建一个由词嵌入层、信息抽取层，概率输出层串联组成的BERT ‑Bi‑LSTM‑ CRF命名实体识别模型；步骤3.2，将BERT嵌入层的网络层数设置为10，隐藏单元数设置为384，注意头个数设置为10， Bi‑LSTM层采用Xavier方法实现对Bi ‑LSTM中的每个神经元的参数进行初始化， CRF层采用randn 函数对转移矩阵进行初始化；步骤4，训练BERT ‑Bi‑LSTM‑CRF命名实体识别模型：将训练集输入到BERT ‑Bi‑LSTM‑CRF命名实体抽取模型中，使用随机梯度下降法反向传播调整Bi ‑LSTM层中的神经元个数，直至损失值小于或等于0.1为止，得到训练好的BERT ‑ Bi‑LSTM‑CRF模型；步骤5，构建BERT实体关系抽取模型：步骤5.1，搭建一个由BERT编码层、信息交互层和关系抽取层串联组成的BERT实体关系抽取模型；步骤5.2，将BERT编码层的最大单词数设置为64，信息交互层的批数据大小设置为64，关系抽取层的学习率设置为1 ×10‑5，丢弃率设置为0.3；步骤6，训练BERT实体关系抽取模型：将训练集输入到BERT实体关系抽取模型中，使用随机梯度下降法调整学习率和丢弃率，直至损失值小于或等于 0.1为止，得到训练好的BERT实体关系抽取模型；步骤7，对生成的SMT产线结构化数据集进行处理：对SMT产线结构化锡膏印刷的特征依次进行缺失值处理、异常值剔除、规范化和标准化的预处理；步骤8，利用XGBo ost算法计算数据集的影响因素重要度；步骤8.1，将XGBoost算法的参数设置如下，将学习率设置为0.1，增益阈值设置为0.5，最大数深度设置为5，叶子权值的最小和设置为0.8，集成的最大数数量设置为5 0；步骤8.2，使用PSO算法，对XGBoost算法的学习速率、增益阈值、最大树深度、叶子权值最小和及集成的最大树数量5个参数进行优化，直至XGBoost算法的损失值小于或等于0.1 为止，得到每个锡膏印刷特征的影响因素重要度；步骤9，对SMT产线高发缺陷成因进行关联分析：步骤9.1，将SMT印刷过程中的刮刀压力、刮刀速度、印刷高度补偿、工作台分离速度、自动清洗计数、清洗速度、工作台分离距离、清洗供给时间、刮刀分离距离确定为影响因素数据；权　利　要　求　书 1/2 页 2 CN 115098703 A 2步骤9.2，对影响因素数据采用距离区间法对连续数据进行离散化处理；步骤9.3，将SPI光学检测机实时监测数据中大于或等于SPI光学检测机自身阈值的数据，作为SMT产线高发缺陷关联规则的目标数据；步骤9.4，根据实践经验将Apriori关联规则中的最小支持度设定为0.1，最小置信度设定为0.6；对SMT产线高发缺陷关联规则的目标数据和影响因素数据进行Apriori关联规则挖掘，将挖掘结果作为SMT产线高发缺陷成因关联分析的最终结果；步骤10，构建SMT产线质量知识图谱：步骤10.1，将非结构化数据抽取到的知识和结构化数据抽取到的知识，统一表示为三元组形式；步骤10.2，将三元组形式的知识导入知识图谱构建软件，得到SMT产线质量知识图谱。 2.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法，其特征在于，步骤1.2中所述的预处理指的是，对SMT产线文本数据集中的样本依次进行格式内容剔除、缺失值清洗、无关数据剔除、逻辑错误清洗、长文本切割。 3.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法，其特征在于，步骤1.2中所述的实体标注指的是，利用BIO序列标注方法，对预处理后的S MT产线文本数据集中的样本分别以其对应知识本体进行实体标注。 4.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法，其特征在于，步骤1.2中所述的关系标注指的是，根据定义的SMT产线命名实体关系类型，对所有实体标注后的SMT产线中两两实体之间进行关系标注。 5.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法，其特征在于，步骤7中所述的规范化指的是，通过下式的线性变换，将SMT产线结构化锡膏印刷剔除异常值后的特征缩放到[0,1]区间内：其中， x表示SMT产线结构化锡膏印刷剔除异常值后的特征， xmin、 xmax分别表示SMT产线结构化锡膏印刷剔除异常值后的特征矩阵x所属列中的最小值和最大值， x*表示归一化后的特征值。 6.根据权利要求1所述的基于SMT质量大数据分析的知识图谱构建方法，其特征在于，步骤7中所述的标准化指的是，采用下述公式，对SMT产线结构化锡膏印刷规范化后的特征进行标准化处理，使该特征呈现正态化分布：其中， y*表示SMT产线结构化锡膏印刷标准化后的特征值， y表示SMT产线结构化锡膏印刷规范化后的特征， u、 σ 分别表示SMT产线结构化锡膏印刷规范化后的特征矩阵y所属列的均值和标准差。权　利　要　求　书 2/2 页 3 CN 115098703 A 3

专利 基于SMT质量大数据分析的知识图谱构建方法

专利基于SMT质量大数据分析的知识图谱构建方法