专利 一种基于视觉文本融合的前房角图像分级方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211138484.7 (22)申请日 2022.09.19 (71)申请人广东技术师范大学地址 510665 广东省广州市天河区中山大道西293号 (72)发明人贾西平　黄静琪　关立南　聂栋　崔怀林　廖秀秀　林智勇　马震远　刘海珠　张倩　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师刘俊 (51)Int.Cl. G06T 7/00(2017.01) G06V 10/20(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于视觉文本融合的前房角图像分级方法 (57)摘要本发明公开一种基于视觉文本融合的前房角图像分级方法，包括以下步骤： S1：构建前房角图像数据集； S2：对所述前房角图像数据集中的图像进行预处理； S3：构建基于视觉本文融合的深度神经网络模型并初始化； S4：初始化损失函数和优化器； S5：利用步骤S2中预处理后的前房角图像数据集对步骤S3的基于视觉本文融合的深度神经网络模型进行训练，并计算损失函数； S6：使用优化器更新基于视觉本文融合的深度神经网络模型的网络参数，得到最优的基于视觉本文融合的深度神经网络模型； S7：利用最优的基于视觉本文融合的深度神经网络模型对前房角图像进行分级。本发明在一定程度上解决了计算机辅助诊疗青光眼的问题。权利要求书4页说明书13页附图3页 CN 115423790 A 2022.12.02 CN 115423790 A 1.一种基于视觉文本融合的前房角图像分级方法，其特征在于，包括以下步骤： S1：构建前房角图像数据集； S2：对所述前房角图像数据集中的图像进行预处理； S3：构建基于视觉本文融合的深度神经网络模型并初始化； S4：初始化损失函数和优化器； S5：利用步骤S2中预处理后的前房角图像数据集对步骤S3的基于视觉本文融合的深度神经网络模型进行训练，并计算损失函数； S6：使用优化器更新基于视觉本文融合的深度神经网络模型的网络参数，使其逼近或达到最优值，从而最小化损失函数，找到最优网络参数，得到最优的基于视觉本文融合的深度神经网络模型； S7：利用最优的基于视觉本文融合的深度神经网络模型对前房角图像进行分级。 2.根据权利要求1所述的基于视觉文本融合的前房角图像分级方法，其特征在于，步骤 S1中前房角图像数据集包括多张前房角图像，每张前房角图像标注了前房角分级信息和手工定义的文本标签，其中一部分前房角图像还标注了像素级标签，其中：所述前房角分级信息根据Shaffer描述的前房角评价体系，分为五个级别， N1、 N2、 N3、 N4和W，每个级别对应不同的临床描述；所述文本标签根据每个级别的临床描述归纳每个级别的前房角拥有的临床特征，并定义一种映射策略，将每个级别的前房角拥有的临床特征映射成计算机可以识别的编码，为每个级别的前房角对应一个属性向量，五个级别构成一个5 ‑d的属性矩阵，称作文本标签，属性矩阵中的每个向量表示一个级别的前房角的文本描述；所述像素级标签标注前房角图像中每一个像素属于Schw albe线、小梁网、巩膜突、睫状体带或者背景结构中的一个。 3.根据权利要求2所述的基于视觉文本融合的前房角图像分级方法，其特征在于，所述映射策略使用顺序编码，具体为：选择A个属性描述各个级别的前房角图像，前房角图像的每个级别由一个A维的词级属性表示，通过顺序编码被编码成计算机能够识别的属性向量： v0,…,vA‑1； v0至vA‑2表示前房角每个结构在前房角图像中的可见程度， 0表示不可见， 1表示部分可见， 2 表示完全可见； vA‑1被用作其语义属性，表示前房角关闭的可能性。 4.根据权利要求1所述的基于视觉文本融合的前房角图像分级方法，其特征在于，步骤 S2中对所述前房角图像数据集中的图像进行预处理，具体为：对数据集中每一张前房角图像进行包括随机水平镜像、随机椒盐噪声数据增强操作的数据增强，最后对图像进行归一化处理。 5.根据权利要求1所述的基于视觉文本融合的前房角图像分级方法，其特征在于，步骤 S3中基于视觉本文融合的深度神经网络模型，具体为：所述基于视觉本文融合的深度神经网络模型包括视觉学习分支、文本学习分支以及主分支，所述前房角图像数据集的图像输入主分支，将得到的其中一个潜在视觉特征图输入至文本学习分支中，文本学习分支根据潜在视觉特征图处理输出文本特征图返回至主分支中，视觉学习分支接收主分支中的特征信息，输出视觉特征返回至主分支中，主分支再进行权　利　要　求　书 1/4 页 2 CN 115423790 A 2视觉文本融合，输出前房角图像级别。 6.根据权利要求5所述的基于视觉文本融合的前房角图像分级方法，其特征在于，所述主分支包括视觉编码器、第一融合块、第二融合块和分类器，其中：所述视觉编码器为ResNet50，所述视觉编码器的输入为前房角图像数据集的图像，所述视觉编码器的输出为两个不同尺度的潜在视觉特征图，其中一个潜在视觉特征图Pla输入至文本学习分支中，另一个潜在视觉特征图Pvi输入至第一融合块中，第一融合块还接收文本学习分支输出的文本特征图Pte，第一融合块将潜在视觉特征图Pvi和文本特征图Pte进行融合，得到视觉上下文信息PF1，将视觉上下文信息PF1分别送入视觉学习分支和第二融合块中，第二融合块还接收视觉学习分支输出的特征信息PSEG和PEMB，第二融合块将视觉上下文信息PF1与特征信息PSEG和PEMB进行融合，得到聚合的潜在特征PF2，最后将聚合的潜在特征PF2 输入至分类器中进行分类，采用多层感知器作为分类器的构建，将聚合的潜在特征PF2映射到类分布，得到前房角图像等级。 7.根据权利要求6所述的基于视觉文本融合的前房角图像分级方法，其特征在于，所述第一融合块采用注意力机制，第一融合块的融合过程如下：潜在视觉特征图Pvi和文本特征图Pte分别通过3 ×3卷积建模静态的上下文信息；对文本特征图Pte得到的上下文信息和文本特征图Pte自身使用通道拼接操作之后，进行两个连续的1 ×1卷积操作，接着使用重塑和取均值操作，得到文本关系矩阵；通过潜在视觉特征图Pvi得到的上下文信息进行重塑reshape，得到视觉关系矩阵；使用Softmax函数对文本关系矩阵进行归一化，得到注意力权重图，将其与视觉关系矩阵逐元素相乘，用文本信息指导视觉特征学习，获得新的视觉上下文信息；通过逐元素求和对视觉、文本两个模态之间的特征的依赖关系进行建模，完成潜在视觉特征图Pvi和文本特征图Pte的融合；所述第二融合块的具体融合过程为： PF2＝GAP(PF1)++GAP(PSEG)++GAP(PEMB)) 式中， GAP()为全局平均池化操作， + +为通道拼接操作。 8.根据权利要求7所述的基于视觉文本融合的前房角图像分级方法，其特征在于，所述文本特征分支由文本编码器构成，所述文本编码器由ResNet的res4残差块构成，其输入是来自视觉编码器的潜在特征图Pla，输出为文本特征图Pte，视觉编码器的res4的参数与文本编码器的参数共享，通过属性学习从文本编码器获得文本特征图其中C、 H 和W分别表示通道、、高度和宽度，文本特征分支在H和W上应用全局平均池化来学习全局判别式特征：式中，是从空间位置(i,j)处的特征Pte中提取的；文本特征分支还利用带有参数Wte的卷积层将文本特征映射映到语义嵌入空间，因此，预测属性向量表示前房角图像I中A个属性的预测潜在语义信息：权　利　要　求　书 2/4 页 3 CN 115423790 A 3

专利 一种基于视觉文本融合的前房角图像分级方法

专利一种基于视觉文本融合的前房角图像分级方法