(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211138484.7
(22)申请日 2022.09.19
(71)申请人 广东技术师范大学
地址 510665 广东省广州市天河区中山大
道西293号
(72)发明人 贾西平 黄静琪 关立南 聂栋
崔怀林 廖秀秀 林智勇 马震远
刘海珠 张倩
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 刘俊
(51)Int.Cl.
G06T 7/00(2017.01)
G06V 10/20(2022.01)
G06V 10/764(2022.01)G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于视觉文本融合的前房角图像分级
方法
(57)摘要
本发明公开一种基于视觉文本融合的前房
角图像分级方法, 包括以下步骤: S1: 构建前房角
图像数据集; S2: 对所述前房角图像数据集中的
图像进行预处理; S3: 构建基于视觉本文融合的
深度神经网络模型并初始化; S4: 初始化损失函
数和优化器; S5: 利用步骤S2中预处理后的前房
角图像数据集对步骤S3的基于视觉本文融合的
深度神经网络模型进行训练, 并计算损失函数;
S6: 使用优化器更新基于视觉本文融合的深度神
经网络模型的网络参数, 得到最优的基于视觉本
文融合的深度神经网络模型; S7: 利用最优的基
于视觉本文融合的深度神经网络模型对前房角
图像进行分级。 本发明在一定程度上解决了计算
机辅助诊疗青光眼的问题。
权利要求书4页 说明书13页 附图3页
CN 115423790 A
2022.12.02
CN 115423790 A
1.一种基于 视觉文本融合的前房角图像分级方法, 其特 征在于, 包括以下步骤:
S1: 构建前房角图像数据集;
S2: 对所述前房角图像数据集中的图像进行 预处理;
S3: 构建基于 视觉本文融合的深度神经网络模型并初始化;
S4: 初始化损失函数和优化器;
S5: 利用步骤S2中预处理后的前房角图像数据集对步骤S3的基于视觉本文融合的深度
神经网络模型进行训练, 并计算损失函数;
S6: 使用优化器更新基于视觉本文融合的深度神经网络模型的网络参数, 使其逼近或
达到最优值, 从而最小化损失函数, 找到最优网络参数, 得到最优的基于视觉本文融合的深
度神经网络模型;
S7: 利用最优的基于 视觉本文融合的深度神经网络模型对前房角图像进行分级。
2.根据权利要求1所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 步骤
S1中前房角图像数据集包括多张前房角图像, 每张前房角图像标注了前房角分级信息和手
工定义的文本标签, 其中一部分前房角图像还标注了像素级标签, 其中:
所述前房角分级信息根据Shaffer描述的前房角评价体系, 分为五个级别, N1、 N2、 N3、
N4和W, 每个级别对应不同的临床描述;
所述文本标签根据每个级别的临床描述归纳每个级别的前房角拥 有的临床特征, 并定
义一种映射策略, 将每个级别的前房角拥有的临床特征映射成计算机可以识别的编码, 为
每个级别的前房角对应一个属性向量, 五个级别构成一个5 ‑d的属性矩阵, 称作文本标签,
属性矩阵中的每 个向量表示 一个级别的前房角的文本描述;
所述像素级标签标注前房角图像中每一个像素属于Schw albe线、 小梁网、 巩膜突、 睫状
体带或者背景 结构中的一个。
3.根据权利要求2所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述
映射策略使用顺序编码, 具体为:
选择A个属性描述各个级别的前房角图像, 前房角图像的每个级别由一个A维的词级属
性
表示, 通过顺序编码被编码 成计算机能够识别的属性向量: v0,…,vA‑1;
v0至vA‑2表示前房角每个结构在前房角图像中的可见程度, 0表示不可见, 1表示部分可见, 2
表示完全可 见; vA‑1被用作其语义属性, 表示前房角关闭的可能性。
4.根据权利要求1所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 步骤
S2中对所述前房角图像数据集中的图像进行 预处理, 具体为:
对数据集中每一张前房角图像进行包括随机水平镜像、 随机椒盐噪声数据增强操作的
数据增强, 最后对图像进行归一 化处理。
5.根据权利要求1所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 步骤
S3中基于 视觉本文融合的深度神经网络模型, 具体为:
所述基于视觉本文融合的深度神经网络模型包括视觉学习分支、 文本学习分支以及主
分支, 所述前房角图像数据集的图像输入主分支, 将得到的其中一个潜在视觉特征图输入
至文本学习分支中, 文本学习分支 根据潜在视觉特征图处理输出文本特征图返回至主分支
中, 视觉学习分支接收主分支中的特征信息, 输出视觉特征返回至主分支中, 主分支再进 行权 利 要 求 书 1/4 页
2
CN 115423790 A
2视觉文本融合, 输出 前房角图像级别。
6.根据权利要求5所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述
主分支包括视 觉编码器、 第一融合 块、 第二融合 块和分类 器, 其中:
所述视觉编码器为ResNet50, 所述视觉编码器的输入为前房角图像数据集的图像, 所
述视觉编码器的输出为两个不同尺度的潜在视觉特征图, 其中一个潜在视觉特征图Pla输入
至文本学习分支中, 另一个潜在视觉特征图Pvi输入至第一融合块中, 第一融合块还接收文
本学习分支输出的文本特征图Pte, 第一融合块将潜在视觉特征图Pvi和文本特征图Pte进行
融合, 得到视觉上下文信息PF1, 将视觉上下文信息PF1分别送入视觉学习分支和第二融合块
中, 第二融合块还接收视觉学习分支输出的特征信息PSEG和PEMB, 第二融合块将视觉上下文
信息PF1与特征信息PSEG和PEMB进行融合, 得到聚合的潜在特征PF2, 最后将聚合的潜在特征PF2
输入至分类器中进行分类, 采用多层感知器作为分类器的构建, 将聚合的潜在特征PF2映射
到类分布, 得到前房角图像等级。
7.根据权利要求6所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述
第一融合 块采用注意力机制, 第一融合 块的融合过程如下:
潜在视觉特征图Pvi和文本特 征图Pte分别通过3 ×3卷积建模静态的上 下文信息;
对文本特征图Pte得到的上下文信息和文本 特征图Pte自身使用通道拼接操作之后, 进行
两个连续的1 ×1卷积操作, 接着使用重塑和取均值操作, 得到文本关系矩阵;
通过潜在视 觉特征图Pvi得到的上 下文信息进行重塑reshape, 得到 视觉关系矩阵;
使用Softmax函数对文本关系 矩阵进行归一化, 得到注意力权重图, 将其与视觉关系 矩
阵逐元素相乘, 用文本信息指导视 觉特征学习, 获得新的视 觉上下文信息;
通过逐元素求和对视觉、 文本两个模态之间的特征的依赖关系进行建模, 完成潜在视
觉特征图Pvi和文本特 征图Pte的融合;
所述第二融合 块的具体融合过程 为:
PF2=GAP(PF1)++GAP(PSEG)++GAP(PEMB))
式中, GAP()为全局平均池化操作, + +为通道拼接操作。
8.根据权利要求7所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述
文本特征分支由文本编码器构成, 所述文本编码器由ResNet的res4残差块构成, 其输入是
来自视觉编码器的潜在特征图Pla, 输出为文本特征图Pte, 视觉编码器的res4的参数与文本
编码器的参数共享, 通过属性学习从文本编码器获得文本特征图
其中C、 H
和W分别表示通道、 、 高度和 宽度, 文本特征分支在H和W上应用全局平均池化来学习全局判
别式特征:
式中,
是从空间位置(i,j)处的特 征Pte中提取的;
文本特征分支还利用带有参数Wte的卷积层将文本特征 映射映到语义嵌入空间, 因此,
预测属性向量
表示前房角图像I中A个属性的预测潜在语义信息:
权 利 要 求 书 2/4 页
3
CN 115423790 A
3
专利 一种基于视觉文本融合的前房角图像分级方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:35:33上传分享