说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211138484.7 (22)申请日 2022.09.19 (71)申请人 广东技术师范大学 地址 510665 广东省广州市天河区中山大 道西293号 (72)发明人 贾西平 黄静琪 关立南 聂栋  崔怀林 廖秀秀 林智勇 马震远  刘海珠 张倩  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 刘俊 (51)Int.Cl. G06T 7/00(2017.01) G06V 10/20(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于视觉文本融合的前房角图像分级 方法 (57)摘要 本发明公开一种基于视觉文本融合的前房 角图像分级方法, 包括以下步骤: S1: 构建前房角 图像数据集; S2: 对所述前房角图像数据集中的 图像进行预处理; S3: 构建基于视觉本文融合的 深度神经网络模型并初始化; S4: 初始化损失函 数和优化器; S5: 利用步骤S2中预处理后的前房 角图像数据集对步骤S3的基于视觉本文融合的 深度神经网络模型进行训练, 并计算损失函数; S6: 使用优化器更新基于视觉本文融合的深度神 经网络模型的网络参数, 得到最优的基于视觉本 文融合的深度神经网络模型; S7: 利用最优的基 于视觉本文融合的深度神经网络模型对前房角 图像进行分级。 本发明在一定程度上解决了计算 机辅助诊疗青光眼的问题。 权利要求书4页 说明书13页 附图3页 CN 115423790 A 2022.12.02 CN 115423790 A 1.一种基于 视觉文本融合的前房角图像分级方法, 其特 征在于, 包括以下步骤: S1: 构建前房角图像数据集; S2: 对所述前房角图像数据集中的图像进行 预处理; S3: 构建基于 视觉本文融合的深度神经网络模型并初始化; S4: 初始化损失函数和优化器; S5: 利用步骤S2中预处理后的前房角图像数据集对步骤S3的基于视觉本文融合的深度 神经网络模型进行训练, 并计算损失函数; S6: 使用优化器更新基于视觉本文融合的深度神经网络模型的网络参数, 使其逼近或 达到最优值, 从而最小化损失函数, 找到最优网络参数, 得到最优的基于视觉本文融合的深 度神经网络模型; S7: 利用最优的基于 视觉本文融合的深度神经网络模型对前房角图像进行分级。 2.根据权利要求1所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 步骤 S1中前房角图像数据集包括多张前房角图像, 每张前房角图像标注了前房角分级信息和手 工定义的文本标签, 其中一部分前房角图像还标注了像素级标签, 其中: 所述前房角分级信息根据Shaffer描述的前房角评价体系, 分为五个级别, N1、 N2、 N3、 N4和W, 每个级别对应不同的临床描述; 所述文本标签根据每个级别的临床描述归纳每个级别的前房角拥 有的临床特征, 并定 义一种映射策略, 将每个级别的前房角拥有的临床特征映射成计算机可以识别的编码, 为 每个级别的前房角对应一个属性向量, 五个级别构成一个5 ‑d的属性矩阵, 称作文本标签, 属性矩阵中的每 个向量表示 一个级别的前房角的文本描述; 所述像素级标签标注前房角图像中每一个像素属于Schw albe线、 小梁网、 巩膜突、 睫状 体带或者背景 结构中的一个。 3.根据权利要求2所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述 映射策略使用顺序编码, 具体为: 选择A个属性描述各个级别的前房角图像, 前房角图像的每个级别由一个A维的词级属 性 表示, 通过顺序编码被编码 成计算机能够识别的属性向量: v0,…,vA‑1; v0至vA‑2表示前房角每个结构在前房角图像中的可见程度, 0表示不可见, 1表示部分可见, 2 表示完全可 见; vA‑1被用作其语义属性, 表示前房角关闭的可能性。 4.根据权利要求1所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 步骤 S2中对所述前房角图像数据集中的图像进行 预处理, 具体为: 对数据集中每一张前房角图像进行包括随机水平镜像、 随机椒盐噪声数据增强操作的 数据增强, 最后对图像进行归一 化处理。 5.根据权利要求1所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 步骤 S3中基于 视觉本文融合的深度神经网络模型, 具体为: 所述基于视觉本文融合的深度神经网络模型包括视觉学习分支、 文本学习分支以及主 分支, 所述前房角图像数据集的图像输入主分支, 将得到的其中一个潜在视觉特征图输入 至文本学习分支中, 文本学习分支 根据潜在视觉特征图处理输出文本特征图返回至主分支 中, 视觉学习分支接收主分支中的特征信息, 输出视觉特征返回至主分支中, 主分支再进 行权 利 要 求 书 1/4 页 2 CN 115423790 A 2视觉文本融合, 输出 前房角图像级别。 6.根据权利要求5所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述 主分支包括视 觉编码器、 第一融合 块、 第二融合 块和分类 器, 其中: 所述视觉编码器为ResNet50, 所述视觉编码器的输入为前房角图像数据集的图像, 所 述视觉编码器的输出为两个不同尺度的潜在视觉特征图, 其中一个潜在视觉特征图Pla输入 至文本学习分支中, 另一个潜在视觉特征图Pvi输入至第一融合块中, 第一融合块还接收文 本学习分支输出的文本特征图Pte, 第一融合块将潜在视觉特征图Pvi和文本特征图Pte进行 融合, 得到视觉上下文信息PF1, 将视觉上下文信息PF1分别送入视觉学习分支和第二融合块 中, 第二融合块还接收视觉学习分支输出的特征信息PSEG和PEMB, 第二融合块将视觉上下文 信息PF1与特征信息PSEG和PEMB进行融合, 得到聚合的潜在特征PF2, 最后将聚合的潜在特征PF2 输入至分类器中进行分类, 采用多层感知器作为分类器的构建, 将聚合的潜在特征PF2映射 到类分布, 得到前房角图像等级。 7.根据权利要求6所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述 第一融合 块采用注意力机制, 第一融合 块的融合过程如下: 潜在视觉特征图Pvi和文本特 征图Pte分别通过3 ×3卷积建模静态的上 下文信息; 对文本特征图Pte得到的上下文信息和文本 特征图Pte自身使用通道拼接操作之后, 进行 两个连续的1 ×1卷积操作, 接着使用重塑和取均值操作, 得到文本关系矩阵; 通过潜在视 觉特征图Pvi得到的上 下文信息进行重塑reshape, 得到 视觉关系矩阵; 使用Softmax函数对文本关系 矩阵进行归一化, 得到注意力权重图, 将其与视觉关系 矩 阵逐元素相乘, 用文本信息指导视 觉特征学习, 获得新的视 觉上下文信息; 通过逐元素求和对视觉、 文本两个模态之间的特征的依赖关系进行建模, 完成潜在视 觉特征图Pvi和文本特 征图Pte的融合; 所述第二融合 块的具体融合过程 为: PF2=GAP(PF1)++GAP(PSEG)++GAP(PEMB)) 式中, GAP()为全局平均池化操作, + +为通道拼接操作。 8.根据权利要求7所述的基于视觉文本 融合的前房角图像分级方法, 其特征在于, 所述 文本特征分支由文本编码器构成, 所述文本编码器由ResNet的res4残差块构成, 其输入是 来自视觉编码器的潜在特征图Pla, 输出为文本特征图Pte, 视觉编码器的res4的参数与文本 编码器的参数共享, 通过属性学习从文本编码器获得文本特征图 其中C、 H 和W分别表示通道、 、 高度和 宽度, 文本特征分支在H和W上应用全局平均池化来学习全局判 别式特征: 式中, 是从空间位置(i,j)处的特 征Pte中提取的; 文本特征分支还利用带有参数Wte的卷积层将文本特征 映射映到语义嵌入空间, 因此, 预测属性向量 表示前房角图像I中A个属性的预测潜在语义信息: 权 利 要 求 书 2/4 页 3 CN 115423790 A 3

.PDF文档 专利 一种基于视觉文本融合的前房角图像分级方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于视觉文本融合的前房角图像分级方法 第 1 页 专利 一种基于视觉文本融合的前房角图像分级方法 第 2 页 专利 一种基于视觉文本融合的前房角图像分级方法 第 3 页
下载文档到电脑,方便使用
本文档由 思考人生 于 2024-02-07 20:35:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。