(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211208011.X
(22)申请日 2022.09.30
(71)申请人 燕山大学
地址 066004 河北省秦皇岛市海港区河北
大街438号
(72)发明人 张世辉 王威 韩雪强
(74)专利代理 机构 石家庄众志华清知识产权事
务所(特殊普通 合伙) 13123
专利代理师 周胜欣
(51)Int.Cl.
G06T 7/00(2017.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06T 3/40(2006.01)G06N 3/04(2006.01)
(54)发明名称
基于CNN和transformer的跨模态人群计数
方法
(57)摘要
本发明公开了基于CNN和transformer的跨
模态人群计数方法, 本发明包括以下步骤: 将RGB
图像和热度图像输入由CNN组成的双分支网络的
各分支中, 学习双模态图像的模态特定特征; 新
颖的跨模态transformer连接CNN双分支网络并
学习不同模态图像的全局特征, 融合模态特定特
征和模态全局特征; 跨层连接结构连接网络不同
层的融合后的特征图, 并经分支注 意力模块增强
融合的特征图的通道信息; 跨模态注 意力模块提
取不同模态间的互补信息, 增强跨模态特征表
示; 将跨模态注意力模块提取的特征图送入尾部
网络中, 生成密度图; 将密度图逐像素相加得到
人群计数结果, 本发明可以有效完成人群任意分
布的拥挤场景 下跨模态人群 计数任务。
权利要求书4页 说明书9页 附图6页
CN 115526862 A
2022.12.27
CN 115526862 A
1.基于CNN和transformer的跨模态人群 计数方法, 其特 征在于,包括如下步骤:
(1)将RGB图像和热度图像分别输入 由CNN组成的双分支网络结构中的各个分支, 分别
得到RGB特征图和热度特征图, 所述双分支网络结构中的每个 分支都包括 12个卷积层和3个
最大池化层;
(2)将步骤(1)中得到的RGB特征图和热度特征图作为输入, 通过维度变换将上述特征
图转换为序列向量, 将序列向量输入新 颖的跨模态transformer中, 学习不同模态特征图的
跨模态全局特征, 得到由新 颖的跨模态transformer 提取的具有跨模态全局特征的RGB序列
向量和热度序列向量; RGB特征图和热度特征图的维度均是C ×H×W, 其中, C、 H、 W分别是通
道数、 高度和宽度; 序列向量的形状是K ×E, 其中, K、 E 分别是序列向量的序列数和一维向量
长度;
(3)将步骤(2)得到的RGB序列向量和热度序列向量分别重塑为跨模态RGB特征图和跨
模态热度特征图, 将跨模态RGB特征图与由CNN组成的双分支结构提取的RGB特征图融合, 将
跨模态热度特征图与由CNN组成的双分支结构提取的热度特征图融合, 分别得到融合后的
RGB特征图和融合后的热度特 征图;
(4)将网络不同层融合后的RGB特征图和融合后的热度特征图分别经跨层连接结构连
接, 得到输出RGB特 征图和输出 热度特征图;
(5)将跨层连接结构的输出RGB特征图和输出热度特征图输入跨模态注意力 模块中, 融
合彼此的特 征图, 得到新的特 征图;
(6)将新的特征图输入尾部网络, 经一系列计算得到估计的密度图, 所述尾部网络包括
4个卷积层;
(7)将所得密度图逐像素相加, 得到估计的人 数。
2.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述步骤(1)中各个分支中的每个卷积层生成的特征图通道数由输入至输出方向依次为
16、 16、 32、 32、 64、 64、 64、 64、 128、 128、 128、 128, 所述由CNN组成的双分支网络结构的各个分
支中的池化层步长为2。
3.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述步骤(2)中将特 征图转换为序列向量的详细流 程为:
将高为H, 宽为W的特征图分割成4 ×4的图像块, 那么C个通道的同一位置的所有图像块
按顺序展成一维向量并进行首尾相接, 得到完整的一维向量长度为E=C ×4×4,一共有
个相同长度的一维向量, 即得到 E和K。
4.根据权利要求3所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述步骤(2)中获取 具有跨模态全局特 征的RGB序列向量和热度 序列向量的具体步骤为:
首先, 将RGB序列向量、 热度序列向量乘以其权重矩阵得到Value ’矩阵, 将RGB序列向
量、 热度序列向量进行层标准化, 保持了数据特征分布的稳定性, 能加速模型收敛效果, 将
层标准化后的RGB序列向量、 热度 序列向量与其权 重矩阵相乘得到Query矩阵;
然后, 对层标准化后的RGB序列向量、 热度序列向量进行空间金字塔下采样操作, 进一
步提取序列向量、 热度 序列向量的语义信息;
再将经过空间金字塔下采样的RGB序列向量和热度序列向量进行拼接, 从而融合两种权 利 要 求 书 1/4 页
2
CN 115526862 A
2模态的特 征, 与对应的两种权 重矩阵相乘得到K ey矩阵和Value矩阵;
最后, 将Query矩阵与Key矩阵进行矩阵相乘后并进行逻辑回归, 得到的结果与Value进
行矩阵相乘, 再加上Valu e'矩阵, 最终得到具有跨模态全局特征的RGB序列向量和热度序列
向量。
5.根据权利要求4所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述新颖的跨模态 transformer处 理过程如下 方公式所示:
Q=LN(ERGB)WQ (1),
K=Concat(DW(L N(ERGB)),DW(LN(EThermal)))WK (2),
V=Concat(DW(L N(ERGB)),DW(LN(EThermal)))WV (3),
V′=LN(ERGB)WV' (4),
其中, LN(·)表示层标准化; Concat( ·)表示拼接操作; W表示权重矩阵; DW( ·)表示空
间金字塔下采样操作; V'表示原始的序列向量经过残差连接来保留的更多原始模态信息;
Q、 K、 V分别表示transformer的Query矩阵、 Key矩阵以及Value矩阵; ERGB表示RGB序列向量;
MHA(Q,K,V,V')表示 新颖的跨模态 transformer的多头注意力操作; dk表示缩放因子 。
6.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述步骤(3)的详细流 程为:
将新颖的跨模态transformer提取的具有跨模态全局特征的RGB序列向量, 通过上采样
操作与RGB特征图的空间维数对齐, 再通过卷积核为1 ×1卷积操作将E与RGB特征图的C对
齐, 得到跨模态RGB特征图, 将跨模态RGB特征图与RGB特征图进行像素级相乘得到融合后的
RGB特征图;
同理将新颖的跨模态transformer提取的具有跨模态全局特征的热度序列向量, 通过
上采样操作与热度特征图的空间维数对齐, 再通过卷积核为1 ×1卷积操作将E与热度特征
图的C对齐, 得到跨模态热度特征图, 将跨模态热度特征图与热度特征图进行像素级相乘得
到融合后的RGB特 征图。
7.根据权利要求1所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述步骤(4)的具体流 程为:
从由CNN组成的双分支网络和新颖的跨模态transformer获得的融合后的特征 图被输
入到跨层连接结构, 跨层连接结构通过卷积核为 1的卷积操作调整通道数, 并通过最大池化
操作调整图的空间大小, 得到通道数相同且空间大小相同的各层融合后的特征图, 通过分
支注意力模块增强网络不同层融合后的RGB特征图和融合后的热度特征图的通道信息, 将
这些各层融合后的特征图先调整通道数和空间大小, 再通过分支注意力模块增强网络不同
层融合后的RGB特征图和融合后的热度特征图的通道信息, 最后对通道信息增强的特征图
进行像素级相加, 得到 输出RGB特 征图和输出 热度特征图。
8.根据权利要求7所述的基于CNN和transformer的跨模态人群计数方法, 其特征在于,
所述跨层连接结构中通过分支注意力模块增强网络不同层融合后的RGB特征图和融合后的
热度特征图的通道信息, 具体包括:权 利 要 求 书 2/4 页
3
CN 115526862 A
3
专利 基于CNN和transformer的跨模态人群计数方法
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:35:25上传分享