说明:收录各省市地方标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210553211.2 (22)申请日 2022.05.19 (71)申请人 四川封面传媒科技有限责任公司 地址 610020 四川省成 都市锦江区红星路 二段70号1幢传媒大厦8楼 (72)发明人 高登科 徐桢虎 苏忠莹  (74)专利代理 机构 成都虹桥专利事务所(普通 合伙) 51124 专利代理师 吴中伟 (51)Int.Cl. G06F 16/43(2019.01) G06F 16/438(2019.01) G06F 16/45(2019.01) G06F 16/36(2019.01) (54)发明名称 基于多尺度内容理解的跨模态媒体资源检 索方法 (57)摘要 本发明涉及媒体 资源检索领域, 具体涉及一 种基于多尺度内容理解的跨模态媒体资源检索 方法。 解决了语义鸿沟, 极大地提高了检索准确 度以及检索效率。 本发明基于多尺度内容理解的 跨模态媒体资源检索方法, 包括: 按照设定的规 则从多个维度对媒体内容进行 理解; 对理解的媒 体内容进行融合对齐, 并存入数据库; 对用户的 检索内容进行理解并处理; 基于用户检索内容理 解, 从多个维度对媒体内容进行召回; 对召回的 媒体内容进行排序; 在排序后的媒体内容中进行 相应筛选。 本发明适用于跨模态媒体资源检索。 权利要求书2页 说明书7页 附图6页 CN 114817580 A 2022.07.29 CN 114817580 A 1.基于多尺度内容理解的跨模态媒体资源检索方法, 其特 征在于, 包括: 步骤1、 按照设定的规则从多个维度对媒体内容进行理解; 步骤2、 对理解的媒体内容进行融合对齐, 并存 入数据库; 步骤3、 对用户的检索内容进行理解并处 理; 步骤4、 基于用户检索内容理解, 从多个维度对媒体内容进行媒体内容召回; 步骤5、 对召回的媒体内容进行排序; 步骤6、 在排序后的媒体内容中进行相应筛 选。 2.根据权利要求1所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 所述多个维度包括关键词、 实体、 主题、 场景类别以及事 件五个维度。 3.根据权利要求2所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 设定规则具体包括: 对关键词构建媒体领域词典、 停用词典; 对实体, 限定实体类型范 围, 并构建媒体领域 实体知识图谱; 对主题, 设计三级主题标签体系; 对场景类别, 设计层次 化场景类别标签 体系; 对事件, 限定事 件类型和元 素维度, 并构建事 件图谱。 4.根据权利要求3所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 所述媒体内容包括文本、 图片、 视频以及 音频; 对文本内容理解的具体方法包括: 基于集 成模型以及领域词典提取关键词信息, 基于媒体领域 实体抽取模型提取基于媒体领域实体 抽取, 基于媒体领域训练的主题模型提取主题信息, 基于媒体领域场景分类的第一模型分 类场景类别, 基于联合模型进行句子级别的事 件抽取。 5.根据权利要求4所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 对图片内容理解的具体方法包括: 获取图片在文章内的上 下文文本, 基于匹配模型, 筛 选相关匹配文本; 通过对文本内容理解的具体方法对筛选的文本进行处理, 提取关键词、 实体、 主题、 场 景分类、 事件信息; 同时, 对图片, 采用基于媒体领域场景分类的第二模 型分类场景类别、 主 题类别, 采用基于媒体领域的第三模型抽取目标实体信息 。 6.根据权利要求5所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 对理解的图片内容进行融合对齐的具体方法包括: 对提取的文本关键词融合; 对图片实体与文本实体进行实体融合对齐, 融合对齐具体 包括对图片实体和文本实体进行分类匹配, 确定是否是同一实体或同一类实体, 若是则合 并到一起并对应增加所属实体的权重; 根据输出场景分类概率对图片场景与文本场景进 行 场景加权, 得到场景类别的分布; 根据输出主题分类概率对图片主题与文本主题进行主题 加权, 得到主题类别分布; 对图片事件与文本事件进 行融合, 事件融合具体包括对图片事件 和文本事件进行分类匹配, 确定是否是同一事件或同一类事件, 若是则合并到一起并对应 增加所属实体的权 重。 7.根据权利要求6所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 对音频内容理解的具体方法包括: 将音频数据转换为文本数据, 通过对文本内容理解的 具体方法对文本数据进行处 理, 提取关键词、 实体、 主题、 场景分类、 事 件信息。 8.根据权利要求7所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 对视频内容理解的具体方法包括: 在视频内容中提取出音频数据, 将音频数据转换为文本数据, 通过对文本内容理解的权 利 要 求 书 1/2 页 2 CN 114817580 A 2具体方法对文本数据进 行处理, 提取关键词、 实体、 主题、 场景分类、 事件信息; 同时, 对视频 的图片序列, 进 行帧间聚类抽取关键帧; 对关键帧, 利用第二模型分类场景类别、 主题类别, 利用第三模型抽取目标实体信息 。 9.根据权利要求8所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 对理解的视频内容进行融合对齐的具体方法包括: 对音频关键词融合; 对图片序列实体和音频实体进行融合对齐, 融合对齐的具体方法 包括对图片序列实体和音频实体进行分类匹配, 确定是否是同一实体或同一类实体, 若是 则合并到一起并对应增加所属实体的权重; 根据输出主题分类概率对图片序列场景与音频 场景进行场景加权, 得到场景类别的分布; 根据输出主题分类概率对图片序列主题与音频 主题进行主题加权, 得到主题类别分布; 对音频事件与文本事件进 行融合, 融合具体方法包 括对音频事件和文本事件进行分类匹配, 确定是否是同一事件或同一类事件, 若是则合并 到一起并对应增 加所属事 件的权重。 10.根据权利要求9所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征在 于, 对理解的媒体内容进行全局对齐的具体方法包括: 对图片序列实体、 音频实体、 文本实体以及视频实体进行实体对齐, 实体对齐的具体方 法包括, 对图片序列实体、 音频实体、 文本实体以及视频实体进行分类匹配, 确定是否是同 一实体或同一类实体, 若是则合并到一 起并对应增 加所属实体的权 重; 对图片序列事件、 音频事件、 文本事件以及视频事件进行事件对齐, 事件对齐的具体方 法包括, 对图片序列事件、 音频事件、 文本事件以及视频事件进行分类匹配, 确定是否是同 一事件或同一类事 件, 若是则合并到一 起并对应增 加所属事 件的权重。 11.根据权利要求10所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征 在于, 步骤3中, 对用户的检索内容进行理解并处 理具体包括: 对用户的检索条件进行划分 设计, 包括检索内容、 检索粒度控制、 待检索资源 模态; 对检索内容进行敏感信 息审核, 对审核合格的内容基于文本内容理解、 图片内容理解、 视频内容理解以及音频内容理解进行信息融合。 12.根据权利要求11所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征 在于, 步骤4中, 基于用户检索内容理解, 从多个维度对媒体内容进行召回具体包括: 基于用户检索内容理解, 结合检索粒度, 组合关键词、 实体、 主题、 场景以及事件对检索 的内容进 行召回, 同时根据待检索资源模态进行待检索数据库筛选, 然后再进 行相应召回, 最后对召回的结果进行同模态数据的hash去重 。 13.根据权利要求11所述的基于多尺度内容理解的跨模态媒体资源检索方法, 其特征 在于, 步骤5中, 对召回的媒体内容进行排序具体包括: 基于关键词、 实体、 主题、 场景分类、 事件等维度特征, 引 入领域词典、 媒体实体知识图 谱、 媒体事件图谱、 预训练词向量、 预训练语言模 型等外部知识库, 构建深 宽模型; 设定对比 学习机制, 针对检索条件和召回媒体资源进行排序学习。权 利 要 求 书 2/2 页 3 CN 114817580 A 3

.PDF文档 专利 基于多尺度内容理解的跨模态媒体资源检索方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多尺度内容理解的跨模态媒体资源检索方法 第 1 页 专利 基于多尺度内容理解的跨模态媒体资源检索方法 第 2 页 专利 基于多尺度内容理解的跨模态媒体资源检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:58:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。