专利 基于多尺度内容理解的跨模态媒体资源检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210553211.2 (22)申请日 2022.05.19 (71)申请人四川封面传媒科技有限责任公司地址 610020 四川省成都市锦江区红星路二段70号1幢传媒大厦8楼 (72)发明人高登科　徐桢虎　苏忠莹　 (74)专利代理机构成都虹桥专利事务所(普通合伙) 51124 专利代理师吴中伟 (51)Int.Cl. G06F 16/43(2019.01) G06F 16/438(2019.01) G06F 16/45(2019.01) G06F 16/36(2019.01) (54)发明名称基于多尺度内容理解的跨模态媒体资源检索方法 (57)摘要本发明涉及媒体资源检索领域，具体涉及一种基于多尺度内容理解的跨模态媒体资源检索方法。解决了语义鸿沟，极大地提高了检索准确度以及检索效率。本发明基于多尺度内容理解的跨模态媒体资源检索方法，包括：按照设定的规则从多个维度对媒体内容进行理解；对理解的媒体内容进行融合对齐，并存入数据库；对用户的检索内容进行理解并处理；基于用户检索内容理解，从多个维度对媒体内容进行召回；对召回的媒体内容进行排序；在排序后的媒体内容中进行相应筛选。本发明适用于跨模态媒体资源检索。权利要求书2页说明书7页附图6页 CN 114817580 A 2022.07.29 CN 114817580 A 1.基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，包括：步骤1、按照设定的规则从多个维度对媒体内容进行理解；步骤2、对理解的媒体内容进行融合对齐，并存入数据库；步骤3、对用户的检索内容进行理解并处理；步骤4、基于用户检索内容理解，从多个维度对媒体内容进行媒体内容召回；步骤5、对召回的媒体内容进行排序；步骤6、在排序后的媒体内容中进行相应筛选。 2.根据权利要求1所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，所述多个维度包括关键词、实体、主题、场景类别以及事件五个维度。 3.根据权利要求2所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，设定规则具体包括：对关键词构建媒体领域词典、停用词典；对实体，限定实体类型范围，并构建媒体领域实体知识图谱；对主题，设计三级主题标签体系；对场景类别，设计层次化场景类别标签体系；对事件，限定事件类型和元素维度，并构建事件图谱。 4.根据权利要求3所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，所述媒体内容包括文本、图片、视频以及音频；对文本内容理解的具体方法包括：基于集成模型以及领域词典提取关键词信息，基于媒体领域实体抽取模型提取基于媒体领域实体抽取，基于媒体领域训练的主题模型提取主题信息，基于媒体领域场景分类的第一模型分类场景类别，基于联合模型进行句子级别的事件抽取。 5.根据权利要求4所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对图片内容理解的具体方法包括：获取图片在文章内的上下文文本，基于匹配模型，筛选相关匹配文本；通过对文本内容理解的具体方法对筛选的文本进行处理，提取关键词、实体、主题、场景分类、事件信息；同时，对图片，采用基于媒体领域场景分类的第二模型分类场景类别、主题类别，采用基于媒体领域的第三模型抽取目标实体信息。 6.根据权利要求5所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对理解的图片内容进行融合对齐的具体方法包括：对提取的文本关键词融合；对图片实体与文本实体进行实体融合对齐，融合对齐具体包括对图片实体和文本实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；根据输出场景分类概率对图片场景与文本场景进行场景加权，得到场景类别的分布；根据输出主题分类概率对图片主题与文本主题进行主题加权，得到主题类别分布；对图片事件与文本事件进行融合，事件融合具体包括对图片事件和文本事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属实体的权重。 7.根据权利要求6所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对音频内容理解的具体方法包括：将音频数据转换为文本数据，通过对文本内容理解的具体方法对文本数据进行处理，提取关键词、实体、主题、场景分类、事件信息。 8.根据权利要求7所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对视频内容理解的具体方法包括：在视频内容中提取出音频数据，将音频数据转换为文本数据，通过对文本内容理解的权　利　要　求　书 1/2 页 2 CN 114817580 A 2具体方法对文本数据进行处理，提取关键词、实体、主题、场景分类、事件信息；同时，对视频的图片序列，进行帧间聚类抽取关键帧；对关键帧，利用第二模型分类场景类别、主题类别，利用第三模型抽取目标实体信息。 9.根据权利要求8所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对理解的视频内容进行融合对齐的具体方法包括：对音频关键词融合；对图片序列实体和音频实体进行融合对齐，融合对齐的具体方法包括对图片序列实体和音频实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；根据输出主题分类概率对图片序列场景与音频场景进行场景加权，得到场景类别的分布；根据输出主题分类概率对图片序列主题与音频主题进行主题加权，得到主题类别分布；对音频事件与文本事件进行融合，融合具体方法包括对音频事件和文本事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属事件的权重。 10.根据权利要求9所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，对理解的媒体内容进行全局对齐的具体方法包括：对图片序列实体、音频实体、文本实体以及视频实体进行实体对齐，实体对齐的具体方法包括，对图片序列实体、音频实体、文本实体以及视频实体进行分类匹配，确定是否是同一实体或同一类实体，若是则合并到一起并对应增加所属实体的权重；对图片序列事件、音频事件、文本事件以及视频事件进行事件对齐，事件对齐的具体方法包括，对图片序列事件、音频事件、文本事件以及视频事件进行分类匹配，确定是否是同一事件或同一类事件，若是则合并到一起并对应增加所属事件的权重。 11.根据权利要求10所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，步骤3中，对用户的检索内容进行理解并处理具体包括：对用户的检索条件进行划分设计，包括检索内容、检索粒度控制、待检索资源模态；对检索内容进行敏感信息审核，对审核合格的内容基于文本内容理解、图片内容理解、视频内容理解以及音频内容理解进行信息融合。 12.根据权利要求11所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，步骤4中，基于用户检索内容理解，从多个维度对媒体内容进行召回具体包括：基于用户检索内容理解，结合检索粒度，组合关键词、实体、主题、场景以及事件对检索的内容进行召回，同时根据待检索资源模态进行待检索数据库筛选，然后再进行相应召回，最后对召回的结果进行同模态数据的hash去重。 13.根据权利要求11所述的基于多尺度内容理解的跨模态媒体资源检索方法，其特征在于，步骤5中，对召回的媒体内容进行排序具体包括：基于关键词、实体、主题、场景分类、事件等维度特征，引入领域词典、媒体实体知识图谱、媒体事件图谱、预训练词向量、预训练语言模型等外部知识库，构建深宽模型；设定对比学习机制，针对检索条件和召回媒体资源进行排序学习。权　利　要　求　书 2/2 页 3 CN 114817580 A 3

专利 基于多尺度内容理解的跨模态媒体资源检索方法

专利基于多尺度内容理解的跨模态媒体资源检索方法