专利 生成虚拟形象的方法、装置、电子设备和计算机可读介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210889973.X (22)申请日 2022.07.27 (71)申请人北京中电慧声科技有限公司地址 100015 北京市朝阳区酒仙桥北路乙七号申请人中国电子科技集团公司第三研究所 (72)发明人田野　汤跃忠　张晓灿　陈云坤　陈骁　 (74)专利代理机构北京天盾知识产权代理有限公司 11421 专利代理师姜有保 (51)Int.Cl. G06T 13/40(2011.01) G06F 3/0484(2022.01) G06V 20/40(2022.01)G06V 40/16(2022.01) G06F 40/35(2020.01) G06F 16/36(2019.01) G06F 16/332(2019.01) G06N 3/08(2006.01) G10L 15/16(2006.01) G10L 15/26(2006.01) G10L 21/0208(2013.01) G10L 25/63(2013.01) (54)发明名称生成虚拟形象的方法、装置、电子设备和计算机可读介质 (57)摘要本公开的实施例公开了生成虚拟形象的方法、装置、设备和介质。该方法的一具体实施方式包括：显示第一展示界面；根据选择操作确定虚拟形象信息；获取用户视频和用户音频；对用户视频和用户音频进行特征提取，得到视频特征和音频特征；根据视频特征和音频特征生成目标文本；根据目标文本和虚拟形象信息，生成目标虚拟形象。该实施方式使生成的虚拟形象更加饱满，更加符合用户喜好，对于用户来说更加亲近，实现了虚拟数字形象的真实感的提升，并为用户带来更好的情感抚慰和心理疏导。权利要求书2页说明书9页附图3页 CN 115222857 A 2022.10.21 CN 115222857 A 1.一种用于生成虚拟形象的方法，包括：显示第一展示界面，其中，所述第一展示界面包括形象控件、音色控件；响应于检测到用户在所述第一展示界面中针对目标控件的选择操作，根据所述选择操作确定虚拟形象信息；获取用户视频和用户音频；对所述用户视频和所述用户音频进行特征提取，得到视频特征和音频特征；根据所述视频特征和所述音频特征生成目标文本；根据所述目标文本和所述虚拟形象信息，生成目标虚拟形象。 2.根据权利要求1所述的方法，其中，所述对所述用户视频和所述用户音频进行特征提取包括以下步骤：对所述用户音频进行降噪处理，得到降噪音频；将所述降噪音频输入至预先训练的音频识别模型，得到所述降噪音频对应的音频特征。 3.根据权利要求2所述的方法，其中，所述音频识别模型是采用多口音共性声学特征共享、声学模型训练网络参数共享、迁移学习、半监督训练的方法训练得到的。 4.根据权利要求1所述的方法，其中，所述根据所述视频特征和所述音频特征生成目标文本包括以下步骤：利用预先训练的TextCN N模型对所述音频特征进行特征提取，得到文本特征；利用预先训练的Vision Transformer模型对所述视频特征进行特征提取，得到图像特征；通过预先训练的深度网络将所述文本特征、所述音频特征和所述图像特征进行融合，得到用户情感特征；根据所述用户情感特征和所述音频特征生成目标文本。 5.根据权利要求4所述的方法，其中，所述根据所述用户情感特征和所述音频特征生成目标文本包括以下步骤：构建心理学知识图谱和用户信息图谱；将所述心理学知识图谱、所述用户信息图谱、所述音频特征和所述用户情感特征输入至预先训练的文本生成模型，得到目标文本，其中，所述文本生成模型是利用GPT方法对自编码器进行训练得到的。 6.根据权利要求 4所述的方法，其中，所述方法还包括：判断所述用户情感特征是否满足预设条件，以及若所述用户情感特征满足预设条件，则将用户情感特征信息、所述用户视频和所述用户音频发送至目标设备。 7.一种用于生成虚拟形象的装置，包括：显示单元，被配置成显示第一展示界面，其中，所述第一展示界面包括形象控件、音色控件；确定单元，被配置成响应于检测到用户在所述第一展示界面中针对目标控件的选择操作，根据所述选择操作确定虚拟形象信息；音视频获取单元，被配置成获取用户视频和用户音频；权　利　要　求　书 1/2 页 2 CN 115222857 A 2特征提取单元，被配置成对所述用户视频和所述用户音频进行特征提取，得到视频特征和音频特征；目标文本生成单元，被配置成根据所述视频特征和所述音频特征，生成目标文本；虚拟形象生成单元，被配置成根据所述目标文本和所述虚拟形象信息，生成目标虚拟形象。 8.根据权利要求7 所述的装置，其中，所述目标文本生成单元被配置成执行以下步骤：利用预先训练的TextCN N模型对所述音频特征进行特征提取，得到文本特征；利用预先训练的Vision Transformer模型对所述视频特征进行特征提取，得到图像特征；通过预先训练的深度网络将所述文本特征、所述音频特征和所述图像特征进行融合，得到用户情感特征；根据所述用户情感特征和所述音频特征生成目标文本。 9.一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行时，实现如权利要求1 ‑6 中任一所述的方法。 10.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被执行时实现如权利要求1 ‑6中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115222857 A 3

专利 生成虚拟形象的方法、装置、电子设备和计算机可读介质

专利生成虚拟形象的方法、装置、电子设备和计算机可读介质