说明:收录各省市地方标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210889973.X (22)申请日 2022.07.27 (71)申请人 北京中电慧声科技有限公司 地址 100015 北京市朝阳区酒仙桥北路乙 七号 申请人 中国电子科技 集团公司第三研究所 (72)发明人 田野 汤跃忠 张晓灿 陈云坤 陈骁 (74)专利代理 机构 北京天盾知识产权代理有限 公司 11421 专利代理师 姜有保 (51)Int.Cl. G06T 13/40(2011.01) G06F 3/0484(2022.01) G06V 20/40(2022.01)G06V 40/16(2022.01) G06F 40/35(2020.01) G06F 16/36(2019.01) G06F 16/332(2019.01) G06N 3/08(2006.01) G10L 15/16(2006.01) G10L 15/26(2006.01) G10L 21/0208(2013.01) G10L 25/63(2013.01) (54)发明名称 生成虚拟形象的方法、 装置、 电子设备和计 算机可读介质 (57)摘要 本公开的实施例公开了生成虚拟形象的方 法、 装置、 设备和介质。 该方法的一具体实施方式 包括: 显示第一展示界面; 根据选择操作确定虚 拟形象信息; 获取用户视频和用户音频; 对用户 视频和用户音频进行特征提取, 得到视频特征和 音频特征; 根据视频特征和音频特征生成目标文 本; 根据目标文本和虚拟形象信息, 生成目标虚 拟形象。 该实施方式使生成的虚拟形象更加饱 满, 更加符合用户喜好, 对于用户来说更加亲近, 实现了虚拟数字形象 的真实感的提升, 并为用户 带来更好的情感抚慰和心理疏导。 权利要求书2页 说明书9页 附图3页 CN 115222857 A 2022.10.21 CN 115222857 A 1.一种用于生成虚拟形象的方法, 包括: 显示第一展示界面, 其中, 所述第一展示界面包括形象控 件、 音色控 件; 响应于检测到用户在所述第 一展示界面中针对目标控件的选择操作, 根据所述选择操 作确定虚拟形象信息; 获取用户视频和用户音频; 对所述用户视频和所述用户音频进行 特征提取, 得到 视频特征和音频 特征; 根据所述视频 特征和所述音频 特征生成目标文本; 根据所述目标文本和所述虚拟形象信息, 生成目标虚拟形象。 2.根据权利要求1所述的方法, 其中, 所述对所述用户视频和所述用户音频进行特征提 取包括以下步骤: 对所述用户音频进行降噪处 理, 得到降噪音频; 将所述降噪音频输入至预先训练的音频识别模型, 得到所述降噪音频对应的音频特 征。 3.根据权利要求2所述的方法, 其中, 所述音频识别模型是采用多口音共性声学特征共 享、 声学模型训练网络参数共享、 迁移学习 、 半监督训练的方法训练得到的。 4.根据权利要求1所述的方法, 其中, 所述根据所述视频特征和所述音频特征生成 目标 文本包括以下步骤: 利用预先训练的TextCN N模型对所述音频 特征进行特征提取, 得到文本特 征; 利用预先训练的Vision Transformer模型对所述视频特征进行特征提取, 得到图像特 征; 通过预先训练的深度网络将所述文本特征、 所述音频特征和所述图像特征进行融合, 得到用户情感特 征; 根据所述用户情感特 征和所述音频 特征生成目标文本 。 5.根据权利要求4所述的方法, 其中, 所述根据所述用户情感特征和所述音频特征生成 目标文本包括以下步骤: 构建心理学知识图谱和用户信息图谱; 将所述心理学知识图谱、 所述用户信息 图谱、 所述音频特征和所述用户情感特征输入 至预先训练的文本生成模型, 得到目标文本, 其中, 所述文本生成模型是利用GPT方法对自 编码器进行训练得到的。 6.根据权利要求 4所述的方法, 其中, 所述方法还 包括: 判断所述用户情感特 征是否满足预设条件, 以及 若所述用户情感特征满足预设条件, 则将用户情感特征信息、 所述用户视频和所述用 户音频发送至目标设备。 7.一种用于生成虚拟形象的装置, 包括: 显示单元, 被配置成显示第一展示界面, 其中, 所述第一展示界面包括形象控件、 音色 控件; 确定单元, 被配置成响应于检测到用户在所述第 一展示界面中针对目标控件的选择操 作, 根据所述选择操作确定虚拟形象信息; 音视频获取 单元, 被配置成获取用户视频和用户音频;权 利 要 求 书 1/2 页 2 CN 115222857 A 2特征提取单元, 被配置成对所述用户视频和所述用户音频进行特征提取, 得到视频特 征和音频 特征; 目标文本生成单 元, 被配置成根据所述视频 特征和所述音频 特征, 生成目标文本; 虚拟形象生成单元, 被配置成根据所述目标文本和所述虚拟形象信息, 生成目标虚拟 形象。 8.根据权利要求7 所述的装置, 其中, 所述目标文本生成单 元被配置成执 行以下步骤: 利用预先训练的TextCN N模型对所述音频 特征进行特征提取, 得到文本特 征; 利用预先训练的Vision Transformer模型对所述视频特征进行特征提取, 得到图像特 征; 通过预先训练的深度网络将所述文本特征、 所述音频特征和所述图像特征进行融合, 得到用户情感特 征; 根据所述用户情感特 征和所述音频 特征生成目标文本 。 9.一种电子设备, 包括: 一个或多个处 理器; 存储装置, 其上存 储有一个或多个 计算机程序, 当所述一个或多个计算机程序被所述一个或多个处理器执行时, 实现如权利要求1 ‑6 中任一所述的方法。 10.一种计算机可读介质, 其上存储有计算机程序, 其中, 所述计算机程序被执行时实 现如权利要求1 ‑6中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 115222857 A 3
专利 生成虚拟形象的方法、装置、电子设备和计算机可读介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 11:00:27
上传分享
举报
下载
原文档
(527.3 KB)
分享
友情链接
GB-T 7771-2008 特殊同色异谱指数的测定 改变照明体.pdf
GB-T 30281-2013 信息安全技术 鉴别与授权 可扩展访问控制标记语言.pdf
GB-T 22151-2008 国际货运代理作业规范.pdf
T-GDTA 005—2023 粤地优品 评价通用要求.pdf
ISO IEC TS 25058 2024 Systems and software engineering — Systems a.pdf
T-CRHA 015—2023 成人经鼻高流量氧疗护理规范.pdf
GB-T 13389-2014 掺硼掺磷掺砷硅单晶电阻率与掺杂剂浓度换算规程.pdf
JR-T0120_3-2016 银行卡受理终端安全规范 第3部分:自助终端.pdf
GB-T 30921.5-2016 工业用精对苯二甲酸 PTA 试验方法 第5部分:酸值的测定.pdf
GB-T 26019-2010 高杂质钨矿化学分析方法 三氧化钨量的测定 二次分离灼烧重量法.pdf
DB65-T 3253-2020 建筑消防设施质量检测评定规程 新疆维吾尔自治区.pdf
专利 一种API接口安全验证处理方法及装置.PDF
T-SHDZ 001—2023 浅层地下水环境监测井建设技术标准.pdf
GB-T 230.1-2018 金属材料 洛氏硬度试验 第1部分 试验方法.pdf
商用密码应用与安全性评估-电子版.pdf
T-GZBZ 33—2022 事故多发道路判别与改善技术指南.pdf
GB-T 19113-2022 桑蚕鲜茧分级 茧层量法.pdf
炼石图解-网络数据安全风险评估实施指引V1.0.pdf
NY-T 1281-2007 花卉植物真菌病害检测规程.pdf
人工智能语言对话大模型合集.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(527.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。