专利 语音识别模型生成方法、语音交互方法、车辆和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211477169.7 (22)申请日 2022.11.23 (71)申请人广州小鹏汽车科技有限公司地址 510000 广东省广州市天河区岑村松岗大街8号 (72)发明人王庆楠　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师季永杰 (51)Int.Cl. G10L 15/06(2013.01) G10L 15/16(2006.01) G06N 3/04(2006.01) (54)发明名称语音识别模型生成方法、语音交互方法、车辆和存储介质 (57)摘要本发明公开了一种语音识别模型生成方法、语音交互方法、车辆和存储介质。该语音识别模型的生成方法包括：获取训练好的网络模型；将网络模型中的预设算子进行算子替换处理，以将预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在神经处理引擎的语音识别模型。本发明的语音识别模型生成方法通过将训练好的网络模型中的预设算子进行算子替换处理，从而将预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在神经处理引擎的语音识别模型，使得运用该语音识别模型进行语音识别能够达到满意的语音识别效果，实现流式识别的极速对话响应效果。权利要求书2页说明书11页附图8页 CN 115527525 A 2022.12.27 CN 115527525 A 1.一种语音识别模型的生成方法，其特征在于，包括：获取训练好的网络模型；将所述网络模型中的预设算子进行算子替换处理，以将所述预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在所述神经处理引擎的语音识别模型。 2.根据权利要求1所述的语音识别模型的生成方法，其特征在于，所述将所述网络模型中的预设算子进行算子替换处理，以将所述预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在所述神经处理引擎的语音识别模型的步骤，包括：将所述网络模型的处理模块中的多头注意力机制子模块的线性变换算子转换为二维卷积算子；替换所述多头注意力机制子模块的概率归一化单元，以使所述概率归一化单元对每个头的矩阵做概率归一化并拼接得到概率归一化结果；为所述多头注意力机制子模块设置历史缓存向量，以使所述多头注意力机制子模块对输入向量以及历史缓存向量与所述输入向量的拼接结果进行处理得到输出向量。 3.根据权利要求1所述的语音识别模型的生成方法，其特征在于，所述将所述网络模型中的预设算子进行算子替换处理，以将所述预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在所述神经处理引擎的语音识别模型的步骤，包括：将所述网络模型的处理模块中的前馈网络子模块的线性变换算子转换为二维卷积算子；设置第一重排单元对所述前馈网络子模块的输入进行重排；设置第二重排单元对所述前馈网络子模块的输出进行重排。 4.根据权利要求1所述的语音识别模型的生成方法，其特征在于，所述将所述网络模型中的预设算子进行算子替换处理，以将所述预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在所述神经处理引擎的语音识别模型的步骤，包括：设置第三重排单元对所述网络模型的处理模块中的样本标准化子模块的输入进行重排；设置第四重排单元对所述样本标准化子模块的输出进行重排。 5.根据权利要求1所述的语音识别模型的生成方法，其特征在于，在所述获取训练好的网络模型的步骤之前，所述生成方法包括：获取训练语音数据；利用所述训练语音数据对预设模型进行训练得到训练输出数据；根据所述训练语音数据修正所述预设模型的参数得到训练好的所述网络模型。 6.根据权利要求1所述的语音识别模型的生成方法，其特征在于，在所述将所述网络模型中的预设算子进行算子替换处理，以将所述预设算子替换为神经处理引擎支持的算子，从而根据算子替换处理后的网络模型生成用于部署在所述神经处理引擎的语音识别模型的步骤之后，所述生成方法包括：权　利　要　求　书 1/2 页 2 CN 115527525 A 2对所述语音识别模型进行模型量化，以减小所述语音识别模型的占用空间。 7.根据权利要求6所述的语音识别模型的生成方法，其特征在于，所述生成方法还包括：将模型量化后的所述语音识别模型移植部署到采用所述神经处理引擎的车辆。 8.一种语音交互方法，其特征在于，基于权利要求1 ‑7任一项所述的语音识别模型的生成方法生成的语音识别模型，所述语音交互方法包括：获取车辆座舱内用户输入的用户语音数据；利用所述语音识别模型对所述用户语音数据进行处理得到用户语音请求，以完成语音交互。 9.一种车辆，其特征在于，所述车辆包括处理器和存储器，所述存储器上存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求 1‑7任一项所述的语音识别模型的生成方法或权利要求8所述的语音交互方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被一个或多个处理器执行时，实现如权利要求 1‑7任一项所述的语音识别模型的生成方法或权利要求8所述的语音交互方法。权　利　要　求　书 2/2 页 3 CN 115527525 A 3

专利 语音识别模型生成方法、语音交互方法、车辆和存储介质

专利语音识别模型生成方法、语音交互方法、车辆和存储介质