DB34-T 3609-2020 儿童语音测试集技术规范安徽省 -在线下载 -AI解读-dfbzw.top

ICS 35.240.01 L 71 DB34 安徽省地方标准 DB 34/T 3609—2020 儿童语音测试集技术规范 Technical specification for the speech test set of children 文稿版次选择 2020 - 06 - 22 发布安徽省市场监督监管局 2020 - 07 - 22 实施发布 DB34/T 3609—2020 前言本标准按照 GB/T 1.1-2009 给出的规则起草。本标准由安徽淘云科技有限公司提出。本标准由安徽省信息技术标准化技术委员会归口。本标准起草单位：安徽淘云科技有限公司、科大讯飞股份有限公司、安徽省科普产品工程研究中心有限责任公司、安徽省宣城市泾县城关第二小学、安徽省宣城市泾县城关第三小学、安徽省合肥高新创新实验小学。本标准主要起草人：刘庆升、王晓斐、吕途、盛守卓、叶娟、马万钟、孙艳、方明、陈连花、吴娟、卫小根。 I DB34/T 3609—2020 儿童语音测试集技术规范 1 范围本标准规定了儿童语音测试集的术语和定义、要求和结果报告。本标准适用于儿童语音测试集的技术规范管理。 2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件，仅所注日期的版本适用于本文件。凡是不注日期的引用文件，其最新版本（包括所有的修改单）适用于本文件。 GB/T 21023 中文语音识别系统通用技术规范 GB/T 21024 中文语音合成系统通用技术规范 GB/T 34083 中文语音识别互联网服务接口规范 GB/T 34145 中文语音合成互联网服务接口规范 GB/T 36464.2 信息技术智能语音交互系统第2部分：智能家居 SJ/T 11380 自动声纹（说话人识别）技术规程 3 术语和定义 GB/T 36464.2、GB/T 21023、GB/T 21024、GB/T 34083、SJ/T 11380 界定的术语和定义以及下列术语和定义适用于本文件。 3.1 近场 near field 拾音设备与声源距离 1 m（含）之内。 3.2 远场 far field 拾音设备与声源距离在 1 m 之外。 3.3 测试集 test set 在机器学习中，是用来测试儿童语音设备语音交互性能的标准样的集合。 3.4 验证集 validation set 1 DB34/T 3609—2020 在机器学习中，是用来挑选最优模型的样本集合。 3.5 训练集 train set 在机器学习中，是用来训练模型的样本集合。 4 要求 4.1 基本能力管理 4.1.1 语音唤醒至少应包括： a) 声压在 50 dB(A) 环境中，近场情况下语音唤醒成功率≥95％；远场情况下语音唤醒成功率大于或等于 85％；误唤醒频度应≤0.2 次/h； b) 声压在 60 dB(A)～ 65 dB(A)环境中，近场情况下语音唤醒成功率大于或等于 85％；远场情况下语音唤醒成功率大于或等于 65％，误唤醒频度应≤0.1 次/h。 4.1.2 声纹识别其中： a) 可根据声纹识别结果，实现对不同身份用户的差异化反馈； b) 声纹识别错误率应≤10％，错误接受率应≤5％。 4.1.3 语音识别至少应包括： a) 识别引擎支持近场音频处理，支持远场音频处理，支持命令词识别、连续语音识别中的一种； b) 声压在 50 dB(A)以下环境中，语音识别句识别正确率应≥85％； c) 声压在 60 dB(A)～ 65 dB(A)环境中，语音识别句识别正确率应≥80％； d) 识别引擎应支持童声识别，在同样场景下的儿童识别率跟成人相比的差值在 2％以内； e) 识别引擎支持连续语音识别的时候应可以同时支持文字和拼音输出。 4.1.4 语义理解至少应包括： a) 对儿童说话过程中容易出现的重复和乱序也较强的适应性； b) 能够支持上下文关联的连续对话； c) 能够支持个性化语义； d) 能够支持跟用户相关的个性化知识图谱。 4.1.5 语音合成语音合成应支持汉语普通话，宜支持英语或其他语种，宜支持多音色合成和个性化合成，宜支持情感合成，至少应包括： a) 多音色，支持女童声和男童声； b) 多情感，支持自然、高兴和悲伤的情感； 2 DB34/T 3609—2020 c) d) e) f) 4.1.6 支持汉语普通话；混合语种，支持中英文混读；多语种，支持英语；平均意见得分。交互成功率其中： a) 声压在 50 dB(A)以下环境，交互成功率应≥90％； b) 声压在 60 dB(A)～ 65 dB(A)环境中，交互成功率应≥80％； c) 应全面覆盖儿童日常学习、娱乐等日常交互行为的语义意图理解。 4.1.7 响应时间平均响应时间应≤1.5 s。 4.2 输入准则和输出准则 4.2.1 输入准则儿童语音交互引擎输入准则至少应包括： a) 支持汉语普通话输入，宜支持英语； b) 可处理语音输入为 60 字/min～300 字/min 的语速，单次语音输入时长不应超过 30 s，特殊情况下不超过 60 s； c) 发音单元的持续时间应≥0.2 s，发音单元间的间隔应≤2 s；停顿时间超过 2 s，则认为一次语音输入结束； d) 对于持续时间大于 0.2 s 的语音输入，在小于 60 dB(A)的环境、信噪比≥10 dB 的背景环境条件下，应符合识别率和互动成功率的要求； e) 文本中的汉字字符（包括数字、电话号码、标点符号），其朗读方法执行 GB/T 21023 的规定。 4.2.2 输出准则合成音频格式及要求执行 GB/T 34145 的规定。 4.3 测试设备音频采样设备、传声器、回放设备需要满足高保真要求。 4.4 测试环境 4.4.1 被测语音交互系统部署被测语音交互系统，应确保被测系统具有语音拾音功能，可通过对话方式对其进行控制和交互。 4.4.2 被测系统网络环境针对儿童陪伴机器人领域的语音交互系统，应提供其所需的移动互联网服务，网络条件应满足上行带宽不低于 100 kbit/s、下行带宽不低于 50 kbit/s，应保持稳定的连通状态。 4.4.3 远场拾音距离测试所描述远场拾音距离默认为 3 m。 3 DB34/T 3609—2020 4.4.4 测试场景典型的环境噪声的录音场景见表1。表1 场景家居环境编号场景1 场景2 4.5 声压 50 dB(A)以下声压 60 dB(A)～65 dB(A) 房间门窗典型的环境噪声的录音场景电视传声器处的空调环境混响要求信噪传声器处的环境噪声比声压级 dB dB(A) 备注关关关混响时间 0.65 s 15 ≤45 必备开开开混响时间 0.65 s 10 45~60 可选样本覆盖度测试集的样本覆盖度见表2。表2 序号项目 1 语音唤醒样本覆盖度样本覆盖度 a)应包含儿童、中青年、老年人的比例以及男女比例； b)应包含近场、远场距离下的数据比例； 2 声纹识别 c) 应包含声压在 50 dB(A)以下环境和声压在 60 dB(A)～ 65 dB(A)环境中的数据比例； d) 应包含不同音量数据样本的比例； 3 语音识别 a) 应包含儿童、中青年、老年人的比例以及男女比例； b) 应包含近场、远场距离下的数据比例； c) 应包含声压在 50 dB(A)以下环境和声压在60 dB(A)～ 65 dB(A)环境中的数据比例； d) 应包含不同音量数据样本的比例； 4 语义理解 e) 应包含不同应用场景下文本数据的比例； f) 应包含不同语音长度数据的比例； g) 对于文本中的分汉字字符，包括数字、电话号码、标点符号，其朗读方法执行 GB/T 21023 的规定。 a)测试集自然语言文本中应含有汉语多音字； b)测试集文本中应包含有电话号码； 5 语音合成 c)测试集文本中应包含有英文文本； d)测试集文本中应包含有中英文混合文本； e)测试集文本中应包含有小学课文、成语、诗词、人名等特定领域的词语； f)测试集文本中应包含有标注数据，验证人工干预的性能。 5 结果报告按照测试集技术规范形成的结果报告至少应该包含以下内容： a) 语音唤醒正确率； b) 语音唤醒误唤醒频度； c) 声纹识别正确率； d) 声纹识别错误拒绝率； 4 DB34/T 3609—2020 e) f) g) h) i) j) 声纹识别错误识别率；语音识别句识别率；语音合成平均意见得分；在线平均响应时间；离线平均响应时间；交互成功率。 _________________________________ 5

DB34-T 3609-2020 儿童语音测试集技术规范 安徽省

DB34-T 3609-2020 儿童语音测试集技术规范安徽省