ShowDoc

Chivox API Doc

驰声语音评测技术概述

驰声语音技术源于剑桥大学,采用了国际公认最先进的基于统计语音模型的语音评测技术,其评估

稳定性和准确性方面遥遥领先。

驰声研究语音技术的方式和方法,应用的是基于统计模型的方法。通过大量标准发音(统计比例覆

盖多个年龄层、性别、区域等 )按照源于剑桥大学的先进算法，训练计算机形成发音模型，经过

这样的大量的训练和提炼，从而得到声音特征或者说本质，就是我们所说的发音模型。

当学习者的发音输入进来，计算机先提取相应特征,将之与训练的发音模型做比较。根据差异的不

同,从而评估发音好坏。最后体现出来的分数,是拟合相应的多名专家评分得到的评测模型实现的。

评测模型是请多名专家针对其建议的取样进行评分后进行训模得到的。基于统计模型的这种方法,

学习者的发音不是和某一个具体的标准录音做比较，而是客观地评估了学习者的发音水平。

评测流程介绍

整个评分过程中,驰声SDK将应用端需要评测的参数(文本，音频),传送给计算服务器(内核),计算

服务器将计算的评测结果返回给SDK，最终SDK将评测结果返回给应用端。

专业术语说明

SDK:为了方便开发者,为特定的硬件平台、操作系统、软件框架等提供接口API的一些文件的集合。

内核:是最核心的基础服务和语音评测算法部分,决定评测使用的算法类型、最大评测时长。

Provision:驰声发放的信任和许可文件，识别客户身份，防止语音技术被盗用。

资源包：内核在运行时所依赖的数据、字典等经过加密和打包后的带有版本属性的资源文件。