add training details

This commit is contained in:
speech_tts
2022-10-13 09:03:22 +00:00
parent fb99b1fea3
commit 1cff12db6b

View File

@ -111,17 +111,27 @@ write('output.wav', 16000, output[OutputKeys.OUTPUT_WAV])
* 该发音人支持中文及英文混合TN规则为中文
* 目前支持发音人zhitian_emozhiyan_emozhizhe_emozhibei_emo
### 模型局限性以及可能的偏差
* 该发音人支持中文及英文混合TN规则为中文
## 训练数据介绍
暂无
使用约10小时数据训练。
## 模型训练流程
暂无
模型所需训练数据格式为:音频(.wav), 文本标注(.txt), 音素时长标注(.interval), 随机初始化训练要求训练数据规模在2小时以上对于2小时以下的数据集需使用多人预训练模型进行参数初始化。其中AM模型训练时间需要12天Vocoder模型训练时间需要57天。
### 预处理
暂无
模型训练需对音频文件提取声学特征(梅尔频谱)音素时长根据配置项中的帧长将时间单位转换成帧数文本标注根据配置项中的音素集、音调分类、边界分类转换成对应的one-hot编号
## 数据评估及结果
暂无
我们使用MOSMean Opinion Score)来评估合成声音的自然度评分从1不好到5非常好每提高0.5分表示更高的自然度。我们会随机选择20个samples然后每个sample交给至少10个人进行打分。作为对比我们会使用真人录音的sample通过上述统计方式进行打分。
| MOS | angry | fear | happy | hate | neural | sad | surprise | average|
|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
| ours | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 |
## 引用
如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文: