add training details

2026-05-20 05:32:54 +08:00 · 2022-10-13 09:03:22 +00:00
parent fb99b1fea3
commit 1cff12db6b
1 changed files with 14 additions and 4 deletions
--- a/README.md
+++ b/README.md
@ -111,17 +111,27 @@ write('output.wav', 16000, output[OutputKeys.OUTPUT_WAV])
 * 该发音人支持中文及英文混合，TN规则为中文
 * 目前支持发音人zhitian_emo，zhiyan_emo，zhizhe_emo，zhibei_emo

+### 模型局限性以及可能的偏差
+* 该发音人支持中文及英文混合，TN规则为中文
+
 ## 训练数据介绍
-暂无
+使用约10小时数据训练。

 ## 模型训练流程
-暂无
+模型所需训练数据格式为：音频(.wav), 文本标注(.txt), 音素时长标注(.interval),  随机初始化训练要求训练数据规模在2小时以上，对于2小时以下的数据集，需使用多人预训练模型进行参数初始化。其中，AM模型训练时间需要1～2天，Vocoder模型训练时间需要5～7天。

 ### 预处理
-暂无
+模型训练需对音频文件提取声学特征(梅尔频谱)；音素时长根据配置项中的帧长将时间单位转换成帧数；文本标注，根据配置项中的音素集、音调分类、边界分类转换成对应的one-hot编号；

 ## 数据评估及结果
-暂无
+我们使用MOS（Mean Opinion Score)来评估合成声音的自然度，评分从1（不好）到5（非常好），每提高0.5分表示更高的自然度。我们会随机选择20个samples，然后每个sample交给至少10个人进行打分。作为对比，我们会使用真人录音的sample通过上述统计方式进行打分。
+
+
+|    MOS     |  angry | fear |  happy  | hate | neural | sad | surprise | average|
+|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
+| recording   |   4.684    |   4.616   | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
+| ours | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 |
+

 ## 引用
 如果你觉得这个该模型对有所帮助，请考虑引用下面的相关的论文：