From 1cff12db6b54bec6814bdbe47b84c8c2671dd440 Mon Sep 17 00:00:00 2001
From: speech_tts <speech_tts@default.org>
Date: Thu, 13 Oct 2022 09:03:22 +0000
Subject: [PATCH] add training details

---
 README.md | 18 ++++++++++++++----
 1 file changed, 14 insertions(+), 4 deletions(-)

diff --git a/README.md b/README.md
index e090917..221122b 100644
--- a/README.md
+++ b/README.md
@@ -111,17 +111,27 @@ write('output.wav', 16000, output[OutputKeys.OUTPUT_WAV])
 * 该发音人支持中文及英文混合，TN规则为中文
 * 目前支持发音人zhitian_emo，zhiyan_emo，zhizhe_emo，zhibei_emo
 
+### 模型局限性以及可能的偏差
+* 该发音人支持中文及英文混合，TN规则为中文
+
 ## 训练数据介绍
-暂无
+使用约10小时数据训练。
 
 ## 模型训练流程
-暂无
+模型所需训练数据格式为：音频(.wav), 文本标注(.txt), 音素时长标注(.interval),  随机初始化训练要求训练数据规模在2小时以上，对于2小时以下的数据集，需使用多人预训练模型进行参数初始化。其中，AM模型训练时间需要1～2天，Vocoder模型训练时间需要5～7天。
 
 ### 预处理
-暂无
+模型训练需对音频文件提取声学特征(梅尔频谱)；音素时长根据配置项中的帧长将时间单位转换成帧数；文本标注，根据配置项中的音素集、音调分类、边界分类转换成对应的one-hot编号；
 
 ## 数据评估及结果
-暂无
+我们使用MOS（Mean Opinion Score)来评估合成声音的自然度，评分从1（不好）到5（非常好），每提高0.5分表示更高的自然度。我们会随机选择20个samples，然后每个sample交给至少10个人进行打分。作为对比，我们会使用真人录音的sample通过上述统计方式进行打分。
+
+
+|    MOS     |  angry | fear |  happy  | hate | neural | sad | surprise | average|
+|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
+| recording   |   4.684    |   4.616   | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
+| ours | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 |
+
 
 ## 引用
 如果你觉得这个该模型对有所帮助，请考虑引用下面的相关的论文：