From 1cff12db6b54bec6814bdbe47b84c8c2671dd440 Mon Sep 17 00:00:00 2001 From: speech_tts Date: Thu, 13 Oct 2022 09:03:22 +0000 Subject: [PATCH] add training details --- README.md | 18 ++++++++++++++---- 1 file changed, 14 insertions(+), 4 deletions(-) diff --git a/README.md b/README.md index e090917..221122b 100644 --- a/README.md +++ b/README.md @@ -111,17 +111,27 @@ write('output.wav', 16000, output[OutputKeys.OUTPUT_WAV]) * 该发音人支持中文及英文混合,TN规则为中文 * 目前支持发音人zhitian_emo,zhiyan_emo,zhizhe_emo,zhibei_emo +### 模型局限性以及可能的偏差 +* 该发音人支持中文及英文混合,TN规则为中文 + ## 训练数据介绍 -暂无 +使用约10小时数据训练。 ## 模型训练流程 -暂无 +模型所需训练数据格式为:音频(.wav), 文本标注(.txt), 音素时长标注(.interval), 随机初始化训练要求训练数据规模在2小时以上,对于2小时以下的数据集,需使用多人预训练模型进行参数初始化。其中,AM模型训练时间需要1~2天,Vocoder模型训练时间需要5~7天。 ### 预处理 -暂无 +模型训练需对音频文件提取声学特征(梅尔频谱);音素时长根据配置项中的帧长将时间单位转换成帧数;文本标注,根据配置项中的音素集、音调分类、边界分类转换成对应的one-hot编号; ## 数据评估及结果 -暂无 +我们使用MOS(Mean Opinion Score)来评估合成声音的自然度,评分从1(不好)到5(非常好),每提高0.5分表示更高的自然度。我们会随机选择20个samples,然后每个sample交给至少10个人进行打分。作为对比,我们会使用真人录音的sample通过上述统计方式进行打分。 + + +| MOS | angry | fear | happy | hate | neural | sad | surprise | average| +|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:| +| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 | +| ours | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 | + ## 引用 如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文: