mirror of
https://www.modelscope.cn/iic/speech_sambert-hifigan_tts_zh-cn_16k.git
synced 2026-04-02 18:32:53 +08:00
add training details
This commit is contained in:
18
README.md
18
README.md
@ -111,17 +111,27 @@ write('output.wav', 16000, output[OutputKeys.OUTPUT_WAV])
|
||||
* 该发音人支持中文及英文混合,TN规则为中文
|
||||
* 目前支持发音人zhitian_emo,zhiyan_emo,zhizhe_emo,zhibei_emo
|
||||
|
||||
### 模型局限性以及可能的偏差
|
||||
* 该发音人支持中文及英文混合,TN规则为中文
|
||||
|
||||
## 训练数据介绍
|
||||
暂无
|
||||
使用约10小时数据训练。
|
||||
|
||||
## 模型训练流程
|
||||
暂无
|
||||
模型所需训练数据格式为:音频(.wav), 文本标注(.txt), 音素时长标注(.interval), 随机初始化训练要求训练数据规模在2小时以上,对于2小时以下的数据集,需使用多人预训练模型进行参数初始化。其中,AM模型训练时间需要1~2天,Vocoder模型训练时间需要5~7天。
|
||||
|
||||
### 预处理
|
||||
暂无
|
||||
模型训练需对音频文件提取声学特征(梅尔频谱);音素时长根据配置项中的帧长将时间单位转换成帧数;文本标注,根据配置项中的音素集、音调分类、边界分类转换成对应的one-hot编号;
|
||||
|
||||
## 数据评估及结果
|
||||
暂无
|
||||
我们使用MOS(Mean Opinion Score)来评估合成声音的自然度,评分从1(不好)到5(非常好),每提高0.5分表示更高的自然度。我们会随机选择20个samples,然后每个sample交给至少10个人进行打分。作为对比,我们会使用真人录音的sample通过上述统计方式进行打分。
|
||||
|
||||
|
||||
| MOS | angry | fear | happy | hate | neural | sad | surprise | average|
|
||||
|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
|
||||
| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
|
||||
| ours | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 |
|
||||
|
||||
|
||||
## 引用
|
||||
如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文:
|
||||
|
||||
Reference in New Issue
Block a user