This commit is contained in:
speech_tts
2022-10-19 12:53:52 +00:00
parent 535cc92f4c
commit aa8c265c69

View File

@ -4,7 +4,6 @@ tasks:
domain:
- audio
frameworks:
- tensorflow
- pytorch
backbone:
- transformer
@ -108,8 +107,6 @@ write('output.wav', 16000, pcm)
* 该发音人支持中文及中英文混合TN规则为中文
* 目前支持发音人zhitian_emozhiyan_emozhizhe_emozhibei_emo
### 模型局限性以及可能的偏差
* 该发音人支持中文及英文混合TN规则为中文
## 训练数据介绍
使用约10小时数据训练。
@ -128,11 +125,25 @@ write('output.wav', 16000, pcm)
|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
| zhitian_emo | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 |
| MOS | angry | fear | happy | hate | neural | sad | surprise | average|
|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
| zhizhe_emo | 4.366 | 4.612 | 4.381 | 4.618 | 4.52 | 4.542 | 4.617 | 4.5222 |
| MOS | angry | fear | happy | hate | neural | sad | surprise | average|
|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
| zhibei_emo | 4.613 | 4.657 | 4.538 | 4.609 | 4.48 | 4.627 | 4.582 | 4.5866 |
| MOS | angry | fear | happy | hate | neural | sad | surprise | average|
|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:|
| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 |
| zhiyan_emo | 4.601 | 4.658 | 4.549 | 4.614 | 4.466 | 4.691 | 4.542 | 4.5887 |
## 引用
如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文: