From aa8c265c69e7fccfc9629b9b3386de993fe3f1c3 Mon Sep 17 00:00:00 2001 From: speech_tts Date: Wed, 19 Oct 2022 12:53:52 +0000 Subject: [PATCH] fix mos --- README.md | 17 ++++++++++++++--- 1 file changed, 14 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 1a4713b..909ecda 100644 --- a/README.md +++ b/README.md @@ -4,7 +4,6 @@ tasks: domain: - audio frameworks: -- tensorflow - pytorch backbone: - transformer @@ -108,8 +107,6 @@ write('output.wav', 16000, pcm) * 该发音人支持中文及中英文混合,TN规则为中文 * 目前支持发音人zhitian_emo,zhiyan_emo,zhizhe_emo,zhibei_emo -### 模型局限性以及可能的偏差 -* 该发音人支持中文及英文混合,TN规则为中文 ## 训练数据介绍 使用约10小时数据训练。 @@ -128,11 +125,25 @@ write('output.wav', 16000, pcm) |:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:| | recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 | | zhitian_emo | 4.596 | 4.669 | 4.556 | 4.611 | 4.46 | 4.676 | 4.575 | 4.591857 | + +| MOS | angry | fear | happy | hate | neural | sad | surprise | average| +|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:| +| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 | | zhizhe_emo | 4.366 | 4.612 | 4.381 | 4.618 | 4.52 | 4.542 | 4.617 | 4.5222 | + +| MOS | angry | fear | happy | hate | neural | sad | surprise | average| +|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:| +| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 | | zhibei_emo | 4.613 | 4.657 | 4.538 | 4.609 | 4.48 | 4.627 | 4.582 | 4.5866 | + + +| MOS | angry | fear | happy | hate | neural | sad | surprise | average| +|:------------:|:---------:|:---------:|:------:|:------:|:-----:|:-------:|:-------:|:-------:| +| recording | 4.684 | 4.616 | 4.66 | 4.664 | 4.502 | 4.644 | 4.662 | 4.633143 | | zhiyan_emo | 4.601 | 4.658 | 4.549 | 4.614 | 4.466 | 4.691 | 4.542 | 4.5887 | + ## 引用 如果你觉得这个该模型对有所帮助,请考虑引用下面的相关的论文: