• 平安彩票
  • 平安彩票网
  • 平安彩票官网
  • 平安彩票app
  • 平安彩票下载
  • 平安彩票新闻
  • 平安彩票注册
  • 平安彩票登录
  • 平安彩票简介
  • 平安彩票招聘
  • 平安彩票玩法
  • 平安彩票开奖
  • 平安彩票直播
  • 平安彩票手机版
  • 平安彩票平台
  • 平安彩票活动
  • 平安彩票视频
  • 平安彩票技巧
  • 平安彩票优惠
  • 平安彩票图片
  • 平安彩票会员
  • 平安彩票资质
  • 平安彩票资讯
  • 平安彩票版本
  • 平安彩票正版
  • 平安彩票官方
  • 平安彩票软件
  • 平安彩票客服
  • 平安彩票导航
  • 平安彩票地址
  • 平安彩票提现
  • 2019-06-14
    微轻柔浙大说相符推出崭新语音相符成。体系FastSpeech 速度升迁270倍

    相符成。速度

    模。型框架

    https://speechresearch.github.io/fastspeech/

    音素不息时间展望对。长度调节器来说专门主要。如图1(d)所示,音素不息时间展望器包括一个2层一维卷积网络,以及叠添一个线性层输出标量用以展望音素的不息时间。这个模。块堆叠在。音素侧的FFT块之上,使用均方偏差(MSE)行为亏损函数,与FastSpeech模。型协同训练。吾们的音素不息时间的实在。标签新闻是从一个额外的基于自回归的Transformer TTS模。型中抽取encoder-decoder之间的仔细力对。齐新闻得到的,细腻新闻可查阅文末论文。

    论文地址:

    匮乏可控性:自回归的神经网络模。型自动决定一条语音的生成。长度,无法显式地限制生成。语音的语速或者韵律停留等。

    相符成。的语音安详性较差:端到端模。型清淡采用编码器-仔细力-解码器(Encoder-Attention-Decoder)机制进走自回归生成。,原由序列生成。的舛讹传播(Error Propagation)以及仔细力对。齐约束禁锢,导致展现重复吐词或漏词表象;

    文字:“The result of the recommendation of the committee of 1862 was the Prison Act of 1865”

    吾们也比较了FastSpeech中一些主要模。块和训练形式(包括FFT中的一维卷积、序列级别的知识蒸馏技术和参数初首化)对。生成。音质终局的影响,经由过程CMOS的终局来衡量影响水平。由下外能够望出,这些模。块和形式实在。有助于吾们模。型终局的升迁。

    https://speechresearch.github.io/fastspeech/

    实验评估

    在。LJSpeech数据集上的实验外明,FastSpeech除了在。语音质量方面能够与传统端到端自回归模。型(如Tacotron2和Transformer TTS)相媲美,还具有以下几点上风:

    迅速:与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成。速度挑高了近270倍,将端到端语音相符成。速度挑高了近38倍,单GPU上的语音相符成。速度是实时语音速度的30倍;

    https://arxiv.org/pdf/1905.09263.pdf

    前馈Transformer架构

    声音质量

    吾们对。测试样本作了MOS测试,每个样本起码被20个英语母语评测者评测。MOS指标用来衡量声音挨近人。声的自然度和音质。吾们将FastSpeech形式与以下形式进走对。比:1) GT, 实在。音频数据;2) GT (Mel WaveGlow), 用WaveGlow行为声码器将实在。梅尔谱转换得到的音频;3) Tacotron 2 (Mel WaveGlow);4) Transformer TTS (Mel WaveGlow);5) Merlin (WORLD), 一栽常用的参数法语音相符成。体系,并且采用WORLD行为声码器。

    异日,吾们将不息升迁FastSpeech模。型在。生成。音质上的外现,并且将会把该模。型使用到其它语言(例如中文)、众谈话人。和矮资源场景中。吾们还会尝试将FastSpeech与并走神经声码器结相符在。一首训练,形成。一个十足端到端训练的语音到文本并走架构。

    Reddit商议链接:https://www.reddit.com/r/MachineLearning/comments/brzwi5/r_fastspeech_fast_robust_and_controllable_text_to/

    鲁棒性

    图2. 生成。语音的耗时与生成。的梅尔谱长度的可视化有关图

    鲁棒:几乎十足清除了相符成。语音中重复吐词和漏词题目;

    可控:能够腻滑地调整语音速度和限制停留以片面升迁韵律。

    自回归模。型中的编码器-解码器仔细力机制能够导致音素和梅尔谱之间的舛讹对。齐,进而导致生成。的语音展现重复吐词或漏词。为了评估FastSpeech的鲁棒性,吾们选择微柔(亚洲)互联网工程院语音团队产品线上使用的50个较难的文本对。FastSpeech和基准模。型Transformer TTS鲁棒性进走测试。从下外能够望出,Transformer TTS的句级舛讹率为34%,而FastSpeech几乎能够十足清除重复吐词和漏词。

    https://speechresearch.github.io/fastspeech/

    更众Demo声音,请访问:

    吾们比较FastSpeech与具有近似参数目的Transformer TTS的语音相符成。速度。从外2能够望出,在。梅尔谱的生成。速度上,FastSpeech比自回归的Transformer TTS挑速将近270倍;在。端到端(相符成。语音)的生成。速度上,FastSpeech比自回归的Transformer TTS挑速将近38倍。FastSpeech平均相符成。一条语音的时间为0.18s,原由吾们的语音平均时长为6.2s,吾们的模。型在。单GPU上的语音相符成。速度是实时语音速度的30倍(6.2/0.18)。

    吾们选用LJSpeech数据集进走实验,LJSpeech包含13100个英语音频片段和响答的文本,音频的总长度约为24幼时。吾们将数据集分成。3组:300个样本行为验证集,300个样本行为测试集,剩下的12500个样本用来训练。

    微柔中国官方商城 - 首页

    FastSpeech能够经由过程长度调节器很方便地调节音频的语速。经由过程实验发现,从0.5x到1.5x变速,FastSpeech生成。的语音清亮且不失真。

    音素不息时间展望器

    https://speechresearch.github.io/fastspeech/

    语速调节

    为了验证FastSpeech模。型的有效性,吾们从声音质量、生成。速度、鲁棒性和可限制性几个方面来进走了评估。

    从外1中能够望出,吾们的音质几乎能够与自回归的Transformer TTS和Tacotron 2相媲美。

    访问:

    关于鲁棒性测试的声音demo,请访问:

    近年来,基于神经网络的端到端文本到语音相符成。(Text-to-Speech,TTS)技术取了迅速发展。与传统语音相符成。中的拼接法(concatenative synthesis)和参数法(statistical parametric synthesis)相比,端到端语音相符成。技术生成。的声音清淡具有更益的声音自然度。但是,这栽技术照样面临以下几个题目:

    为晓畅决上述的一系列题目,微柔亚洲钻研院机器学习组和微柔(亚洲)互联网工程院语音团队说相符浙江大学挑出了一栽基于Transformer的新式前馈网络FastSpeech,能够并走、安详、可控地生成。高质量的梅尔谱,再借助声码器并走地相符成。声音。

    更众声音Demo:

    长度调节器

    相符成。语音的速度较慢:端到端模。型清淡以自回归(Autoregressive)的手段生成。梅尔谱(Mel-Spectrogram),再经由过程声码器(Vocoder)相符成。语音,而一段语音的梅尔谱清淡能到几百上千帧,导致相符成。速度较慢;

    语速调节以及停留调节的声音Demo:

    FastSpeech相符成。的声音Demo:

    论文源代码也将在。不久后盛开,敬请关注!

    图1. FastSpeech网络架构

    图2展现了测试集上生成。语音的耗时和生成。的梅尔谱长度(梅尔谱长度与语音长度成。正比)的可视化有关图。能够望出,随着生成。语音长度的添大,FastSpeech的生成。耗时并异国发生较大转折,而Transformer TTS的速度对。长度专门敏感。这也外明吾们的形式专门有效地使用了GPU的并走性实现了添速。

    FastSpeech采用一栽新式的前馈Transformer网络架构,屏舍失踪传统的编码器-仔细力-解码器机制,如图1(a)所示。其主要模。块采用Transformer的自仔细力机制(Self-Attention)以及一维卷积网络(1D Convolution),吾们将其称之为FFT块(Feed-Forward Transformer Block, FFT Block),如图1(b)所示。前馈Transformer堆叠众个FFT块,用于音素(Phoneme)到梅尔谱变换,音素侧和梅尔谱侧各有N个FFT块。稀奇仔细的是,中心有一个长度调节器(Length Regulator),用来调节音素序列和梅尔谱序列之间的长度不同。

    与自回归的Transformer TTS相比,FastSpeech将梅尔谱的生成。速度挑高了近270倍,将端到端语音相符成。速度挑高了38倍,单GPU上的语音相符成。速度达到了实时语音速度的30倍。

    溶解对。比实验

    长度调节器如图1(c)所示。原由音素序列的长度清淡幼于其梅尔谱序列的长度,即每个音素对。答于几个梅尔谱序列,吾们将每个音素对。齐的梅尔谱序列的长度称为音素不息时间。长度调节器经由过程每个音素的不息时间将音素序列平铺以匹配到梅尔谱序列的长度。吾们能够等比例地拉长或者萎缩音素的不息时间,用于声音速度的限制。此外,吾们还能够经由过程调整句子中空格字符的不息时间来限制单词之间的停留,从而调整声音的片面韵律。