AWS 最新的文本轉換語音已經有播音員的感覺了

文本語音轉換引擎因為機器學習技術的發展而取得了巨大進步。我們以前很容易分辨出計算機合成的聲音,現在完全不一樣了。亞馬遜云計算部門 AWS 今天發布了全新的自然文本轉換語音模型,和模仿新聞播報員的語音風格。
亞馬遜在發布會上表示:“語音質量很重要,但要讓機器合成的語音聽起來更真實、更有吸引力,我們還有很長的路要走。談到語音的風格,毫無疑問,人類的耳朵可以分辨新聞節目、體育節目、大學課程等等; 事實上,大多數人在適當的語境下使用適當的語音風格,這有助于別人去理解他們的表達。”
這種全新的新聞播報員語音風格目前有兩種美式口音,亞馬遜已經和《今日美國》、加拿大的《環球郵報》以及其他一些公司取得合作,來幫助他們實現文本語音化。
你可以聽一下這段:
這項全新服務官方稱之為 Amazon Polly Newscaster,它是多年來對文本轉換語音的研究成果。這款全新的轉換引擎共有 11 種口音,其中 3 種是英式英語,8 種是美式英語,與谷歌的 WaveNet 等類似的自然語音引擎沒有什么不同。
這段是女聲:
在這個充斥著假新聞的時代,使用這種聽起來像真正的新聞播音員一樣的合成語音,一開始會有點難以接受。不過換個角度想,以前用人工讀的文本現在可以用合成的也是好事一件。電腦合成聲音有很多不錯的用途,而且從 AWS 提供的示例來看,新的合成音色比之前的要更加耐聽。
AWS’ new text-to-speech engine sounds like a newscaster