出門問問3篇論文獲自然語言處理和人工智能國際會議錄用發表

砍柴網 ? 3年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

7月15-17日，2022年第三屆自然語言處理與人工智能國際會議（NLPAI 2022）于成都四川大學舉辦。繼出門問問語音情感合成論文入選全球語音領域頂級會議 INTERSPEECH 2022后，出門問問語音團隊的3篇論文再次被NLPAI錄用發表。

NLPAI會議旨在為世界各地的研究學者，工程師和科學家提供一個自然語言處理與人工智能等相關領域的技術進步展示和研究成果發布交流的國際會議平臺，每年都吸引數千名學者專家進行交流，探討學術觀點，碰撞最新研究成果。會議所有被錄用的論文將發表在 Conference Proceedings 上，將被 Ei Compendex、Scopus 檢索，并提交 CPCI 檢索。

在群星璀璨的技術盛宴里，出門問問語音團隊在語音技術領域貢獻了哪些精彩亮點？

1、《Prosody Prediction With Discriminative Representation Method》

《基于判別表示的韻律預測》

作者： Jipeng Zhang, Askar Hamdulla, Xiaoqin Feng, Xipeng Yang, Yunlin Chen

韻律是影響文本到語音（TTS）的自然性和可理解性的關鍵因素，同時也面臨著巨大的挑戰，包括：

1.? 統一標注數據集的獲取，需要依賴于嚴格的專家經驗。

2.? 基于傳統概率統計方法，嚴重依賴于特征工程等文本處理效果。

針對上述問題，論文中提出了一種基于獨立韻律數據的預測系統。

出門問問3篇論文獲自然語言處理和人工智能國際會議錄用發表

這個新方法具有以下優點：

1.??減少了對于聯合數據的依賴性，靈活支持不同韻律等級的模型訓練。

2.??提出了一種通用判別表示方法 Layer Look Up Table（LLUT），建模不同的韻律等級，引入多任務訓練。

3.??基于預訓練方法對文本語義建模，無需任何特征工程。

2、《Research of Pitch Controllability Based on LPCNet》

《基于LPCNet的語調可控性研究》

作者：Wenyu Gao, Askar Hamdulla, Xipeng Yang, Yunlin Chen

隨著語音合成技術在大部分場景的使用，修改音頻的音調有著廣泛的用途。目前大部分音調可控是通過使用單獨的神經網絡生成輸入參數實現，但這個方法需要訓練多個神經網絡，并且在沒有說話人自適應的情況下不能顯示可控。針對這一問題，提出了一種基于LPCNet聲碼器進行音調顯示控制的方法。首先在訓練階段，通過優化訓練特征來優化聲碼器模型合成效果和對控制音調的魯棒性；其次在推理階段輸入控制曲線對基頻進行調節，然后利用聲碼器LPCNet將聲學特征推理為波形點；最后合成音頻。實驗結果表明，所提方法能夠靈活控制音調，合成的聲音音質也有所提升。

出門問問3篇論文獲自然語言處理和人工智能國際會議錄用發表

訓練階段

Drawing 3.png

測試階段

這個新方法具有以下優點：

1.??能夠靈活控制音調，聲音音質也有所提升；

2.??在控制閾值范圍內，調節控制參數并沒有使得音質有明顯下降；

3.??后續嘗試在聲學模型生產聲學特征過程中引入基頻控制，這樣結合聲學模型的decoder模型，能夠生成更加魯棒的音頻。

3、《End-to-End Multi-Speaker Speech Synthesis with Controllable Stress》

《基于端到端的跨說話人重音可控語音合成》

作者：Ting Liang, Askar Hamdulla, Hao Yin, Yunlin Chen

目前，端到端語音合成在某些領域已經達到了真人水平，如語音助手、新聞播報、智能導航等。然而，人類表達信息通常需要突出重點，在語音中適時添加重音（Stress）可以起到強調作用，更好的表述觀點。目前大部分語音合成研究都沒有對重音特征進行建模，因此合成的語音無法突出重點，語調單一或者重音的位置不可控。這樣的語音缺乏表現力。該文提出了一種基于端到端的跨說話人重音可控語音合成方法，并且無需對目標說話人的重音特征進行標注，即可合成重音可控的目標說話人語音。

Drawing 4.png

這個方法具有以下優點：

1.??實現對合成語音的重音三級可控（重讀/拖音/重讀拖音）；

2.??只需少量重音標注數據，即可將重音功能遷移至任意無重音數據的目標發音人；

3.??合成語音更加自然、表現力更加豐富。

聆聽用戶聲音 ?探索更貼近用戶的語音技術

此次3篇論文入選自然語言處理與人工智能國際會議（NLPAI 2022），是出門問問全棧和硬核技術的再次進展，也是公司繼獲評吳文俊人工智能科技進步獎、國家高新技術企業、北京市專精特新中小企業，論文入選全球語音技術頂會 INTERSPEECH 2022 ? 等技術成就之后，在前沿技術上的又一次新突破。

近年來，出門問問不斷將日趨成熟的語音技術，逐步落地在離用戶更近的產品和服務上，聆聽用戶聲音，尊重用戶情感，深度挖掘用戶的潛在需求。目前，出門問問團隊已將重讀、拖音、韻律及語調可控等功能應用于AI配音神器「魔音工坊」中，從聲音轉換到重讀、拖音，眾多首發的AI語音技術實現，讓用戶體驗到更富有情感、媲美真人的AI配音。

人工智能底層技術的深厚積累，將不斷促進出門問問人工智能系統的“智力”提升，使之更好地應用于智慧出行、智慧生活等各行業，為用戶締造出色的智能體驗。