2018-03-29

Google 開放基于 DeepMind's AI 的 TTS 服務(wù)，接入后你的設(shè)備也能像人類一樣自然的說話

可覆蓋 12 種語言鳄抒，32 種方言口音。

3 月 27 日许溅，Google 宣布推出一款新的 AI 語音 TTS 服務(wù)，作為其機(jī)器學(xué)習(xí)云工具套件的一部分秉版。這項服務(wù)被命名為「Cloud Text-to-Speech」贤重，任何開發(fā)者或者企業(yè)可購買服務(wù)。

Google 表示清焕，這項新服務(wù)可提供 12 種語言并蝗、32 種不同版本的語音選擇祭犯，并支持多種音頻格式，包括 MP3 和 WAV滚停。此外沃粗，開發(fā)人員還可以根據(jù)需求，自定義音調(diào)键畴、語速和音量增益等要素最盅。

基于 WaveNet 神經(jīng)網(wǎng)絡(luò)，與自然人聲交互相似度高達(dá) 70%

有趣的是起惕，Cloud Text-to-Speech 中包含許多使用 WaveNet 構(gòu)建的高保真聲音涡贱。WaveNets 是由 Google 旗下子公司 DeepMind 實驗室研發(fā)的一種卷積神經(jīng)網(wǎng)絡(luò)，基于 WaveNets 神經(jīng)網(wǎng)絡(luò)惹想，能使得機(jī)器模擬生成的語音更為自然问词，與人類聲音之間的相似度能提高到 70% 以上。

去年 10 月勺馆，WaveNet 首次被整合進(jìn) Google Assistant戏售，被應(yīng)用到 Google Home 等硬件產(chǎn)品中

在 2016 年末侨核，DeepMind 推出 WaveNet 的第一個版本草穆，當(dāng)時在實驗室環(huán)境之外的應(yīng)用效果還十分生硬，在此之后的一年半里搓译，Google Speech 團(tuán)隊一直在大力投資悲柱，并與 DeepMind 緊密合作來將 WaveNet 模型產(chǎn)品化。

去年 10 月些己，WaveNet 首次被整合到 Google Assistant 中（盡管只有英語和日文兩個版本）豌鸡，其自然環(huán)境下合成的語音效果已經(jīng)有了巨大的改善，現(xiàn)在則可以應(yīng)用于 Cloud Text-to-Speech 中段标。

最新版本 WaveNet 模型運行于 Google 云端 TPU 基礎(chǔ)架構(gòu)之上涯冠，生成的原始波形比原始版本快 1000 倍，并且可實現(xiàn)在 50ms 內(nèi)生成 1s 的語音內(nèi)容逼庞。

「WaveNet 具備一個巨大的人類語音數(shù)據(jù)庫蛇更，WaveNet 能將采樣速率從 8 位提高到 16 位，能在 1s 時間內(nèi)創(chuàng)建出 24000 個樣本波形赛糟，高度再現(xiàn)出包括唇音派任、喉音在內(nèi)的聲音細(xì)節(jié)，以達(dá)到更加人性化的高保真人聲效果璧南≌乒洌」Google Cloud AI 的產(chǎn)品經(jīng)理 Dan Aharon 在博客中寫到。

開發(fā)者可應(yīng)用于電視司倚、汽車豆混、機(jī)器人等 IoT 設(shè)備篓像，對 Google 意義重大

據(jù) Dan Aharon 介紹，開發(fā)者可以通過多種方式應(yīng)用 Cloud Text-to-Speech皿伺，例如：

嵌入智能電視遗淳、汽車、機(jī)器人心傀、智能音箱地等 IoT 設(shè)備屈暗；
打造自然人聲對話系統(tǒng)，為公司提供語音服務(wù)系統(tǒng)（IVR）脂男；
將基于文本的內(nèi)容資源（如新聞养叛、書籍）轉(zhuǎn)換為語音格式（例如電臺廣播或有聲讀物）；

據(jù)外媒評論宰翅，這一動作無疑對于 Google 是意義重大的弃甥，具體原因體現(xiàn)在以下兩個方面：

首先，自 Google 于 2014 年收購 DeepMind 起汁讼，就一直在嘗試如何將 Deepmind 的 AI 技術(shù)轉(zhuǎn)化為可落地商業(yè)化的產(chǎn)品淆攻。到目前為止，DeepMind 的算法已經(jīng)被應(yīng)用在 Google 數(shù)據(jù)中心嘿架，并能夠為之減少 40% 的演算成本瓶珊；此外 Deepmind 的 AI 技術(shù)還被應(yīng)用在了健康領(lǐng)域。更重要的是耸彪，此次直接將 WaveNet 整合進(jìn) Google 的云業(yè)務(wù)中伞芹，將賦予 Google Cloud 以 AI 為其獨特要素，并依此贏得亞馬遜與微軟的云業(yè)務(wù)蝉娜。

圖注：據(jù)測試小組給出的意見評分 4.1（1-5分）唱较，WaveNet 的美國英語發(fā)音比標(biāo)準(zhǔn)（非 WaveNet）聲音的 MOS 好 20％以上，與人類聲音的相似度超過 70 ％召川。

其次南缓，Deepmind 的 AI 語音 TTS 技術(shù)已經(jīng)是目前業(yè)內(nèi)技術(shù)最為先進(jìn)、商用最為成熟的技術(shù)之一荧呐。大多數(shù)語音合成器（包括蘋果的 Siri）汉形，都是使用所謂的拼接式合成，程序會以單個音節(jié)的形式進(jìn)行處理存儲坛增，例如「ba」「sht」「oo」获雕，然后將它們按照特定的語法拼接起來形成單詞與句子。盡管這種方法的應(yīng)用已經(jīng)相當(dāng)成熟收捣，但在聽覺體驗上依然不夠自然届案。

相比之下，Cloud Text-to-Speech 被認(rèn)為是世界范圍內(nèi)最優(yōu)秀的 TTS 系統(tǒng)罢艾，其提供的基于 WaveNet 卷積網(wǎng)絡(luò)模型合成的人聲楣颠，比標(biāo)準(zhǔn)（非 WaveNet）聲音的 MOS 好 20％以上尽纽，與人類聲音的相似度超過 70 ％，在世界范圍內(nèi)被認(rèn)為是最優(yōu)秀的 TTS 系統(tǒng)童漩。

目前 Cloud Text-to-Speech 已經(jīng)向個人開發(fā)者及企業(yè)開放弄贿，詳細(xì)的操作指南及定價均已在 Google Cloud 官方博客開放。（作者：談?wù)蹳深圳灣）

TTS

DeepMind

Google

深圳灣（微信公眾號 ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體矫膨，關(guān)注「軟件+硬件」帶來的場景和交互創(chuàng)新差凹，以及與平臺和應(yīng)用相連的產(chǎn)業(yè)鏈升級。

版權(quán)聲明：本文系深圳灣原創(chuàng)侧馅，轉(zhuǎn)載或摘錄請先獲得授權(quán)危尿。
深圳灣微信公眾號：shenzhenware。深圳灣同時在頭條號馁痴、企鵝號谊娇、知乎等主流媒體站開設(shè)專欄板塊，歡迎關(guān)注罗晕。轉(zhuǎn)載济欢、約稿、投稿小渊、團(tuán)隊報道請在公眾號對話框回復(fù)關(guān)鍵字并留下聯(lián)系方式法褥。

上一篇：阿里云胡曉明：IoT 將成阿里新主賽道，5 年內(nèi)連接百億設(shè)備

下一篇：安全防護(hù)層層加碼粤铭，新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售