安全防護(hù)層層加碼挖胃,新一代耐用戰(zhàn)神 OPPO A5 Pro 正式開售
Google 開放基于 DeepMind's AI 的 TTS 服務(wù),接入后你的設(shè)備也能像人類一樣自然的說話
可覆蓋 12 種語言鳄抒,32 種方言口音。
3 月 27 日许溅,Google 宣布推出一款新的 AI 語音 TTS 服務(wù),作為其機(jī)器學(xué)習(xí)云工具套件的一部分秉版。這項服務(wù)被命名為「Cloud Text-to-Speech」贤重,任何開發(fā)者或者企業(yè)可購買服務(wù)。
Google 表示清焕,這項新服務(wù)可提供 12 種語言并蝗、32 種不同版本的語音選擇祭犯,并支持多種音頻格式,包括 MP3 和 WAV滚停。此外沃粗,開發(fā)人員還可以根據(jù)需求,自定義音調(diào)键畴、語速和音量增益等要素最盅。
基于 WaveNet 神經(jīng)網(wǎng)絡(luò),與自然人聲交互相似度高達(dá) 70%
有趣的是起惕,Cloud Text-to-Speech 中包含許多使用 WaveNet 構(gòu)建的高保真聲音涡贱。WaveNets 是由 Google 旗下子公司 DeepMind 實驗室研發(fā)的一種卷積神經(jīng)網(wǎng)絡(luò),基于 WaveNets 神經(jīng)網(wǎng)絡(luò)惹想,能使得機(jī)器模擬生成的語音更為自然问词,與人類聲音之間的相似度能提高到 70% 以上。
在 2016 年末侨核,DeepMind 推出 WaveNet 的第一個版本草穆,當(dāng)時在實驗室環(huán)境之外的應(yīng)用效果還十分生硬,在此之后的一年半里 搓译,Google Speech 團(tuán)隊一直在大力投資悲柱,并與 DeepMind 緊密合作來將 WaveNet 模型產(chǎn)品化。
去年 10 月些己,WaveNet 首次被整合到 Google Assistant 中(盡管只有英語和日文兩個版本)豌鸡,其自然環(huán)境下合成的語音效果已經(jīng)有了巨大的改善,現(xiàn)在則可以應(yīng)用于 Cloud Text-to-Speech 中段标。
最新版本 WaveNet 模型運行于 Google 云端 TPU 基礎(chǔ)架構(gòu)之上涯冠,生成的原始波形比原始版本快 1000 倍,并且可實現(xiàn)在 50ms 內(nèi)生成 1s 的語音內(nèi)容逼庞。
「WaveNet 具備一個巨大的人類語音數(shù)據(jù)庫蛇更,WaveNet 能將采樣速率從 8 位提高到 16 位,能在 1s 時間內(nèi)創(chuàng)建出 24000 個樣本波形赛糟,高度再現(xiàn)出包括唇音派任、喉音在內(nèi)的聲音細(xì)節(jié),以達(dá)到更加人性化的高保真人聲效果璧南≌乒洌」Google Cloud AI 的產(chǎn)品經(jīng)理 Dan Aharon 在博客中寫到。
開發(fā)者可應(yīng)用于電視司倚、汽車豆混、機(jī)器人等 IoT 設(shè)備篓像,對 Google 意義重大
據(jù) Dan Aharon 介紹,開發(fā)者可以通過多種方式應(yīng)用 Cloud Text-to-Speech皿伺,例如:
- 嵌入智能電視遗淳、汽車、機(jī)器人心傀、智能音箱地等 IoT 設(shè)備屈暗;
- 打造自然人聲對話系統(tǒng),為公司提供語音服務(wù)系統(tǒng)(IVR)脂男;
- 將基于文本的內(nèi)容資源(如新聞养叛、書籍)轉(zhuǎn)換為語音格式(例如電臺廣播或有聲讀物);
據(jù)外媒評論宰翅,這一動作無疑對于 Google 是意義重大的弃甥,具體原因體現(xiàn)在以下兩個方面:
首先,自 Google 于 2014 年收購 DeepMind 起汁讼,就一直在嘗試如何將 Deepmind 的 AI 技術(shù)轉(zhuǎn)化為可落地商業(yè)化的產(chǎn)品淆攻。到目前為止 ,DeepMind 的算法已經(jīng)被應(yīng)用在 Google 數(shù)據(jù)中心嘿架,并能夠為之減少 40% 的演算成本瓶珊;此外 Deepmind 的 AI 技術(shù)還被應(yīng)用在了健康領(lǐng)域。更重要的是耸彪,此次直接將 WaveNet 整合進(jìn) Google 的云業(yè)務(wù)中伞芹,將賦予 Google Cloud 以 AI 為其獨特要素,并依此贏得亞馬遜與微軟的云業(yè)務(wù)蝉娜。
其次南缓,Deepmind 的 AI 語音 TTS 技術(shù)已經(jīng)是目前業(yè)內(nèi)技術(shù)最為先進(jìn)、商用最為成熟的技術(shù)之一荧呐。大多數(shù)語音合成器(包括蘋果的 Siri)汉形,都是使用所謂的拼接式合成,程序會以單個音節(jié)的形式進(jìn)行處理存儲坛增,例如「ba」「sht」「oo」获雕,然后將它們按照特定的語法拼接起來形成單詞與句子。盡管這種方法的應(yīng)用已經(jīng)相當(dāng)成熟收捣,但在聽覺體驗上依然不夠自然届案。
相比之下,Cloud Text-to-Speech 被認(rèn)為是世界范圍內(nèi)最優(yōu)秀的 TTS 系統(tǒng)罢艾,其提供的基于 WaveNet 卷積網(wǎng)絡(luò)模型合成的人聲楣颠,比標(biāo)準(zhǔn)(非 WaveNet)聲音的 MOS 好 20% 以上尽纽,與人類聲音的相似度超過 70 %,在世界范圍內(nèi)被認(rèn)為是最優(yōu)秀的 TTS 系統(tǒng)童漩。
目前 Cloud Text-to-Speech 已經(jīng)向個人開發(fā)者及企業(yè)開放弄贿,詳細(xì)的操作指南及定價均已在 Google Cloud 官方博客開放。(作者:談?wù)蹳深圳灣)