Uploads%2farticles%2f13879%2fcover

實(shí)測(cè)小度語(yǔ)音定制后饵隙,對(duì)語(yǔ)音助手從工具向人格化方向進(jìn)化的思考

用自己的合成音給孩子講故事贵试,小度語(yǔ)音定制功能上線后的體驗(yàn)和思考

前幾天,我收到了一條小度上線語(yǔ)音定制新功能的推送攀操。

定制化語(yǔ)音是一個(gè)非常值得關(guān)注的新方向院仿。雖然用機(jī)器合成音朗讀文本并不陌生,但是用定制化的合成音朗讀一篇童話故事,這個(gè)功能還是吸引了宅在家里的我和我的家人歹垫。

通過(guò)小度 APP剥汤,找到「設(shè)備超能力」的「爸媽講故事」,有一個(gè)一分鐘的介紹視頻排惨。在頁(yè)面底端點(diǎn)擊「一鍵錄制專屬語(yǔ)音」吭敢,按照提示,即可錄制自己或家人的語(yǔ)音包暮芭。

△ 在小度 APP 中的「設(shè)備超能力」里鹿驼,找到「爸媽講故事」,就可以啟用定制化語(yǔ)音功能

在安靜的環(huán)境辕宏,我用了不到 3 分鐘的時(shí)間畜晰,跟讀和錄制 20 條音頻內(nèi)容。語(yǔ)音訓(xùn)練的內(nèi)容是兩則童話瑞筐,錄制完成后凄鼻,系統(tǒng)會(huì)對(duì)每一條語(yǔ)音進(jìn)行自動(dòng)的檢測(cè)和判斷,直到全部完成后提交面哼。

語(yǔ)音包生成后野宜,大概需要一個(gè)小時(shí)左右的制作時(shí)間,完成后系統(tǒng)自動(dòng)將語(yǔ)音包直接推送到小度在家智能屏或小度智能音箱上魔策。這時(shí)匈子,再喚醒小度,點(diǎn)播「爸媽講故事」闯袒,小度就可以用我的合成音給宅在家里的孩子們講故事了虎敦。

△ 小度定制化語(yǔ)音功能的體驗(yàn)

定制化語(yǔ)音功能的體驗(yàn),不僅要看制作流程政敢,還要聽聲音的溫度

定制化語(yǔ)音這個(gè)概念對(duì)于普通用戶來(lái)說(shuō)其徙,還是一個(gè)專業(yè)詞匯,其背后的技術(shù)可能未必能看得透徹喷户。用戶更多關(guān)注的是唾那,要用 AI 合成的自己的聲音給孩子講故事,制作流程是否便捷褪尝,合成的聲音聽起來(lái)是否舒服闹获。

我們先看制作的流程。小度的定制合成音可以在任何一部安裝了小度 APP 的手機(jī)上完成河哑。

但目前小度的定制合成音只應(yīng)用在了「聽爸媽講故事」這一個(gè)技能上避诽,且 APP 上的入口很深(小度還沒有在首頁(yè)做推薦)。當(dāng)然璃谨,如果直接用語(yǔ)音搜索沙庐,系統(tǒng)則會(huì)快速跳轉(zhuǎn)調(diào)用「聽爸媽講故事」這個(gè)技能鲤妥。

錄制的內(nèi)容選用的兩則童話——與「聽爸媽講故事」里的童話故事樣本屬于一個(gè)領(lǐng)域,且機(jī)器的領(lǐng)讀兼顧了情感的加入拱雏,也會(huì)讓我和我的家人在錄制時(shí)棉安,不由自主的用「情」,聲音也更有感情色彩铸抑。

△ 語(yǔ)音樣本的取材和領(lǐng)讀者的聲音語(yǔ)調(diào)垂券,甚至交互流程的設(shè)計(jì),對(duì)于跟讀者都會(huì)有影響

錄制完成后羡滑,聲音會(huì)自動(dòng)上傳云端菇爪,然后再將合成音同步到內(nèi)置小度語(yǔ)音助手的智能屏或智能音箱,就可以點(diǎn)播預(yù)先設(shè)定好的語(yǔ)音包柒昏,讓個(gè)性化的聲音講故事了凳宙。

接著我們來(lái)聽一下合成后的效果。仔細(xì)對(duì)比后(鑒于像我這樣的普通用戶职祷,并不是語(yǔ)音合成的專業(yè)人士氏涩,所以「仔細(xì)對(duì)比」主要是建立在感官上的對(duì)比,而非專業(yè)參數(shù))有梆,我發(fā)現(xiàn)小度的合成效果在音色是尖、語(yǔ)速、語(yǔ)氣泥耀、停頓饺汹、相似度等方面,都略勝一籌痰催。

△ 小度用 20 句語(yǔ)音樣本定制的合成音兜辞,來(lái)模仿真人講童話

為了彌補(bǔ)合成音不可避免的出現(xiàn)的一些錯(cuò)音,系統(tǒng)還自動(dòng)添加了音樂作為背景夸溶。有了音樂的烘托逸吵,即便是用機(jī)器合成音朗讀的童話故事,聽起來(lái)也會(huì)更加舒適缝裁、自然扫皱。

從某種程度上說(shuō),小度的定制化語(yǔ)音更像是「聽爸媽講故事」這個(gè)語(yǔ)音技能的一個(gè)綁定功能捷绑。但也恰恰是因?yàn)閺脑O(shè)備端出發(fā)韩脑、從場(chǎng)景出發(fā)、從用戶體驗(yàn)的細(xì)節(jié)出發(fā)胎食,才會(huì)讓小度的定制化語(yǔ)音功能扰才,成為用戶真正喜歡用的技能允懂。

值得一提的是厕怜,起初我以為小度上線的可閱讀的童話故事只有固定的《皇帝的新裝》等 10 篇,但隨著我錄制的個(gè)性化語(yǔ)音包數(shù)量增加,可朗讀的童話數(shù)量也隨之增加粥航。我聽「孩子」講故事琅捏,孩子聽「外婆」講故事,一家人玩的倒也是愜意递雀。

△ 聽爸媽講故事中的故事庫(kù)柄延,每一個(gè)聲音所讀的故事內(nèi)容會(huì)有所不同

縱觀行業(yè),定制化語(yǔ)音的發(fā)展路徑各有差異

語(yǔ)音合成技術(shù)由來(lái)已久缀程,即便是在大眾市場(chǎng)搜吧,用林志玲、郭德綱等娛樂明星合成的語(yǔ)音導(dǎo)航杨凑,早已成為老百姓們開車時(shí)的最愛滤奈。

而定制化語(yǔ)音業(yè)已行業(yè)關(guān)注的新方向,并且已經(jīng)有很多公司致力于相關(guān)技術(shù)和產(chǎn)品的研發(fā)撩满。

去年蜒程,百度地圖曾上線定制語(yǔ)音導(dǎo)航的功能,同樣是采用了 APP 跟讀和錄制的模式伺帘,但閱讀內(nèi)容是 20 句看似并沒有什么共性的隨機(jī)生成的句子(這一點(diǎn)和小度在家跟讀童話有一些不一樣)昭躺。

在「語(yǔ)音廣場(chǎng)」的語(yǔ)音包列表里,還能找到到百度地圖為藝人們錄制好的語(yǔ)音包伪嫁,華晨宇领炫、包貝爾一應(yīng)俱全。一天換一個(gè)张咳,開車不孤單驹吮。

今年 2 月,在小米 10 的新品發(fā)布會(huì)上晶伦,小米也公布了小愛同學(xué)定制聲音碟狞、定制喚醒詞的功能。

錄制的流程是類似的婚陪。不同的是族沃,目前小愛同學(xué)的定制化語(yǔ)音僅向小米 10 系的手機(jī)開放。并且泌参,從官方分享的視頻來(lái)看脆淹,其應(yīng)用主要是在一問一答的語(yǔ)音搜索。

△ 小愛同學(xué)定制聲音的官方演示

Google 的 TTS 最近也有了更新沽一。在已獲得 GMS(Google 移動(dòng)服務(wù))許可的 Android 設(shè)備上盖溺,通過(guò) Chrome 瀏覽器打開任一網(wǎng)頁(yè),說(shuō)「Hey Google铣缠,Read It」烘嘱,就可以語(yǔ)音調(diào)用 Google Assistant 直接用本國(guó)語(yǔ)言讀網(wǎng)頁(yè)了昆禽。

出于長(zhǎng)文本閱讀的難度,Google 還沒有在「定制化」文本閱讀的方向上向前再邁一步蝇庭。但 Google 此次在 Android 設(shè)備上推出可以直接閱讀網(wǎng)頁(yè)的語(yǔ)音助手醉鳖,也透露著人們希望通過(guò)「聆聽」獲取信息的需求在與日俱增。

△ Google Read It 體驗(yàn) | 圖源:Droid Life

一般來(lái)說(shuō)哮内,專業(yè)的聲音合成需要專業(yè)人士指導(dǎo)盗棵,在錄音棚錄制 500 甚至上萬(wàn)句語(yǔ)料素材,錄制的過(guò)程少則 4~6 小時(shí)北发,多達(dá)數(shù)日纹因。有些廠商因此也采用了多層級(jí)定制的個(gè)性化 TTS。而判斷 TTS 效果好壞的標(biāo)準(zhǔn)琳拨,則主要看性價(jià)比辐怕,即投入的成本越高(文本采樣的數(shù)量、后期合成投入的人力等)从绘,合成音的效果也就越好寄疏。

此外,語(yǔ)音定制功能僵井,考驗(yàn)的是前端語(yǔ)音規(guī)格系統(tǒng)和后端合成拼接系統(tǒng)(時(shí)長(zhǎng)模型陕截、聲學(xué)模型、聲碼器等)的成熟度批什。這需要很多年的積累农曲,不僅是技術(shù)的積累,還有經(jīng)驗(yàn)和語(yǔ)音素材的積累驻债。

而從行業(yè)廠商一系列動(dòng)作來(lái)看乳规,語(yǔ)音定制功能背后,不僅體現(xiàn)了軟硬件廠商技術(shù)實(shí)力的較量和比拼合呐,更是 AI 技術(shù)和產(chǎn)品體驗(yàn)設(shè)計(jì)方面的底蘊(yùn)暮的。

△ 電影《Her》中,男主與溫柔性感的薩曼薩的 AI 合成音對(duì)話淌实。

定制化語(yǔ)音是語(yǔ)音交互體驗(yàn)的一次升級(jí)冻辩,但更人性化的語(yǔ)音才是未來(lái)

回顧過(guò)去幾年,語(yǔ)音交互技術(shù)從以亞馬遜 Echo 為代表的智能設(shè)備誕生以來(lái)拆祈,就在不斷的演進(jìn)恨闪。

最初,語(yǔ)音助手需要具備「你問我答」的基本功能放坏。在 2015 年到 2018 年的幾年間咙咽,幾乎所有的支持語(yǔ)音助手的智能設(shè)備,都具備了這一功能淤年。

盡管已經(jīng)體現(xiàn)了人機(jī)交互中钧敞,設(shè)備「智能」的一面蜡豹,但絕大部分的設(shè)備,僅能夠提供基礎(chǔ)的信息查詢服務(wù)犁享。

△ 亞馬遜在去年也推出了 Alexa Conversations,將對(duì)話式技能開發(fā)工具升級(jí)

當(dāng)時(shí)在 AI 領(lǐng)域領(lǐng)先的百度豹休,也在小度音箱大賣后炊昆,很快意識(shí)到,這種單向的交流是遠(yuǎn)遠(yuǎn)不夠的威根。重復(fù)喚醒凤巨、對(duì)話中斷,使得很多智能設(shè)備成為聽不懂洛搀、答不上的「智障」敢茁。

在 2018 年末的百度世界大會(huì)上,李彥宏首次通過(guò)小度在家演示了一次喚醒多次交互的 AI 對(duì)話留美。之后彰檬,小度不斷的升級(jí)全雙工免喚醒能力,不僅實(shí)現(xiàn)了與小度對(duì)話的對(duì)答如流谎砾,聊天也越來(lái)越人性化逢倍。

△ 李彥宏在百度世界大會(huì) 2018 上演示 Endless Conversation。

與一些產(chǎn)品公司不斷的升級(jí)硬件設(shè)備的做法不同景图,小度在這兩年的硬件迭代并沒有那么頻繁较雕,但小度在產(chǎn)品人性化方面卻在持續(xù)補(bǔ)強(qiáng),才會(huì)讓人們真正喜歡挚币。

百度曾在 2019 年 Q4 財(cái)報(bào)中公布了小度品牌第一方硬件語(yǔ)音月交互次數(shù)亮蒋,23 億交互量是去年同期的 7 倍多∽北希看到這個(gè)數(shù)字慎玖,我腦海里浮現(xiàn)了一組畫面:

△ 小度在家智能屏 X8

老爸每天早起都會(huì)收到小度播報(bào)的疫情新聞、老媽邊搟著餃子皮邊追著她喜歡的電視劇笛粘、小朋友還會(huì)偷懶讓小度幫忙做計(jì)算題凄吏、或是一家人一起玩成語(yǔ)接龍......每當(dāng)看到這樣的場(chǎng)景,就會(huì)感慨闰蛔,這數(shù)十億次的交互背后痕钢,不僅是語(yǔ)音技術(shù)的不斷優(yōu)化升級(jí),也是對(duì)更自然序六、流暢的語(yǔ)音體驗(yàn)的打磨任连。

最新發(fā)布的小度在家智能屏 X8,融合了人臉識(shí)別例诀、手勢(shì)控制随抠、眼神喚醒等更多的人性化交互方式裁着;通過(guò)童臉識(shí)別即可快速進(jìn)入兒童模式,進(jìn)而直達(dá)豐富的兒童教育娛樂內(nèi)容拱她;通過(guò)手勢(shì)「OK」就可以直接操控界面二驰。同時(shí)在人機(jī)對(duì)話方面,系統(tǒng)通過(guò) AI 模型演進(jìn)和自學(xué)習(xí) AI 系統(tǒng)進(jìn)行自動(dòng)學(xué)習(xí)秉沼,從而更好的理解和滿足用戶的需求桶雀。

△ 小度在家智能屏 X8 手勢(shì)識(shí)別功能體驗(yàn)

這些是小度在「千人千面」個(gè)性化、定制化大趨勢(shì)下的思考與實(shí)踐唬复,不僅有技術(shù)實(shí)力的支撐矗积,更有溫度和態(tài)度的注入。

而在可預(yù)見的未來(lái)敞咧,用與真人相似度極高的聲音讀童話棘捣、讀新聞、讀郵件休建、甚至交流乍恐,都將變得更加自然,畢竟测砂,更加人性化禁熏、有溫度的 AI,才會(huì)更加受用戶青睞邑彪。


微信號(hào):shenzhenware

主筆瞧毙、編輯:陳壹零 / 深圳灣

>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载