Uploads%2farticles%2f11489%2ftimg meitu 2
|
2017-04-13

從搜狗的語音技術(shù)發(fā)展史中杯缺,我們來看平臺技術(shù)是如何落地的

你只知搜狗是做搜索起家的砰左,但你知道它在智能語音中做了多少布局嗎匿醒?

提起智能語音,大家或多或少會想到蘋果的 Siri缠导,畢竟整個(gè)行業(yè)由它牽頭帶動的廉羔,包括后來亞馬遜的 Alexa,微軟 Cortana僻造,Google Assistant 等憋他,各個(gè)巨頭將智能語音視為了一塊必爭之地孩饼,業(yè)界更是將語音定義為下一個(gè)人機(jī)交互的新形式。

在國內(nèi)竹挡,除了百度镀娶、科大訊飛以及一些初創(chuàng)公司,我們似乎很少會提起搜狗這家同樣專注于人工智能語音的公司揪罕,甚至有人認(rèn)為智能語音是搜狗向 AI 轉(zhuǎn)型的一大戰(zhàn)略梯码。為此,搜狗 CEO 王小川曾強(qiáng)調(diào)好啰,搜狗雖然以搜索起家轩娶,但事實(shí)上它就是一家 AI 公司,并一直致力于讓搜索引擎變得更聰明框往,其中就包括語音技術(shù)鳄抒。

搜狗的語音技術(shù)研究始于 2012 年,曾推出語音助手應(yīng)用

從 2012 年開始搅窿,搜狗就著手語音技術(shù)的研究嘁酿,并在一年多之后完成深度學(xué)習(xí)技術(shù)的研發(fā)和上線,經(jīng)過一段時(shí)間的測試男应、準(zhǔn)確率對比后闹司,最終在 2013 年 6 月,接入搜狗包括輸入法沐飘、地圖在內(nèi)的全線產(chǎn)品游桩,代替原本所采用第三方公司的技術(shù)。

同時(shí)在這個(gè)過程中耐朴,搜狗于推出了搜狗語音助手借卧,得益于多年來積累的搜索能力,搜狗語音助手的技術(shù)在短時(shí)間內(nèi)做到了中文業(yè)內(nèi)的領(lǐng)先筛峭。但它也面臨著與 Siri 等語音助手相類似的窘境铐刘,在手機(jī)端上提供的交互體驗(yàn)并不能讓用戶產(chǎn)生足夠的依賴性,最終導(dǎo)致產(chǎn)品的使用率并不高影晓。

此后镰吵,搜狗語音團(tuán)隊(duì)則沒有對手機(jī)語音助手做繼續(xù)的研發(fā)和推進(jìn),但對智能語音的研究依舊持續(xù)著挂签,并將目標(biāo)聚焦在老本行——搜索上疤祭。他們思考著如何利用智能語音讓搜索變得更有效率、且往「更智能化」的方向走饵婆。到目前為止勺馆,搜狗語音團(tuán)隊(duì)每年都會將自家的技術(shù)拿到業(yè)界中進(jìn)行對比測評,以了解自身在行業(yè)中所處的實(shí)際位置。

基于前期技術(shù)的積累草穆,敲定搜狗人工智能未來的方向:自然交互 + 知識計(jì)算

2016 年 8 月灌灾,沉寂許久的搜狗在智能語音中再次有了新動作,除了實(shí)現(xiàn)將語音轉(zhuǎn)化成文字的功能续挟,還發(fā)布了語音交互引擎「知音」紧卒。同時(shí),搜狗 CTO 楊洪濤在發(fā)布會中首次公布搜狗人工智能未來 8 年工作的主要方向:自然交互 + 知識計(jì)算诗祸,其中跑芳,自然交互指的是讓機(jī)器能夠在交互中更懂人,知識計(jì)算即將網(wǎng)絡(luò)中的海量信息提取出來直颅,并做進(jìn)一步的運(yùn)算博个、推理,輔助用戶做更好的決策功偿。

這套由語音識別盆佣、語義理解、知識圖譜等技術(shù)梳理成一套成體系的「知音」交互引擎械荷,主要是在加固此前搜狗在這方面的技術(shù)共耍、產(chǎn)品積累,并讓其朝高效吨瞎、更智能化的方向走痹兜。

基于深度學(xué)習(xí)平臺搭建識別引擎,提高語音識別效率颤诀、實(shí)現(xiàn)實(shí)時(shí)翻譯功能

發(fā)布「知音搜索」后字旭,搜狗則開始基于已有的深度學(xué)習(xí)平臺搭建自己的識別引擎,一方面依據(jù)人類說話的生物特征將每一個(gè)音節(jié)分為獨(dú)立的幀崖叫,提高對靜音的識別遗淳,進(jìn)一步提高語音識別(將語音轉(zhuǎn)化為文本)的效率;另一方面心傀,在語音識別的框架下建立聲學(xué)模型屈暗,根據(jù)人在發(fā)音時(shí)聲音信號和錄音信號波形的對比,實(shí)現(xiàn)錄音和文字之間的映射脂男。

其中养叛,在語音實(shí)時(shí)翻譯技術(shù)上,搜狗采用基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯技術(shù)疆液,以文本斷句為橋梁,做到用戶在一直說話的同時(shí)陕贮,系統(tǒng)將輸入的語音進(jìn)行區(qū)分堕油、翻譯,將中、英文短語之間的映射關(guān)系建立起來掉缺,利用語音模型將詞序或語序進(jìn)行調(diào)整卜录,實(shí)現(xiàn)語音翻譯同傳。

搜狗 CEO 王小川在演講現(xiàn)場中展示搜狗語音的實(shí)時(shí)翻譯功能


除了技術(shù)框架的搭建眶明,大量的訓(xùn)練數(shù)據(jù)是確保語音識別準(zhǔn)確率的基礎(chǔ)艰毒,因率先在中文手機(jī)輸入法中搶占先機(jī),以及大量搜索用戶的基礎(chǔ)搜囱,讓搜狗的語音識別取得了良好的效果丑瞧,也成為語音實(shí)時(shí)翻譯的重要基礎(chǔ)。據(jù)搜狗團(tuán)隊(duì)的介紹蜀肘,搜狗語音識別的準(zhǔn)確率已達(dá)到 97% 绊汹。而在當(dāng)時(shí),單是搜狗語音輸入法每日的請求次數(shù)就已經(jīng)超過 1.8 億次扮宠,也就是大約 16 萬小時(shí)的語料規(guī)模西乖。

推進(jìn)語音技術(shù)在產(chǎn)品中的落地,并非做簡單的技術(shù)提供商

隨著人工智能技術(shù)得到一定的進(jìn)展坛增,搜狗也逐漸考慮實(shí)現(xiàn)技術(shù)在產(chǎn)品中落地的事情获雕。在這一戰(zhàn)略過程中,搜狗并不打算做一個(gè)純粹的技術(shù)出售商收捣,游離于產(chǎn)品之外做技術(shù)的整合和貢獻(xiàn)届案,而是將產(chǎn)品與技術(shù)緊密聯(lián)系在一起,既做技術(shù)又做產(chǎn)品坏晦,或者在與他人合作時(shí)萝玷,依靠自己的人工智能算法和別人的數(shù)據(jù)去對接

對此昆婿,搜狗 CTO 楊洪濤曾表示球碉,「如果只是開放 SDK 接口供開發(fā)者嵌入和使用,這樣雙方就不能進(jìn)行良好的互動仓蛆,最終的產(chǎn)品體驗(yàn)一定不會好睁冬,而好的產(chǎn)品體驗(yàn)需要兩個(gè)團(tuán)隊(duì)共同的緊密結(jié)合】锤恚」

在去年 12 月份豆拨,搜狗宣布與四維圖新、飛歌展開合作能庆,三方共同研發(fā)智能車聯(lián)網(wǎng)軟硬件解決方案施禾,推出飛歌最新的 G8Ⅱ 后裝智能車機(jī)。其中搁胆,搜狗語音提供的車載語音系統(tǒng)已在車載場景下做了專項(xiàng)優(yōu)化弥搞,是基于搜狗語音交互引擎「知音」面向車載方向的升級邮绿。同時(shí),其與搜狗語音地圖進(jìn)行整合后攀例,用戶可通過自然語音交互的方式向?qū)Ш较到y(tǒng)輸入目的地船逮。

在今年 3 月份的小米新品發(fā)布會上,小米發(fā)布了與搜狗語音深度結(jié)合的智能語音電視——小米電視 4A粤铭,依靠搜狗的語義理解技術(shù)及其在小米 4A 使用場景下的優(yōu)化挖胃,用戶能夠在向電視提出復(fù)合指令時(shí)得到精準(zhǔn)的反饋結(jié)果。另外梆惯,搜狗語音和小米還一起建立了同步上線機(jī)制酱鸭,在小米電視內(nèi)容上線更新的同時(shí),搜狗語音都將快速跟進(jìn)優(yōu)化加袋,為用戶提供良好的交互體驗(yàn)凛辣。

小米智能語音電視發(fā)布會


前不久,會議平板廠商視源股份發(fā)布首款智能語音平板 MAXHUB职烧,其中就整合了搜狗的語音技術(shù)扁誓。在使用這款會議平板的過程中,用戶用自然的語音指令即可調(diào)動語音助手執(zhí)行相應(yīng)的任務(wù)蚀之,提高辦公及會議效率蝗敢。

語音交互的剛需在于駕車、客廳足删、戶外這幾個(gè)方向寿谴,產(chǎn)品本身也必須是「剛需」

就跟當(dāng)初放棄搜狗語音助手應(yīng)用一樣的道理,搜狗語音負(fù)責(zé)人王硯峰認(rèn)為失受,技術(shù)應(yīng)該用在能夠真正解決用戶實(shí)際問題的方向上讶泰,躺在手機(jī)上的語音助手并不能幫人們解決實(shí)際的需求。在物聯(lián)網(wǎng)和車聯(lián)網(wǎng)時(shí)代拂到,更自然的人機(jī)交互方式已成為一個(gè)趨勢痪署,而語音助手則需要找到它真正的用武之地。

王硯峰進(jìn)一步表示兄旬,語音交互的剛需存在于駕車狼犯、客廳、戶外等不方便使用鍵盤打字的場景中领铐,另外悯森,產(chǎn)品自身也應(yīng)該是剛需。如目前的機(jī)器人并不足以解決用戶的實(shí)際需求绪撵,因此搜狗也沒有把它作為一個(gè)跟進(jìn)的方向瓢姻,而是希望繼續(xù)在以上三個(gè)場景中將語音交互的體驗(yàn)做得更好、更深音诈,給用戶帶來實(shí)際價(jià)值幻碱。

目前续膳,搜狗一方面通過產(chǎn)品將語音技術(shù)更多的落地到用戶端,另一方面則深耕技術(shù)收班,投入到對前沿技術(shù)的研發(fā)中,如與清華大學(xué)聯(lián)合成立「清華大學(xué)天工智能計(jì)算研究院」谒兄。

從以上來看摔桦,我們沒有在搜狗語音身上看到「大雜燴」形式的產(chǎn)業(yè)布局,而是聚焦在垂直領(lǐng)域承疲,尋找并切入剛需市場邻耕,對技術(shù)進(jìn)行深化以及貼近產(chǎn)品式的研究,方向是如此的堅(jiān)決且明朗燕鸽。

活動預(yù)告:
語見 語音智能峰會 | WARE 2017

4 月 15 日(本周六)兄世,深圳灣(公眾號 ID:shenzhenware)將舉辦「語見 語音智能峰會 | WARE 2017」,本屆峰會啊研,將聚焦語音智能御滩,邀請行業(yè)領(lǐng)軍企業(yè)、以及行業(yè)意見領(lǐng)袖党远,分享關(guān)于語音智能的相關(guān)平臺技術(shù)和應(yīng)用案例削解,通過會議的交流互動,以及會議主題的傳播沟娱,幫助人們更好的預(yù)見未來氛驮。

屆時(shí),搜狗公司桌面事業(yè)部高級總監(jiān)济似,桌面研究部和語音交互技術(shù)中心負(fù)責(zé)人王硯峰將出席本次峰會矫废,發(fā)表『從語音到語言』的主題演講。

點(diǎn)擊此處砰蠢,進(jìn)入峰會報(bào)名頁面蓖扑,可了解峰會詳情。

>>
Back to top btn
亚洲AV无码国产精品网址,久久亚洲AV成人出白浆无码国产,日韩AV美乳欧美,永久免费AV无码软件app下载