速記和同傳可以轉行了绍移,搜狗 398 元的錄音翻譯筆現(xiàn)已開售
虛擬主播盔憨、智能硬件… AI 的下一個應用突破會在哪里 | 對話搜狗王小川
我們認為,靠技術創(chuàng)新讯沈,可以獲得巨大的市場份額郁岩。
和國內 BAT 大型發(fā)布會高唱 AI 賦能各種場景的論調不太一致的地方,是華爾街對于 AI 的態(tài)度:回歸冷靜问慎,伴隨對 AI 公司的投資放緩萍摊、估值下移。
在上周香港召開的 RISE 大會上如叼,微軟冰木、亞馬遜、LINE笼恰、索菲亞機器人等領軍企業(yè)帶著數(shù)十家高唱 AI 的企業(yè)踊沸,在 keynote 和圓桌環(huán)節(jié)悉數(shù)登場。其中就包含行業(yè)明星和新秀社证,與老練穩(wěn)重的老牌巨頭相比逼龟,他們展示了獨有的活力,與參會者積極的討論下一個科技熱潮追葡。
同樣亮相 RISE 大會的搜狗腺律,則在大會上發(fā)布了全球首個高度實用化、定制化的虛擬主播宜肉。不需要主播本人的出境匀钧,只需要央視新聞主播姚雪松 1.5 個小時的音視頻數(shù)據(jù),結合語音谬返、圖像等多模態(tài)信息進行聯(lián)合建模訓練榴捡,輸入一段 RISE 大會文字稿,就可以快速預測生成與真人無異的播報效果朱浴。(觀看以下視頻了解實況)
在「兜售」了一遍搜狗以語言為核心的 AI 戰(zhàn)略布局后吊圾,搜狗出人意料地在大會上爆料,將在年底前發(fā)布 4 款新的智能硬件翰蠢。
帶著一些對于 AI 落地的疑問项乒,深圳灣發(fā)起了一次與王小川的對話。
是嗎梁沧?AI 已經沒有那么吃香了檀何?
在人工智能方面,我認為中國還是有機會跟美國在應用層面上齊頭并進廷支。
2018 年 3 月 5 日频鉴,人工智能產業(yè)第二次被寫入政府工作報告。據(jù)統(tǒng)計恋拍,2017 年中國人工智能核心產業(yè)規(guī)模超過 700 億元垛孔,隨著各地人工智能建設的逐步啟動,預計到 2020 年施敢,中國人工智能核心產業(yè)規(guī)模將超過 1600 億元周荐,年復合增長率將達 31.7%狭莱。
事實上,人工智能不是一個新課題概作,上個世紀 60 年代腋妙、80 年代就分別有兩波人工智能熱潮。不同于以往人工智能只存在于高校讯榕,現(xiàn)在參與人工智能的企業(yè)數(shù)是過去的數(shù)倍骤素,可以說,現(xiàn)在人工智能才開始真正走向了實用愚屁。
在目前的中國經濟體系中谆甜,互聯(lián)網是最有創(chuàng)新活力的一個版塊,擁有著龐大的用戶規(guī)模集绰。而以這個群體為核心规辱,中國在人工智能應用領域具備很大優(yōu)勢。這些互聯(lián)網公司有大量的數(shù)據(jù)栽燕,有足夠的資金和創(chuàng)新動力罕袋,也能吸引不少工程師人才,甚至是美國的頂尖科學家碍岔。
在技術研究方面浴讯,中國略顯薄弱。好在目前全球是一個知識共享體系蔼啦,在有最前沿的人工智能論文出來之后榆纽,我們很快就能學習到新的學術成果,并將之轉化成生產力捏肢。因此奈籽,在人工智能應用層面上,我認為中國還是有機會跟美國齊頭并進的鸵赫。
那么衣屏,AI 的下一個應用突破會在哪里?
我們已看到當前最熱的「智能音箱大戰(zhàn)」...這些事情背后有一個共同點——讓人工智能開始去解決語言的問題辩棒。
在這一年間狼忱,人工智能領域有許多新的突破。包括當前最熱「智能音箱大戰(zhàn)」一睁,以及其他「黑科技」钻弄。例如,Google 在今年 I/O 大會上提出者吁,讓機器幫助人打電話預訂餐廳等窘俺。所有這些事情背后都有一個共同點,那就是讓人工智能開始去解決語言的問題砚偶。
我認為以后 AI 會融入到方方面面批销,并呈現(xiàn)這樣一個消費趨勢——機器越來越懂人,而不是人去適應機器染坯。比如均芽,從以前的五筆輸入法到現(xiàn)在的拼音、語音輸入单鹿,就是一個從人適應機器到機器適應人的一個典例掀宋。
未來的 AI,應該可以做到讓人和機器更自然地交流仲锄,變得更聰明且能幫人類處理更多的工作劲妙。人工智能可能會在以下幾個領域率先有所發(fā)展:
- 一是識別。比如涉及到大量識別工作的安防領域儒喊。
- 二是商業(yè)智能镣奋,即讓機器智能做出決策判斷。比如在投資等一些領域怀愧,讓機器做出比人類更高效侨颈、可靠的判斷。
- 三是在娛樂產業(yè)芯义。人類需要享受藝術和文化生活哈垢,而目前包括畫作、音樂扛拨、影視劇耘分、游戲等在內的相關作品都由人創(chuàng)作。未來在 AI 的幫助下绑警,創(chuàng)作效率可以得到極大的提高求泰,為人類提供更好的娛樂產品。
- 另外在這些垂直領域计盒,AI 也會有大的突破:一個是醫(yī)療拜秧,一個是電商和客服。
僅 1.5 小時的數(shù)據(jù)訓練章郁,就能生成虛擬主播枉氮,搜狗家的技術優(yōu)勢在哪里?
這是全球首款高實用化暖庄、定制化的虛擬主播聊替,采用搜狗業(yè)界領先的語音合成、唇語合成培廓、音視頻聯(lián)合建模惹悄、深度學習等技術。
在本次大會(RISE)亮相的虛擬主播是全球首款高實用化肩钠、定制化的虛擬主播泣港,目前市面上還沒有類似的產品暂殖。
它采用了搜狗在語音合成、唇語合成当纱、音視頻聯(lián)合建模呛每、深度學習等技術的研究成果。采用一個主播的音視頻數(shù)據(jù)坡氯,結合語音晨横、圖像等多模態(tài)信息進行聯(lián)合建模訓練,給機器輸入一段文字箫柳,便可以生成一段音視頻同步的新聞播報手形。
其最大的難點在于,經過真人主播 1.5 小時的數(shù)據(jù)訓練后悯恍,僅提供一段文本库糠,機器要通過虛擬主播技術來生成逼真度極高的視頻,并且還要確保視頻中主播的音頻和臉部表情涮毫、唇動能夠自然且一致曼玩。
至于技術優(yōu)勢方面,早在 2012 年窒百,搜狗就開始研究語音合成技術黍判,經過多年的技術沉淀和數(shù)據(jù)積累,目前已具備多語種篙梢、多音色的語音合成能力顷帖,并在業(yè)內首推個性化語音合成和情感遷移的技術。用戶上傳少量音頻渤滞,即可合成高質量的個性化音色贬墩,并且能快速遷移成多種講話風格(相聲貫口、唱歌妄呕、繞口令等)陶舞。
未來,搜狗會在虛擬主播情感表達上做更深入的研究绪励,讓虛擬主播的真實感得到提升肿孵。結合搜狗語音交互系統(tǒng)知音 OS 能力,我們可以讓虛擬主播具備交互能力疏魏。例如用在帶屏幕的智能音箱停做,虛擬主播就可以發(fā)展成為虛擬私人助理,用戶可以從單純與聲音交互變成與一個逼真的虛擬人物交互大莫。
這么多很牛的技術蛉腌,具體會應用在哪里?
搜狗希望可以讓人和機器的交互更自然。接下來我們會推出更完整的虛擬主播烙丛,它能跟你在互動時開始具有自己的表情舅巷,甚至模仿具體的人的聲音跟你去互動,跟用戶的交互更自然親切河咽。
自然交互方面钠右,搜狗涉及的技術包括語音識別與合成、圖像識別與合成等库北。其中爬舰,搜狗中文語音識別準確率已經做到 98%们陆。
目前寒瓦,搜狗輸入法已經是中國最大的語音輸入引擎,為我們的語音交互研究積累了大量語料和用戶行為基礎坪仇。接下來杂腰,我們會把更多的工作聚焦到語種、方言椅文、麥克風矩陣喂很,以及語音的糾錯修改等。
除了語音識別以外皆刺,我們開始嘗試對于表情做更多的理解少辣,其中包括:
唇語識別,即機器通過圖像識別捕捉人嘴唇運動羡蛾,并建立識別模型漓帅。搜狗中文唇語識別技術在垂直應用領域中的準確率超過 90%。
情感遷移技術痴怨,即生成相同音色忙干,實現(xiàn)個性化語音合成。這一技術對聲音結構浪藻,主要在風格捐迫、音色等方面,有更深層次的理解爱葵。
基于以上幾項技術聯(lián)合建模施戴,接下來我們會推出更完整的虛擬主播,它能跟你在互動時具備自己的表情萌丈,甚至模仿具體的人的聲音跟你去互動暇韧,從而跟用戶的交互變得更自然親切。
這么多很牛的技術浓瞪,怎么賺錢懈玻?
我們認為,靠技術創(chuàng)新,可以獲得巨大的市場份額涂乌。
過去艺栈,搜狗主要依靠搜索廣告盈利,提供的是人和信息的服務湾盒。伴隨 AI 技術的應用湿右,用戶能夠與機器進行更自然的語言交互。另外罚勾,機器通過計算毅人,對語言邏輯進行處理,能給用戶提供更精準的答案尖殃。
在 AI 技術的幫助下丈莺,這一模式會獲得更大的增值。這一競爭力的直接體現(xiàn)就在于收入的提升送丰。我們認為缔俄,靠技術創(chuàng)新,可以獲得巨大的市場份額器躏。
概括來講俐载,我們的盈利現(xiàn)在分成三大部分:
- 搜索引擎:搜狗在國內占有 18% 的市場份額,一年收入規(guī)模達到 60 億登失。
- 搜狗輸入法:幫助中國人更好的用中文表達自己的想法遏佣,目前,搜狗輸入法在中國 PC 和手機上都處于相對壟斷的位置揽浙。
- 翻譯:今年我們推出了新的智能硬件状婶,搜狗旅行翻譯寶和搜狗錄音翻譯筆,兩款以 AI 翻譯為核心捏萍,能夠幫大家解決語言問題的產品太抓。這些產品和搜狗的輸入法是一脈相承的,也是幫大家表達和獲取信息令杈,而范圍從表達中文走敌,獲取中文信息,擴展到了獲取全世界的信息逗噩,和全世界對話掉丽。
另外,在電商和客服等垂直行業(yè)异雁,我們會尋求更大的突破捶障。例如通過人機結合,幫助電商人員更好的表達他們的想法纲刀,從而更方便的提供電商咨詢等服務项炼。
從「造硬件」到「賣硬件」,搜狗這家互聯(lián)網公司有什么心得?
一個新的產品出來之后锭部,從用戶對它有大概的認知暂论,到真正去使用,再到去進行口碑傳播拌禾,需要一個過程取胎。
我們知道,一個新的產品出來之后湃窍,從用戶對它有大概的認知闻蛀,到真正去使用,再到去進行口碑傳播您市,需要一個過程觉痛。
以搜狗的翻譯寶和錄音翻譯筆這兩款產品為例,從產品角度來講墨坚,目前整個翻譯市場還是相對比較垂直秧饮、小眾映挂。我們的翻譯類產品從推出到現(xiàn)在僅有幾個月時間泽篮,在這期間,用戶逐漸形成了對產品柑船、技術帽撑、企業(yè)的認知。
最終鞍时,這兩款產品的市場反饋也都不錯:翻譯寶在首發(fā)日開售 1 小時后亏拉,各地就陸續(xù)售罄,當日銷售額突破 1000 萬逆巍;搜狗錄音翻譯筆發(fā)售前在京東平臺的預約量超過 11 萬及塘。
未來,無論是在旅游還是在商務場景锐极,跨語言交流市場將會巨大的發(fā)展?jié)摿狭牛压穼⒋俗鳛橹匾繕瞬⒂兴鳛椤?/p>
關于川總爆料今年年內還會推出 4 款新硬件,可以了解更多嗎灵再?
可以透露的信息是肋层,它們是以語言為核心的,2C 的翎迁、便攜性產品栋猖。
這些新產品目前還處于保密階段,可以透露的信息是汪榔,它們是以語言為核心的蒲拉,2C 的、便攜性產品。
在智能硬件布局上雌团,搜狗遵循的核心的邏輯是爆班,產品具有核心的語音、語言交互技術辱姨,并為某個和用戶個人直接相關柿菩、真實落地的場景打造。