擁抱百度、全面開放娘锁,坐擁 8500 萬 IoT 終端的小米想要「朋友多多的」
在和「小愛同學(xué)」相處數(shù)日后如捅,我發(fā)現(xiàn)語音智能把 IoT 盤活了
語音交互第一次突破了人機(jī)交互距離的限制秆吵。
上周二角塑,小米在北京召開了首屆小米 IoT 開發(fā)者大會(huì),雷軍宣布淘讥,在接入 8500 萬設(shè)備之后圃伶,小米 IoT 平臺(tái)迎來全面開放,包含模塊和硬件開放準(zhǔn)入、米家 APP 開放接入窒朋、新零售渠道開放搀罢、智能設(shè)備互聯(lián)互通開放控制和 AI 云、大數(shù)據(jù)的開放共享侥猩。
四個(gè)月前榔至,小米的智能音箱「小愛同學(xué)」發(fā)布時(shí),小米在 IoT 領(lǐng)域的積累為 AI 產(chǎn)品帶來的助力就已經(jīng)顯露出來欺劳。
作為「小愛同學(xué)」的第一批用戶唧取,順為資本投資經(jīng)理段譽(yù)在自己的公眾號(hào)上,撰文講述了自己和「小愛同學(xué)」的相處時(shí)光划提,以及他對語音智能的一些行業(yè)洞見枫弟。
本文系段譽(yù)的投稿,深圳灣(公眾號(hào) ID:shenzhenware)在保留原文內(nèi)容基礎(chǔ)上鹏往,對文字進(jìn)行了部分優(yōu)化媒区。
段譽(yù),2013 年初加入順為資本掸犬,主要負(fù)責(zé)考察移動(dòng)互聯(lián)網(wǎng)和智能硬件領(lǐng)域的投資機(jī)會(huì)袜漩,曾參與了華米科技、Yeelink湾碎、Ninebot宙攻、馭光科技等公司的投資。段譽(yù)畢業(yè)于北京大學(xué)經(jīng)濟(jì)學(xué)院介褥,擁有經(jīng)濟(jì)學(xué)學(xué)士和碩士學(xué)位座掘。業(yè)余時(shí)間,他喜歡健身和越野跑柔滔,曾完成了北京 TNF 21KM溢陪,寧海 50KM 越野挑戰(zhàn)賽等賽事。
故事的開始
前兩天朋友跑來問我睛廊,如何在自己的豪宅布置智能家居形真。交流了各種協(xié)議走線問題后,我問他控制中心怎么做超全,這位壕哥提出咆霜,打算用美帝的 Control4 的觸控面板做中控。
屌絲終于在此刻找到了自豪感嘶朱,我淡淡地告訴他蛾坯,自從用了粗糧家的「小愛同學(xué)」,家里的無線開關(guān)已經(jīng)開始積灰了疏遏,更不用提智能家庭 App 了脉课。
我在「小愛同學(xué)」身邊發(fā)現(xiàn)了語音交互的妙不可言
雖然無法精確度量救军,但喜歡窩在沙發(fā)上看國劇的我,本能地發(fā)現(xiàn)說一句「小愛同學(xué)倘零,關(guān)閉客廳的燈」唱遭,要比伸手去找遙控器(或者遙控器替代品)要省時(shí)、省力视事、耗能少胆萧。
某聲學(xué)項(xiàng)目的 FA 曾嚴(yán)謹(jǐn)?shù)乇容^過不同交互方式的優(yōu)劣庆揩,當(dāng)然他們的結(jié)論是 Voice First(語音交互優(yōu)先)俐东。而我的理解是:對于不同的指令任務(wù),有不同的最佳交互路徑订晌。
對于復(fù)雜的長時(shí)間輸入(例如寫這篇文章虏辫,或是 coding),目前仍然需要鍵盤的支持锈拨。對于多輪次復(fù)雜邏輯的交互砌庄,視覺交互的反饋更快,觸控也具有一定優(yōu)勢奕枢,例如重設(shè)一部手機(jī)娄昆,或是在 App 上買機(jī)票。
但如果是單輪輕度輸入缝彬,語音交互的優(yōu)勢就會(huì)很明顯萌焰,例如,讓「小愛同學(xué)」幫忙設(shè)置早上 7 點(diǎn)的鬧鐘谷浅,絕對是「Killer App」扒俯。更有趣的是,在這個(gè)場景下一疯,復(fù)雜的輸入設(shè)置——早晨撼玄、7點(diǎn)、每天重復(fù)墩邀、確認(rèn)——通過語音交互可以一氣呵成掌猛,妙不可言。
我們更喜歡語音交互辣往,并非因?yàn)橛姓Z音識(shí)別技術(shù)兔院,或是語音智能對話,而是因?yàn)檎Z音交互第一次突破了人機(jī)交互距離的限制站削。能夠躺在床上/沙發(fā)上隨意發(fā)號(hào)施令坊萝,過去只能由「真人助理」來完成,現(xiàn)在可以由設(shè)備來完成了。
雖然這些年 Siri 等手機(jī)語音助手一直致力于解決同樣的問題十偶,但單純拿起手機(jī)按下 Home 鍵再舉到嘴邊做這個(gè)發(fā)號(hào)施令的動(dòng)作菩鲜,就已經(jīng)很令人掃興了,更不要說因?yàn)橹形膶υ挷粔蛑悄艿牖琒iri 時(shí)不時(shí)的答非所問接校。
除了語音交互技術(shù)之外,還有通過視覺或超聲波的「隔空手勢識(shí)別與交互」的技術(shù)狮崩,但它們相對于同樣遠(yuǎn)距離的語音交互蛛勉,使用的復(fù)雜度和學(xué)習(xí)成本都太高了。
我在「小愛同學(xué)」身后學(xué)習(xí)了遠(yuǎn)場語音技術(shù)
遠(yuǎn)場語音交互的一系列功能是如何實(shí)現(xiàn)的呢睦柴?它和近場語音的區(qū)別在哪里诽凌?
帶著這些問題,我研究了相非老師的技術(shù)架構(gòu)圖:
在進(jìn)行語音識(shí)別(包括本地和云端)之前侣诵,有一系列復(fù)雜的聲學(xué)前端算法,包括:
- 回波抵消(去除音箱自己播放的音樂)
- 波束形成(只聽人說話的那個(gè)方向狱窘,去除其他方向的干擾)
- 去混響(去除桌椅板凳的聲音反射)
- 聲紋識(shí)別(區(qū)分爸爸在說還是媽媽在說)
經(jīng)過這一系列的聲學(xué)處理杜顺,相對「干凈」的語音信號(hào)才會(huì)進(jìn)入負(fù)責(zé)喚醒的模型,喚醒之后才會(huì)進(jìn)一步地進(jìn)入云端負(fù)責(zé)語音識(shí)別的模型蘸炸。
這一交互涉及到了:
- 物理硬件層(聲腔結(jié)構(gòu)設(shè)計(jì)躬络,麥克風(fēng)陣列設(shè)計(jì))
- 信號(hào)層(上述聲學(xué)處理)
- 后續(xù)的數(shù)據(jù)層(語音識(shí)別、NLP幻馁、TTS 等)
這三層分別需要物理聲學(xué)洗鸵、信號(hào)處理、和計(jì)算機(jī)專業(yè)三個(gè)領(lǐng)域的人才相互配合仗嗦,是一個(gè)相當(dāng)復(fù)雜的系統(tǒng)工程膘滨。
以上這些知識(shí),還只是語音技術(shù)層面稀拐。作為消費(fèi)級(jí)產(chǎn)品火邓,智能音箱想要達(dá)到好的用戶體驗(yàn)效果,還涉及到產(chǎn)品層面德撬、以及產(chǎn)品之上應(yīng)用層面的一系列問題铲咨。
我在「小愛同學(xué)」身上看到了未來已來
IoT 喊了很多年,從 20 年前的智能家居蜓洪,到 2009 年無錫落地的物聯(lián)網(wǎng)產(chǎn)業(yè)園纤勒,再到 2014 年火熱的智能家居創(chuàng)業(yè),乃至去年底孫正義大神提出的「鞋子比人更聰明」隆檀,IoT 都處在只打雷不下雨的尷尬狀態(tài)摇天。究其原因粹湃,我曾經(jīng)認(rèn)為是「云-網(wǎng)-端」三層中端的密度不夠,即設(shè)備數(shù)量還不夠多泉坐,從而數(shù)據(jù)量不夠大为鳄,和人接觸點(diǎn)也不夠多。
根據(jù)小米最新公布的數(shù)據(jù)腕让,MIoT 在 2016 年底大約 5000 萬入網(wǎng)設(shè)備孤钦,2017 年中達(dá)到 6000 萬臺(tái),2017 年 11 月在小米 IoT 開發(fā)者大會(huì)上纯丸,公布了 8500 萬的入網(wǎng)設(shè)備偏形。
在我看來,5000 萬和 8000 萬并沒有本質(zhì)的差別液南,但這些 IoT 設(shè)備一旦融入了智能語音交互后壳猜,原先的 App 指令控制勾徽、傳感器觸發(fā)滑凉,就變成了遠(yuǎn)場語音控制。這樣一來喘帚,交互界面從單一的手機(jī) App(家里不方便)畅姊、傳感器觸發(fā)(冷冰冰且不豐富),擴(kuò)展到了無處不在的語音指令(方便且有溫度)吹由。
當(dāng)然粗合,語音交互絕不只是遠(yuǎn)距離版的遙控器而已。
獨(dú)立于智能家居的硬件設(shè)備外乌昔,語音交互有機(jī)會(huì)將隨身設(shè)備隙疚、車載設(shè)備、乃至互聯(lián)網(wǎng)的一系列服務(wù)串聯(lián)起來磕道。常見的語音交互場景包括:在車?yán)锿ㄟ^語音交互設(shè)備供屉,提前把外賣點(diǎn)好(已經(jīng)實(shí)現(xiàn));在跑步時(shí)通過智能耳機(jī)溺蕉,把家里的熱水器打開(還需要解決低功耗喚醒問題)伶丐;在家通過智能音箱,把凱叔召喚出來給孩子講故事(已經(jīng)實(shí)現(xiàn))疯特。
技術(shù)本身就是讓原本少數(shù)人的特權(quán)(鋼鐵俠擁有的 Javis)飛入尋常百姓家录别。能夠見證這一過程羹与,的確令人興奮。