Gowild 邱楠:知識圖譜是聊天機器人走向強人工智能的關鍵 | WARE 2017
AAAI 2018 論文收錄結果公布谐檀,Gowild 狗尾草兩篇論文同時入選
國內(nèi)唯一入選兩篇論文的創(chuàng)業(yè)公司惩歉,勢頭直逼 BAT等脂。
11 月撑蚌,第 32 屆人工智能頂級國際會議 AAAI 2018 論文收錄結果公布上遥,國內(nèi)人工智能創(chuàng)業(yè)團隊深圳 Gowild(中文:狗尾草)智能科技有限公司兩篇論文入選,是國內(nèi)唯一入選兩篇論文的創(chuàng)業(yè)公司争涌。
AAAI 人工智能大會創(chuàng)辦于 1980 年粉楚,是人工智能領域的頂級盛會。據(jù)了解亮垫,隨著 AI 研究熱潮的到來模软,AAAI 的參會人數(shù)和論文數(shù)量也逐年攀升,其中饮潦,2017 年注冊參會人數(shù)接近 2000 人燃异,論文投稿量超過 2500 篇。
本次 Gowild 入選的兩篇論文继蜡,由 Gowild 旗下人工智能研究院 Gowild AI Lab 分別與蘇州大學回俐、華東師范大學合作發(fā)表,論文作者將于 2018 年 2 月受邀前往美國新奧爾良進行演講稀并。
Gowild AI Lab 是 Gowild 旗下的 AI 團隊仅颇,由長期帶隊參與國家科研項目的知識圖譜專家王昊奮博士發(fā)起,專注于 AI 前沿研究及產(chǎn)品應用落地碘举。2017 年忘瓦,推出 Gowild AI Virtual life Engine(Gowild人工智能虛擬生命引擎,簡稱「GAVE」)引颈,成功應用于 Gowild 旗下的 holoera 及公子小白系列產(chǎn)品中耕皮。
另一方面,Gowild AI Lab 積極啟動校企合作线欲,與蘇州大學明场、華東師范大學成立聯(lián)合實驗室,建立 AI 智庫李丰,推動產(chǎn)學研的良好轉化苦锨。此次兩篇論文的入選,正是校企合作豐碩成果的體現(xiàn)趴泌。
附:核心的論文情況介紹
這兩篇論文所關注的主題舟舒,都是實現(xiàn)虛擬生命的過程中遇到的實際問題,并通過校企合作進行研究和落地嗜憔。兩篇論文分別研究了命名實體識別(NER)和推薦系統(tǒng)秃励。前者是自然語言理解(NLU)的基礎功能,而后者可以在產(chǎn)品上體現(xiàn)「生命感」和認知功能吉捶。由于 NLU 技術目前在人工智能領域也僅僅處于起步階段夺鲜,因此皆尔,在 NER 方面的研究,體現(xiàn)了如何利用眾包技術進一步提升數(shù)據(jù)的質量和算法的性能币励,從而增強虛擬生命的感知功能慷蠕。而推薦系統(tǒng)恢准,則以場景化出發(fā)讹语,可以通過對多源異構的知識圖譜進行融合,實現(xiàn)準確的推薦铅匹,讓用戶真實感受到「情感陪伴和關懷」仅胞,從而使得虛擬生命產(chǎn)品每辟,從傳統(tǒng)聊天機器人的「被動交互」,進化到根據(jù)用戶興趣和喜好進行「主動交互」干旧。
1. 和蘇大的合作是基于眾包的NER《Adversarial Learning for Chinese NER from Crowd Annotations》
訓練命名實體識別系統(tǒng)時渠欺,需要大量的人工標注語料。為了保證質量椎眯,通常需要雇傭專家來進行標注峻堰,但這樣的流程成本高,且難以擴大規(guī)模盅视。我們采用眾包標注方法雇傭普通人員來快速低成本完成標注任務捐名,但獲取的數(shù)據(jù)包含噪音。我們提出了利用眾包標注數(shù)據(jù)來學習對抗網(wǎng)絡模型的方法闹击,構建中文實體識別系統(tǒng)镶蹋。受到對抗網(wǎng)絡學習的啟發(fā),我們在模型中使用了兩個雙向 LSTM 模塊赏半,來分別學習標注員的公有信息和屬于不同標注員的私有信息贺归。對抗學習的思想體現(xiàn)在公有塊的學習過程中,以不同標注員作為分類目標進行對抗學習断箫。從而達到優(yōu)化公有模塊的學習質量拂酣,使之收斂于真實數(shù)據(jù) (專家標注數(shù)據(jù))。本文的算法框架如下圖:
其中仲义,左邊部分是作為 baseline 算法的 CRF+LSTM婶熬,右邊部分是本文提出的模型框架。
最終構建的中文實體識別系統(tǒng)(Crowd-NER)在真實數(shù)據(jù)上的性能比傳統(tǒng) CRF 模型高7%(F1)埃撵,如下圖所示:
2. 和華師大的合作是融合時間因素的標簽推薦方法『Personalized Time-Aware Tag Recommendation』
標簽是用戶用來管理和查找網(wǎng)絡資源的重要工具赵颅,如何給用戶推薦合適的標簽來標注網(wǎng)絡資源也是當前的研究熱點。傳統(tǒng)的標簽推薦技術有基于張量分解的協(xié)同過濾方法 PITF暂刘,但此類模型沒有捕捉到時間對用戶打標簽行為的影響饺谬。受到考慮了時間影響的 BLL 類工作的啟發(fā),本文提出了一種融合時間因素的標簽推薦方法(Time-Aware PITF, TAPITF)谣拣。該模型在 PITF 的基礎上增加了時間權重和頻次權重募寨,使用 Hawkes 過程建模了用戶傾向于使用自己最近最多使用過的標簽這一行為特征族展,同時也考慮了目標資源上熱門標簽的影響。在真實標簽數(shù)據(jù)集上的實驗表明我們的方法具有較好的推薦準確度和一定的新穎性拔鹰。
另外苛谷,本文提出的標簽推薦模型也可以很好地輔助基于對話的音樂推薦任務。在對話系統(tǒng)中格郁,通過對話能夠收集到用戶對于歌曲及標簽的偏好。將收集到的<用戶-歌曲-標簽-時間戳>數(shù)據(jù)使用本文提出的 TAPITF 模型分解后可以得到用戶独悴、歌曲例书、標簽對應的隱向量作為其特征向量表示,用于后續(xù)的音樂推薦刻炒。
在實驗數(shù)據(jù)上决采,TAPITF 模型在準確度和收斂性能上均優(yōu)于其他算法,后續(xù)我們考慮使用深度學習模型 RNN 來建模時間信息以更好地提升模型的效果坟奥。