文心一言的炸場 Demo 還不夠炸榆俺,主要是對手太強大
王小川入場大模型創(chuàng)業(yè)挫望,百川智能立志做出中國最好的大語言模型
附王小川公開信全文后控,附品玩與王小川的訪談實錄
深圳灣消息,搜狗公司創(chuàng)始人王小川 4 月 10 日官宣入場大模型創(chuàng)業(yè)幸冻,和前搜狗 COO 茹立云聯(lián)合創(chuàng)立人工智能公司——百川智能粹庞,一家研發(fā)并提供通用人工智能服務的中國公司,旨在打造中國版的 OpenAI 基礎大模型及顛覆性上層應用洽损。
目前庞溜,團隊已召集包括前搜狗、百度碑定、華為流码、微軟、字節(jié)不傅、騰訊等知名科技公司和其他創(chuàng)業(yè)公司核心成員在內(nèi)的數(shù)十位頂尖 AI 人才旅掂。
而百川智能在官宣前就已經(jīng)獲得 5000 萬美元啟動資金,以及來自清華大學計算機系教授访娶、中國工程院院士商虐、中國科學院院士等眾多中國人工智能學術界領軍人物的支持。
豪華配置崖疤,讓王小川有自信喊出「在年底做出中國最好的大語言模型」的口號秘车。
附王小川公開信全文:
今天我正式宣布,創(chuàng)建「百川智能」劫哼,一家研發(fā)并提供通用人工智能服務的中國公司叮趴。
生活在二十一世紀初是如此幸運,波瀾壯闊的互聯(lián)網(wǎng)革命還沒有謝幕权烧,通用人工智能時代又呼嘯而來眯亦。多年前我曾斷言伤溉,機器掌握語言,通用人工智能時代就來了妻率;我也有暢想乱顾,搜索的未來是問答。ChatGPT 的騰空出世宫静,地動山搖走净,這一切都開始成為現(xiàn)實。ChatGPT 發(fā)布到今天孤里,僅僅 131 天伏伯,每天都有撲面而來的新進展、新突破捌袜。131 天恍如隔世说搅!
大半個世紀以來,科學家們前赴后繼虏等,努力創(chuàng)造通用智能機器蜓堕。這一天終于到來,我們找到了一條巧妙的路徑博其,用 AI 成功將語言轉(zhuǎn)化成了數(shù)學模型。語言是知識迂猴、思考慕淡、溝通和文化的載體。維特根斯坦說沸毁,語言的邊界就是世界的邊界峰髓。當 AI 掌握了語言后,就開始認知世界息尺,成為有知識携兵、能思考、善表達搂誉、會學習的智能體徐紧。我把這樣的智能體稱為「語言 AI」。
人類個體總有消亡的一天炭懊,但能夠?qū)吷闹R通過語言記錄下來供新生命學習并级、繼承,文明因此延續(xù)侮腹。人類協(xié)作也需要個體之間通過語言溝通嘲碧。掌握了溝通和世界知識的語言 AI 不再只是人類的「工具」,而將成為我們的伙伴和超級助理父阻,成為人類文明的一部分愈涩。
智能時代會改寫互聯(lián)網(wǎng)時代的范式望抽。「連接」會被「陪伴」取代履婉,「信息服務」會被「知識服務」取代煤篙,「免費與廣告」會被「付費與高品質(zhì)」取代。
智能時代也會改寫自工業(yè)時代以來的范式谐鼎。曾經(jīng)是專業(yè)化社會分工帶來規(guī)模效應與效率提升舰蟆,而未來會是逆專業(yè)化分工:之前需要很多公司協(xié)作完成的工作,會因為 AI 的賦能「端到端」的完成狸棍。
智能時代將再一次開啟「文藝復興」身害。每個人都會因為 AI 的助力而變得更加強大。用好 AI草戈,一個人就可能做一個公司塌鸯,解決之前難以解決的難題,也更容易成為自己想成為的人唐片。社會也會更加扁平丙猬,以前少數(shù)人才能享有的智力服務,也能更普惠费韭。
告別搜狗后茧球,我已開啟新的遠征:立志往后二十年,為生命科學和醫(yī)學的發(fā)展盡一份力星持,為大眾健康做出一點貢獻抢埋,核心路徑是構(gòu)建生命健康數(shù)學模型,并已經(jīng)付諸行動督暂。ChatGPT 的出現(xiàn)揪垄,也將成為新遠征的重要助力。
不僅如此逻翁,ChatGPT 是我過往經(jīng)歷的延續(xù)和升華饥努。2019 年我將搜狗的使命升級為「讓表達和獲取知識更簡單」,愿景定義為「幫助每個人輕松地對話和書寫八回。便捷地獲得知識和服務酷愧,提升工作效率和生活品質(zhì)」。
搜狗輸入法和搜狗搜索的數(shù)據(jù)制備和產(chǎn)品形態(tài)辽社,也與 ChatGPT 接近伟墙。它們都是把互聯(lián)網(wǎng)上的全部語言數(shù)據(jù)收集、清洗滴铅,壓縮成數(shù)據(jù)庫并構(gòu)建超級產(chǎn)品戳葵。隨著深度學習的發(fā)展,這些產(chǎn)品都多次迭代升級汉匙,全面用上了 Transformer / Bert 等技術拱烁。輸入法猜你想說什么生蚁,搜索猜你想要什么。而 ChatGPT 把這些能力推到了一個全新的高度戏自,是輸入法邦投、搜索之外,第三個把全網(wǎng)數(shù)據(jù)轉(zhuǎn)化成語言服務的超級產(chǎn)品擅笔。搜狗未盡的使命在機器掌握了語言后終于可以實現(xiàn)志衣。
很多朋友認可我的技術理想主義和技術驅(qū)動的創(chuàng)業(yè)經(jīng)驗,鼓勵和支持我做中國的 OpenAI猛们。也有很多搜狗和非搜狗的技術大拿念脯,得知我有做大模型的想法,主動申請參與組隊弯淘,甚至「帶資入組」绿店。
我最動心的是,能和一群有理想的人庐橙,用極致的技術驅(qū)動創(chuàng)造出顛覆性的智能產(chǎn)品假勿。這一次,百川智能將借助語言 AI 的突破态鳖,構(gòu)建中國最好的大模型底座转培,并在搜索、多模態(tài)浆竭、教育堡距、醫(yī)療等方面增強,幫助大眾輕松兆蕉、普惠的獲取世界知識和專業(yè)服務。
籌建百川智能不到兩個月缤沦,已有多位技術合伙人和領軍人物的加入虎韵。到這個月底將會有近 50 人規(guī)模的精英團隊。大模型的訓練也已經(jīng)啟動缸废,進展順利包蓝。按照現(xiàn)在的進度,爭取年內(nèi)發(fā)布國內(nèi)最好的大模型和顛覆性的產(chǎn)品企量。
我們是中國公司测萎,但我們并不希望只是「中國的 OpenAI」,而是能建立世界級的視野和技術品質(zhì)届巩,讓中國享有世界級的產(chǎn)品硅瞧,產(chǎn)生有世界影響力的技術的突破,進而服務海外恕汇。百川本意是眾多的河流匯集奔赴海洋腕唧,象征著眾多數(shù)據(jù)或辖、行業(yè)知識匯聚成為一個強大的智能體系,生生不息枣接。百川也象征著集百家智慧颂暇,更多人與我一道共赴山海。我們呼喚中國的領軍人物但惶、行業(yè)產(chǎn)品經(jīng)理和遠在美國的同仁的加入耳鸯。
附品玩與王小川的訪談實錄:
品玩:公司名字定下來了嗎?不叫五季智能對吧膀曾?
王小川:叫「百川智能」县爬,寓意「海納百川,匯聚知識」妓肢。因為大模型其實就是以語言為核心捌省,把天下知識都匯聚并進行學習的一個過程。
品玩:而且把自己的名字也押進去了碉钠。
王小川:是的纲缓。啟動資金目前是朋友們在支持,一些老團隊也回來了喊废。你可以理解「百川」既是跟世界連接祝高,也是跟我之間的團隊和資源完整地連接在一起。
品玩:融資的進展可以透露一下嗎污筷?
王小川:其實不算融資工闺,第一期也就是 5000 萬美元。首先還是周圍的親友與個人的支持瓣蛀,包括我自己都有投進來陆蟆,面向機構(gòu)的融資會再近期啟動。
品玩:但其實很多投資者都想投你們惋增。
王小川:至少我們能夠訓練出一個好的千億模型叠殷,錢是夠的。至少到今年年底是夠用的诈皿。如果要做 AGI林束,確實還需要很多錢。(具體的需要多少錢稽亏,建議先不披露壶冒,可能容易打臉)
品玩:現(xiàn)在 OpenAI 應該是融了 100 億美金,但實際大規(guī)慕厍福花錢也是 GPT-3 出來之后胖腾,也是 2021 年之后的事情。
王小川:錢很關鍵,但更關鍵的還是里面的人具體的操作胸嘁。企業(yè)是一個生物體瓶摆,無論是技術、團隊性宏、業(yè)務群井,都需要有一個生長的過程。如果強行把人和錢像拼樂高一樣攢起來毫胜,就容易遇到困難书斜。
品玩:那你團隊現(xiàn)在組建得如何了?
王小川:有搜狗原來的班底酵使,也有百度等多家大廠的領軍人物加入荐吉,還有其他創(chuàng)業(yè)公司核心人員的加入。到四月底的話團隊會有 50 人了口渔。其實這是個很好的互補样屠,搜狗原團隊在 2021 年就完成過百億參數(shù)模型國內(nèi)第一,加上其他領軍人物帶隊融入缺脉,在一起就是一個磨合完成且有多元經(jīng)驗的團隊痪欲。
品玩:搜狗的班底能占多少?
王小川:整體占比不超過一半攻礼,主要是快速把底子搭起來业踢。隨著人越來越多,以后占比會越來越低礁扮。我們團隊里有很多「少帥」知举,既有經(jīng)驗、又年輕的人太伊。其實我個人是沒有享受過這種待遇的雇锡。你要知道搜狗最后幾年招人很難的,優(yōu)秀的人才愿意過來跟你聊天僚焦,但沒法跟你共事遮糖。其實就是你當時做的事情不夠性感了。
品玩:說說性感的叠赐,大模型這一塊訓練的怎么樣了?
王小川:我們已經(jīng)開始訓練 500 億參數(shù)的模型了屡江,進展很順利芭概。跟清華的老師們?nèi)チ牡臅r候,他們很驚訝我們的進展惩嘉。年底前我們會發(fā)布對標 GPT-3.5 的大模型罢洲,有信心今年年底做到國內(nèi)最好。
品玩:現(xiàn)在有一種觀點認為,GPT3.5 以后大模型不再適合創(chuàng)業(yè)公司來做了惹苗,創(chuàng)業(yè)公司跟著后面重新做一個大模型意義不大殿较。因為拼的還是大力出奇跡,集中力量辦大事桩蓉。
王小川:行業(yè)中有些人對未來的觀點從來就沒有判斷對過淋纲,一直活在平行宇宙里。大模型就是需要時間長一點院究,認真一點洽瞬,而錢也不是唯一重要的。
我們看到清華學生還是很優(yōu)秀的业汰,而且他們團隊結(jié)構(gòu)比較簡單伙窃,好多大公司反而被自己復雜的人事困住了。
品玩:所以一些即便有技術積累的大公司样漆,其實也有它固有的問題为障。
王小川:你首先需要純粹簡單專注的組織結(jié)構(gòu),從愿景開始能把團隊不斷升級放祟,就像小孩子逐漸長大的過程鳍怨。第一天就拉著小孩在這里面做明星是不現(xiàn)實的。有些公司雖然有大模型這個底子舞竿,但沒碰好就練歪了京景,上戰(zhàn)場更難受。
品玩:但我們看到最近新發(fā)大模型產(chǎn)品的公司骗奖,中美兩地最先跟進 OpenAI 很多都有搜索背景确徙,比如谷歌、百度执桌、360 等鄙皇。你本人也是一手把搜狗做起來的人。是不是搜索公司仰挣,確實有一些先天的技術優(yōu)勢呢伴逸?
王小川:因為今天首先是語言模型,搜索公司做語言確實有先天優(yōu)勢膘壶。而且搜索公司的經(jīng)驗是比較完整的错蝴,從數(shù)據(jù)清洗、轉(zhuǎn)化成模型颓芭,到最后上線提供服務顷锰、甚至在數(shù)據(jù)安全這一塊的經(jīng)驗,其實都干過亡问。公司的組織結(jié)構(gòu)和評價體系官紫,也都有相關性。所以搜索公司起步的時候的確是有優(yōu)勢的。
品玩:大家說「大模型是煉丹束世,prompt 是寫咒」酝陈。這對很多 AI 從業(yè)者來說會有幻滅感,因為你不知道哪一個環(huán)節(jié)就會帶來質(zhì)變毁涉。那你作為一個 AI 的科學家沉帮,你該如何評估你的進程和成果呢?
王小川:我們心里還是有底的薪丁,因為這個東西是有價值的遇西。所以即便沒有像 OpenAI 那樣在短時間內(nèi)激發(fā)起那么多智能,我們也能先讓它變成國內(nèi)最好的企業(yè)严嗜,給人足夠的服務粱檀。
它可以服務很多已經(jīng)存在的場景:比如搜索里面接入,會比傳統(tǒng)的搜索引擎好用得多漫玄;你跟這個醫(yī)療數(shù)據(jù)接入茄蚯,會讓醫(yī)生更靠譜。
那個智能的終極睦优,我們永遠都會去追求渗常。但是我們跟 ChatGPT 不一樣的地方是,我們需要追求落地的場景是不是用得著汗盘。你煉出一個「長生不老丸」皱碘,我煉出一個「延年益壽丹」行么?
品玩:我們現(xiàn)在做的還是通用大模型隐孽,像 OpenAI 其實很少提場景的問題癌椿、提供的接口也比較少。所以「長生不老丸」與「延年益壽丹」菱阵,這兩個目標是否存在矛盾踢俄?
王小川:過去有句話「做中國的 OpenAI,不要只做中國的 ChatGPT」晴及,很多人覺得高級都办,但是這話錯了。
比爾·蓋茨把 ChatGPT 叫做「像發(fā)明 Internet 一樣偉大」虑稼,黃仁勛叫做「iPhone 時刻」琳钉。不過這兩句話講的不是一個意思。
「像 Internet 一樣偉大」是說大模型的意義蛛倦,這個大模型「能讀歌懒、能寫、能理解」胰蝠,能夠產(chǎn)生很多想象力;而黃仁勛講的「iPhone 時刻」,是指 ChatGPT 帶來的這種人機交互茸塞、人機關系發(fā)生變化躲庄。后者更多落腳到人的變化,而非技術钾虐。
ChatGPT 其實是代表了新的人機界面和入口噪窘。今天看起來好像微軟把它包住了,只是作為微軟的一個工具效扫,就像 Google 剛出來的時候只是雅虎的一個搜索框倔监。但未來,ChatGPT 反而是有更大的發(fā)展空間在里面菌仁,所以在我心中以后 Office 可能都是不需要的東西浩习。
品玩:我也認同 Office 以后就不需要,但搜索引擎呢济丘?
王小川:我覺得一個可以叫 GC(Generate Content)谱秽,一個叫 IR(Information Retrieval)。這兩個模型一個像是相對論摹迷,一個像量子力學疟赊。IR 的代表是 Google,很多細節(jié)都知道峡碉,但并不抽象近哟。GC 的代表就是 ChatGPT,壓縮成一個模型鲫寄、把細節(jié)全丟了吉执,也不實時更新,把所有知識都融在了一起塔拳。
在中國我覺得它是有機會的鼠证,把檢索模型和搜索模型裝進 Chat 里,形成一個帶有搜索功能的底座靠抑。對我們而言量九,我們第一天的動力就是要把這個裝進去。但我們不是要做新的搜索引擎颂碧,而是把搜索能力嵌入到 Chat 里面去荠列。
品玩:有些人認為,OpenAI 成功原因之一载城,是它在企業(yè)和學校之外創(chuàng)造了第三種類型的組織形式(OpenAI Nonprofit)肌似。你是經(jīng)歷過細分 AI 領域創(chuàng)業(yè)潮的行業(yè)領軍者,現(xiàn)在也在做大模型創(chuàng)業(yè)诉瓦、對接了很多學校的資源川队。如何看待新業(yè)務對組織結(jié)構(gòu)上帶來的潛在變化力细?
王小川:我認為觀察公司內(nèi)核是第二位的,因為你想從外面打開看里面肯定是看不完整的固额,最好是從外面看它對外提供了什么樣的東西眠蚂。比如 OpenAI 最早是提供 AGI 認知能力、一種「知識」斗躏,像大學里的東西逝慧;但當它一旦變成公司,它就變成提供產(chǎn)品和服務啄糙。
所以大模型確實既需要研究能力笛臣、也需要產(chǎn)品能力,而工程能力是夾在中間的隧饼。它只有先發(fā)現(xiàn)「知識」沈堡,再轉(zhuǎn)成應用。在發(fā)現(xiàn)「知識」這件事情桑李,OpenAI 已經(jīng)突破了天花板踱蛀。所以我們研究的壓力相對小,更多要學習應用的事情贵白。
其次率拒,中美不太一樣的地方是,我們有很多優(yōu)秀的人才其實是固定在高校里的禁荒。所以企業(yè)需要與它們有很好的合作猬膨。所以你看到清華大學很多資深的、甚至院士級的老師呛伴,都會對我們有很多的支持勃痴,這也會降低我們研究的壓力。
品玩:我們公布模型等技術成果的時候热康,會同時考慮發(fā)論文的事情嗎沛申?
王小川:可能會和高校一塊發(fā)吧。
但我認為這不是這場戰(zhàn)役的關鍵姐军。
今天當然自己是需要研究的铁材,但很多也會放到學校里。依托高校是需要的奕锌,我們很多人才儲備也是從高校中過來著觉。
品玩:大家討論的中美之間的大模型競爭的時候,都會不約而同討論語料庫的問題惊暴。很多人覺得英文的語料庫天然很好饼丘,而中文就會相對受限一點。你怎么看待這個問題辽话?
王小川:目前我們中英文的都會用肄鸽,同樣也有很多不錯的英文語料來源卫病。這就跟教小孩一樣的,最終都是靠開發(fā)者利用很多機制去調(diào)語料的來源或者比例典徘。
就好比爸爸講英文忽肛,媽媽講中文,但里面的東西是一致的烂斋。不會因為他用中文學的醫(yī)學知識,換成英文就不會了础废。他在知識層面是一樣的汛骂。
品玩:那算力的問題呢?
王小川:對于我們來說评腺,都不會有太大問題帘瞭。
也像剛才說的,我們不是第一天就要對標「長生不老丸」蒿讥,而是在路上不斷去接近就夠了蝶念。
品玩:這還是一個「中國互聯(lián)網(wǎng)智慧」,我們可以做一個落地更好的芋绸。
王小川:我覺得沒有打過仗的人媒殉,都有一些理想化的東西在。他們對中國 AI 大模型的理解摔敛,要么太 low廷蓉、要么太偉大,這其實都不是一個現(xiàn)實的中國 AI 大模型马昙。
品玩:是桃犬,我們要面對的是一個復雜的東西。
品玩:你之前發(fā)微博行楞,講中國要做中國的 OpenAI攒暇。你是在做這件事情里,唯一提到了四個字叫「愛國之心」子房。這四個字形用,你怎么解釋?
王小川:我在研究生物學的時候池颈,意識到其實我與細胞都是生命體尾序,所以慢慢接受一個概念叫Being。無論一個國家躯砰、民族每币、企業(yè)、個人琢歇、甚至文化兰怠,都是 Being梦鉴。而我也是更大的「大我」中的一部分。后者是有完整歸屬感揭保、甚至是永恒的肥橙。
「你是誰」跟你做的事情是息息相關的,反過來你在做什么也可以反過來驗證你是誰秸侣。
有句話叫「天下為私」存筏,我覺得比「天下為公」更高級。這是一種融為一體的感覺味榛。其實也是我們回答終極問題的一部分椭坚。
品玩:那這會讓你的大模型有什么不一樣嗎?
王小川:我們跟全球大同是有的搏色,但也有互相排異的部分善茎。但首先我們有基本的期許,就是要讓中國更好频轿,你不能做任何有害于中國的事情垂涯。
品玩:怎么看待 AGI 的「終局」?
王小川:其實大家對「終局」的討論都蠻膚淺的航邢。我們應該先問「終局這個世界長啥樣」耕赘,而如果只是講 AGI 是底座,這是沒有畫面感的膳殷。
過去工業(yè)革命的邏輯是分工越細鞠苟、效率越高、越規(guī)幕嘀化当娱。但我們在智能這扇門的面前,可能是「逆社會分工」考榨。
機器使人被普適性地賦能跨细,更像人類擁有了搜索引擎之后,實現(xiàn)了信息獲取的普惠化河质。而我們現(xiàn)在是獲得知識和服務的能力普惠化冀惭。
人最終從工作中解放出來。所以產(chǎn)業(yè)未來會變平掀鹅,深度會壓淺散休、廣度會拉開。人的工作會更加多元化乐尊,未必要像現(xiàn)在一樣戚丸,必須處于流水線中串在一起才能獲得結(jié)果。所以是「逆社會分工」扔嵌。
所以 AGI 可以給人帶來更平等限府。它可能會更像是一種文藝復興夺颤,將重新定義人是什么。
品玩:跟 Sam Altman 這樣頂級創(chuàng)業(yè)者很像胁勺,你似乎也是中國這一波互聯(lián)網(wǎng)創(chuàng)業(yè)者中世澜,很喜歡思考和表達文明級別宏大命題的人。你要思考過為什么嗎署穗?
王小川:這個話題有點太大了寥裂,能聊兩三個小時。但我覺得可能首先是我內(nèi)心強烈的意識案疲,人是平等的抚恒。所以我不只是想要從產(chǎn)品和市場的角度去滿足用戶,而是一直想追問我和這個世界的關系络拌。
編輯:曉月 / 深圳灣