谷歌Gemini與蘋果頂尖華人科學(xué)家離職創(chuàng)業(yè) 聚焦AGI核心視覺(jué)推理
在硅谷AI創(chuàng)業(yè)熱潮里,最珍貴的投資籌碼始終是那些資深的技術(shù)“大腦”。
曾在谷歌DeepMind任職14年的資深研究員Andrew Dai,正籌備一家名為Elorian的AI初創(chuàng)企業(yè)。

這家尚未被廣泛知曉的公司,種子輪融資目標(biāo)就高達(dá)5000萬(wàn)美元。
與Andrew Dai合作的,是去年12月剛從蘋果離職的研究科學(xué)家Yinfei Yang。

這兩位分別來(lái)自谷歌和蘋果的技術(shù)老將,正嘗試攻克大模型領(lǐng)域的下一個(gè)核心問(wèn)題:視覺(jué)推理(Visual Reasoning)。
計(jì)劃領(lǐng)投此輪融資的,很可能是由前CRV普通合伙人Max Gazor創(chuàng)立的Striker Venture Partners。
若交易成功,這將成為硅谷近期備受關(guān)注的早期融資案例之一,也再次體現(xiàn)了資本市場(chǎng)對(duì)“谷歌系人才”的熱烈追捧。
14年深耕:從BERT早期到Gemini幕后
在AI研究領(lǐng)域,Andrew Dai的名字代表著一種“長(zhǎng)期主義”精神。
不同于Transformer浪潮興起后才進(jìn)入該領(lǐng)域的創(chuàng)業(yè)者,Andrew Dai在谷歌的入職時(shí)間可追溯至2012年。
這意味著他完整經(jīng)歷了深度學(xué)習(xí)從邊緣學(xué)科發(fā)展為全球焦點(diǎn)的全過(guò)程。
他的LinkedIn履歷中,最亮眼的是擔(dān)任Gemini模型預(yù)訓(xùn)練(Pre-training)數(shù)據(jù)工作聯(lián)合負(fù)責(zé)人這一經(jīng)歷。

在當(dāng)前的大模型競(jìng)爭(zhēng)中,數(shù)據(jù)質(zhì)量與預(yù)訓(xùn)練策略被視為決定模型智能上限的關(guān)鍵因素。
能在這個(gè)核心環(huán)節(jié)擔(dān)任負(fù)責(zé)人,足以證明他在谷歌內(nèi)部的重要地位。
Andrew Dai的學(xué)術(shù)貢獻(xiàn)不止于此。
他曾與谷歌首席科學(xué)家Jeff Dean及Quoc V. Le(Google Brain的傳奇人物)共同撰寫多篇論文。
早在2015年,他發(fā)表的關(guān)于半監(jiān)督序列學(xué)習(xí)(Semi-supervised Sequence Learning)的論文,就被認(rèn)為對(duì)后來(lái)OpenAI的GPT系列模型有深遠(yuǎn)啟發(fā)。

https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf
一位熟悉Andrew Dai的人士評(píng)價(jià)道:“他是語(yǔ)言模型的先驅(qū)之一,過(guò)去二十年一直專注于預(yù)訓(xùn)練相關(guān)研究。他最擅長(zhǎng)的,是從海量、雜亂的數(shù)據(jù)源中提取高質(zhì)量的‘知識(shí)’?!?/p>
如果說(shuō)Andrew Dai代表了谷歌在大數(shù)據(jù)處理上的強(qiáng)大實(shí)力,那么聯(lián)合創(chuàng)始人Yinfei Yang則帶來(lái)了蘋果系的精致風(fēng)格與多模態(tài)視角。
Yinfei Yang此前在蘋果機(jī)器學(xué)習(xí)團(tuán)隊(duì)擔(dān)任首席研究科學(xué)家(Principal Research Scientist),主要參與蘋果自研AI模型的開(kāi)發(fā)。

加入蘋果前,他曾在Google Research工作四年,專注于多模態(tài)表示學(xué)習(xí)。
他在圖像-文本共嵌入(Image-text Co-embedding)領(lǐng)域的專長(zhǎng),恰好彌補(bǔ)了單純語(yǔ)言模型在感知方面的不足。
視覺(jué)推理:不止于“看見(jiàn)”,更要“理解”
Elorian到底想做什么?
根據(jù)Andrew Dai的說(shuō)法,Elorian并非要打造另一個(gè)ChatGPT,而是要構(gòu)建一個(gè)能“同時(shí)理解和處理文本、圖像、視頻及音頻”的原生多模態(tài)模型。
目前的AI模型大多基于文本訓(xùn)練,再通過(guò)“補(bǔ)丁式”方法接入視覺(jué)能力。
而Elorian的目標(biāo)是打造一個(gè)天生的“通感者”。
這種模型不再是將圖片轉(zhuǎn)化為文字標(biāo)簽,而是像人類一樣,通過(guò)視覺(jué)直接感知物理世界的邏輯。
“視覺(jué)推理”被認(rèn)為是通往AGI的必由之路。
Andrew Dai提到,機(jī)器人將是Elorian技術(shù)的潛在應(yīng)用場(chǎng)景之一,但他強(qiáng)調(diào)公司的愿景遠(yuǎn)不止于此。
在硅谷投資人看來(lái),這通常意味著Elorian瞄準(zhǔn)的是AI智能體的廣闊市場(chǎng)——一個(gè)能像人類一樣看電腦屏幕、理解圖形用戶界面(GUI)、處理退貨流程、審核法律文件、操作其他軟件的超級(jí)助手。
它不需要通過(guò)API獲取數(shù)據(jù),而是直接像人一樣“看”Excel表格、“聽(tīng)”電話錄音,同時(shí)“讀”懂屏幕上的郵件,并實(shí)時(shí)做出決策。
這就是Elorian試圖構(gòu)建的未來(lái)。
資本邏輯:為“頂尖基因”買單
5000萬(wàn)美元的種子輪融資,在幾年前聽(tīng)起來(lái)像天方夜譚,但在如今的AI熱潮中,這似乎成了頂級(jí)團(tuán)隊(duì)的“入場(chǎng)門檻”。
正與Elorian洽談?lì)I(lǐng)投的Striker Venture Partners,本身也是一家極具話題性的新銳基金。
其創(chuàng)始人Max Gazor曾是老牌風(fēng)投CRV的合伙人,以眼光獨(dú)到聞名。
他去年10月剛獨(dú)立創(chuàng)立基金,Elorian很可能是該基金成立后的首批重點(diǎn)投資項(xiàng)目之一。
對(duì)于Max Gazor這樣的投資人來(lái)說(shuō),他們賭的不只是技術(shù)路線,更是“谷歌DeepMind + 蘋果”這種稀缺的基因組合。
谷歌提供了大規(guī)模訓(xùn)練基礎(chǔ)設(shè)施的經(jīng)驗(yàn),蘋果則有將AI落地到具體產(chǎn)品的務(wù)實(shí)文化。
Elorian的出現(xiàn),也反映出大模型競(jìng)爭(zhēng)戰(zhàn)場(chǎng)的轉(zhuǎn)移。
第一階段的競(jìng)爭(zhēng)圍繞“文本生成”展開(kāi),OpenAI憑借ChatGPT領(lǐng)先;
第二階段的競(jìng)爭(zhēng)則聚焦“多模態(tài)理解”與“物理世界交互”。
在這個(gè)新戰(zhàn)場(chǎng)上,無(wú)論是Gemini還是GPT,都在加緊提升視覺(jué)能力。
作為初創(chuàng)公司,Elorian要在巨頭夾縫中生存,唯一的優(yōu)勢(shì)就是技術(shù)上的領(lǐng)先,或是在垂直場(chǎng)景(如復(fù)雜的視覺(jué)智能體)做到極致。
在硅谷,每個(gè)從巨頭離職的頂級(jí)研究員,都懷著“顛覆”的夢(mèng)想:用更小的團(tuán)隊(duì)、更集中的資源,打破老東家龐大而僵化的體系。
Andrew Dai離開(kāi)了效力14年的谷歌,Yinfei Yang離開(kāi)了推出Apple智能的蘋果。
他們選擇了最艱難的道路——試圖讓機(jī)器不僅“看見(jiàn)”世界,更能“看懂”世界。
這讓人想起計(jì)算機(jī)視覺(jué)領(lǐng)域的一句老話:“攝像頭只是眼睛,算法才是靈魂。”
在AI的發(fā)展浪潮中,真正稀缺的從來(lái)不是算力,而是那些能透過(guò)數(shù)據(jù)迷霧,看清未來(lái)方向的“眼睛”。
參考資料:
https://www.theinformation.com/articles/former-google-apple-researchers-raising-50-million-new-visual-ai-startup
本文來(lái)自微信公眾號(hào)“新智元”,作者:新智元,編輯:艾倫,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com





