欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

掀起人工智能新浪潮的OpenAI,看上了ChatGPT之外另一條賽道

商界觀察
2023-09-17

在科幻劇《西部世界》中,在龐大的高科技主題樂園中,模擬真人設(shè)計的機器人可以像人類一樣行事、擁有記憶、可以和其他機器人交互……在8月份,斯坦福開源了一個名為Smallville 的“虛擬小鎮(zhèn)”,25個 AI Agents(AI智能體)在小鎮(zhèn)上工作生活,每個“人”有自己的性格,也能和其他“人”交談、并能結(jié)識新朋友。

 

斯坦福小鎮(zhèn)中的AI Agents并不是一個新鮮的研究課題,只是之前該領(lǐng)域的研究通常集中在孤立環(huán)境中、通過有限的知識來進行訓練,這與人類的學習過程有了很大的差異。然而,大語言模型(LLM)的出現(xiàn),給這個領(lǐng)域的研究帶來了新的曙光,這也重新掀起了基于LLM的自主AI Agents的研究熱潮。

 

OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy在一場開發(fā)者線下活動中表示,如果一篇論文提出了某種不同的模型訓練方法,OpenAI內(nèi)部都會嗤之以鼻,但是當新的AI Agents論文出來的時候,他們會認真興奮地討論。

 

OpenAI AI的應(yīng)用研究主管Lilian Weng發(fā)布了一篇關(guān)于AI Agents的萬字長文:《大語言模型(LLM)支持的自主代理》引起了行業(yè)的熱議,在文章中,她清晰地定義了基于LLM構(gòu)建AI Agents的應(yīng)用框架:Agent=LLM(大型語言模型)+記憶(Memory)+規(guī)劃技能(Planning)+工具使用(Tool Use),其中,LLM是智能體的大腦,而其它幾個部分,是關(guān)鍵的組件。

 

以上被熱議的這種智能體,可以被稱為Autonomous AI Agent(完全自主的智能體),它就像是擁有“記憶”一樣,能夠記住在訓練中學習到的東西。此外,LLM可自主學習調(diào)用外部API來獲取模型權(quán)重中缺失的額外信息,包括當前信息、代碼執(zhí)行能力、對專有信息源的訪問等。

 

它可以將大型任務(wù)分解為更小的、可管理的子目標,從而能夠有效處理復(fù)雜的任務(wù)。它還可以對過去的行為進行自我批評和自我反思,從錯誤中吸取教訓,并針對未來的步驟進行完善,從而提高最終結(jié)果的質(zhì)量。

 

但是,這類智能體在目前存在致命缺陷,比如,由于以LLM作為“大腦”,智能體依賴自然語言作為LLM和記憶、工具等關(guān)鍵組件的接口,模型輸出的可靠性是有問題的,大語言模型存在的“幻覺”,也都會在自主AI智能體存在。另外還有一些技術(shù)實現(xiàn)方向的困難:比如上下文長度受限制;很難完成長期規(guī)劃和復(fù)雜任務(wù)的分解等。

 

這就造成了雖然Autonomous AI Agents被寄予厚望,但是在實際應(yīng)用中,有很多硬傷,這也造成大火的Agents,在很多場景中,是完全不能被使用的。究竟應(yīng)該如何看待AI Agents的前景,騰訊科技深度對談了兩位深度實踐AI Agents的創(chuàng)始人:MRS.ai 創(chuàng)始人/CEO Mingke,他在AI Agents領(lǐng)域有五年以上的研發(fā)經(jīng)驗,目前所進行的項目也是以AI Agents為核心,項目正處于保密階段;另外一位是MoPaas魔泊云創(chuàng)始人/CEO 魯為民博士,在AI技術(shù)和工程領(lǐng)域有超過二十年的經(jīng)驗。

 

AI Agents似乎正在成為ChatGPT之后的又一個關(guān)注焦點,從行業(yè)實踐來看,實用意義何在?未來應(yīng)用前景何在?到底是一場正在進行的人類通往AGI的美好夢境,還是已經(jīng)在重塑某些行業(yè)?兩位行業(yè)老兵提出了自己的冷靜思考,除了最讓人激動的Autonomous AI Agents,另外一種Autopilot AI Agents的潛力,可能正在被市場低估。

 

核心觀點

AI Agents不是新鮮事兒,今天我們看到的新鮮部分主要是如斯坦福小鎮(zhèn)中所看到的Autonomous AI Agent(全自主行動的人工智能體)。但是以大語言模型為底座的Autonomous AI Agent有很多目前無法避免的缺陷,讓這種智能體的應(yīng)用受到很大限制。

 

LLM可被理解為通用邏輯模擬器,即用概率對邏輯推理的結(jié)果用低維表達,而非真正(人類習慣的符號化)邏輯推理過程的執(zhí)行。任何由LLM做核心驅(qū)動的Agent,都無法承載復(fù)實際雜業(yè)務(wù)邏輯的設(shè)計與執(zhí)行。

 

除了Autonomous Agent,還有Non-Autonomous Agent, 其中包括AutoPilot Agent 和Copilot Agent。LLM對后兩類的幫助很大,但僅靠LLM也遠不夠完成企業(yè)級服務(wù)。

 

光靠語言模型的改進可能不足以通過大模型驅(qū)動這條路徑來實現(xiàn)理想的自主智能體(Autonomous Agents),智能體引擎的反饋控制邏輯設(shè)計可能同樣重要,甚至更為關(guān)鍵。

 

我們可以參考自動駕駛中的分級策略,循序漸進從簡單到復(fù)雜逐步實現(xiàn)高級別的 AI Agents,不斷逼近Autonomous Agents的理想目標;另外分級科學管理AI Agents,也可以更好應(yīng)對其潛在風險,充分發(fā)揮它的應(yīng)用潛力。

 

以下為對話全文(全文較長,但是信息量很大,建議收藏閱讀):

 

騰訊科技:究竟如何定義AI Agents?

 

Mingke:Agents并不是一個新鮮的概念,以我自己為例,在5年前我們就用小模型來做Agent框架的商用落地了。所謂Agent框架的起源在更早期還可以追溯到六七十年代,來自更早一批做認知科學和人工智能交叉學科領(lǐng)域的前沿的研究者,像明斯基(Marvin Lee Minsky )。他們在那個年代就已經(jīng)對Agent的框架提出了關(guān)鍵的module,包括感知、計劃、行為等。

 

在我看來,可以把Agents分成兩類,一類是Autonomous,它具備完全自治的能力也就是目標理解,規(guī)劃、執(zhí)行和反饋迭代都自主完成;另一類是Non-Autonomous Agent, 它不具備完全自治能力,而這些非自治的Agent又可以分為Autopilot Agent(人做規(guī)劃,Agent做執(zhí)行) 和Copilot Agent(基于特定的軟件,人做指令,Agent做面向軟件的操作),這些Agent追求的是高可控的自動執(zhí)行既定邏輯。

 

目前比較火的,主要還是由LLM的火爆而衍生出來的能夠“自治”的Autonomous Agent。它讓人感覺很神奇在于:你只需要給出一個目標,它就可以自己解析目標,并分角色執(zhí)行計劃,最后可能帶來一個看起來完整的結(jié)果。

 

這些不同的Agents之間可能形成的互動,其實也是跟1986年左右明斯基提出的理論:“Society of mind, 即人的大腦里面是有多個不同的Agents在互相討論”,是同源的道理。只是現(xiàn)在因為LLM(大語言模型)的出現(xiàn),它賦予了當前開發(fā)者更多的能力,可以用更低成本對Agent框架進行實現(xiàn)。

 

LLM根據(jù)常識,對不同的角色的理解產(chǎn)生不同的分工,然后根據(jù)LLM對這些角色的理解來生成不同的計劃,然后再由LLM去執(zhí)行,最后由LLM去表征這些Agent互動之后的結(jié)果,于是我們就看見斯坦福小鎮(zhèn)這樣的效果。

 

魯為民:剛剛Mingke是從認知科學角度來看智能體。但是從其他角度來看,Agents的概念早在四十年代就開始討論。馮·諾依曼在1944年提出了博弈論,主要解決的是智能體之間的策略學習的問題,這里的關(guān)鍵概念是“學習”,而“智能體是具有智能的生命體”,像人一樣。

 

到了1948年,維納開創(chuàng)了控制論這個學科,主要討論動物智能和機器智能之間的通信和控制問題??刂普摰年P(guān)鍵概念是“反饋”,智能體是通過動態(tài)反饋來學習環(huán)境及其變化,以及智能體怎么與環(huán)境相互適應(yīng)?,F(xiàn)在我們聽得比較多的強化學習,實際也起源于控制論——它是智能體的控制系統(tǒng),強化學習通過反饋來學習智能體的策略并作用于環(huán)境。另外,維納當時提出控制論的時候,也指出語言是人和機器共有的東西,這也闡明智能與語言的緊密關(guān)系,也可解釋為什么當今大模型AI應(yīng)用很自然地從語言模型切入。

 

我們可以狹義地定義智能體為根據(jù)設(shè)定的目標來自主達成目標的代理,因為智能體這個詞本身,有動作執(zhí)行的概念,它通過對環(huán)境的作用來影響環(huán)境,使得智能體自己和環(huán)境相互適應(yīng)。另外,智能體現(xiàn)在有各種各樣地定義,大多數(shù)人討論的實際上是所謂自主智能體(Autonomous Agents),即任意給出一個目標,智能體自主去學習執(zhí)行完成。這個要求是比較高的,因為這里強調(diào)目標可以任意給定,讓智能體自主學習理解執(zhí)行。最后強調(diào)一點,智能體除了本身以外,是離不開它的工作環(huán)境的,智能體動作執(zhí)行都是與環(huán)境交互來進行的,這一點在我們接下來討論時候會涉及到。

 

騰訊科技:從兩位剛才的介紹中,我們知道AI智能體這個概念其實并不是一個新概念,LLM(大語言模型)對AI智能體的發(fā)展到底起到了什么樣的推動的作用?

 

魯為民:最近智能體的火爆,確實得益于大模型的爆發(fā)。在討論這個問題之前,我覺有必要先看看大模型和智能體的關(guān)系,究竟大模型給智能體賦予了哪方面的能力?我們前面提到,智能體離不開智能體本身的環(huán)境,所以我們的討論可以從智能體本身和其環(huán)境兩方面來進行。

 

首先,大模型作為智能體。大模型本身已經(jīng)呈現(xiàn)出色的智能和自主性,也具備相應(yīng)的理解、推理、規(guī)劃、決策和行動能力,所以大模型本身也可以作為智能體,代替人類處理某些工作,與關(guān)心的環(huán)境交互實現(xiàn)人類的目標。

 

第二,大模型作為智能體的一個部分。比如大模型作為智能體引擎的一些組件,用于規(guī)劃某些任務(wù),控制智能體和環(huán)境的交互,或調(diào)用工具等等;或大模型為智能體提供具身智能,比如具身機器人,用于智能規(guī)劃和執(zhí)行任務(wù),擴展智能體的能力;此外大模型也可以作為多個子智能體共同形成一個超強的大智能體;

 

第三,大模型作為環(huán)境,供智能體訪問和交互,使得智能體獲得必要的資源。因為大模型通過基于大量互聯(lián)網(wǎng)、代碼、書籍等語料數(shù)據(jù)的訓練,具備了強大的世界知識能力和一定的推理能力。智能體可以訪問大模型環(huán)境來獲得它需要的信息或相關(guān)知識,同時生成可執(zhí)行的行動計劃。

 

最后,大模型還可以作為上述一些功能的組合,如它成為智能體的一部分,或者是環(huán)境的一部分,或者兼有兩者等等。

 

大語言模型 (LLM) 如何影響AI Agents?智能體(AI Agents)顧名思義是由AI來驅(qū)動的,大語言模型驅(qū)動的智能體也為其賦予新的超強能力。比如可以通過LLM代碼能力生成邏輯調(diào)用其他工具或者API來實現(xiàn)和環(huán)境的交互;還可以利用LLM天然的自然語言接口更靈活地讓智能體與人類和環(huán)境交互。所以在大語言模型的驅(qū)動下,智能體更接近實現(xiàn)自動理解、規(guī)劃、實現(xiàn)復(fù)雜任務(wù)的自主智能體系統(tǒng)。

 

另外,大模型作為智能體的基座模型,其能力決定了智能體的能力,它的某些行為和能力,比如涌現(xiàn)和泛化,也可以遷移到智能體上,從而正面地影響智能體的結(jié)果。像Smallville(斯坦福小鎮(zhèn)),我們可以看到,其中的Agents的某些行為是沒有被事先設(shè)計的,比如智能體之間的擴散信息,關(guān)系的記憶——智能體之間有過的互動,以及它之前的一些事件,它都可以記憶下來;智能體獲得協(xié)調(diào)能力,比如參加情人節(jié)的派對。另外像英偉達的Voyager 這樣的智能體,作為Minecraft(我的世界)游戲的NPC,同樣也繼承并顯現(xiàn)出驚人的涌現(xiàn)能力。

 

但是另一方面,大模型的問題和缺陷也可能會遷移到智能體上,比如幻覺 (Hallucination)。大模型幻覺對智能體的負面影響包括提供錯誤的信息,規(guī)劃的任務(wù)讓智能體無法完成,調(diào)用一些無效或者低效的工具,或者錯誤使用工具和使用錯誤的工具。比如,在執(zhí)行生成的代碼時,如果用它調(diào)用API的時候,可能由于調(diào)用的錯誤,導致代碼執(zhí)行時出現(xiàn)錯誤。

 

綜合來看,大模型驅(qū)動的AI Agents目前適用場景就比較清晰了。首先對于開放域問題或者不確定的目標的場景:需要大模型生成能力發(fā)揮創(chuàng)意性,以及任何決策不存在嚴重后果,即幻覺不是bug而是feature,比如智能體應(yīng)用在游戲(如前面提到的Smallvile 和 Voyager)和寫作等場景。在這種情況下大模型的涌現(xiàn)能力對于智能體的應(yīng)用往往會有一些意想不到的驚喜。另外智能體適用的場景還包括目標雖然明確,但正負面結(jié)果都是可接受的情形,而且大模型可以更可能地產(chǎn)生正面結(jié)果,比如 AlphaGo。但如果對目標的結(jié)果有確定性和精確性要求,或存在約束紅線的場景,任何失誤可能會帶來不可接受的后果,使用基于 LLM 的智能體需要謹慎,人工作為天然的智能體干預(yù)往往是必要的,比如自動駕駛。

 

騰訊科技:大語言模型是否幫助AI Agents突破了某些瓶頸?未來發(fā)展中,還有哪些可以預(yù)見的難題?

 

Mingke:在大語言模型出來之前我們都是用小的專用模型來做Agent,而一個模型只能干一種類型的工作。如果要讓基于小模型的Agent具備很多能力,就需要訓練很多不同的模型再組裝起來。有點像現(xiàn)在還流行MOE(Mixture of Experts),一堆模型其中一些模型負責視覺,一些模型負責語言,而負責語言的模型,有些要按照domain去拆分,有些按照流程去拆分,都是人為的設(shè)計和拆分。

 

目前我觀察到的當前比較主流的,偏向應(yīng)用Agent框架,都是以LLM(大語言模型)為中心,由它來管理和使用其他的工具,包括去爬網(wǎng)頁讀PDF,然后call接口,最后用LLM把返回的數(shù)據(jù)用自然語言回給用戶,這些內(nèi)容結(jié)合在一起,形成一個Agent。

 

這些基于LLM的處理范式,是由LLM基于常識自己自動去對大的目標做拆解,這是過去做不到的。所以當我們在看過去,拆小模型、訓練小模型、維護小模型、都是一個很重的工作,而且當業(yè)務(wù)變化的時候,你要不斷的去迭代這些模型,并且要處理這些模型之間的關(guān)系,所以Agent開發(fā)成本很高,通常只有比較大型的企業(yè),才能支撐起來這種成本。

 

但是盡管它現(xiàn)在有這個自治計劃的能力,并不表示這就是面對實際業(yè)務(wù)場景的最優(yōu)方法。我們跟很多大型跨國企業(yè)打交道,他們要真實落地一些場景,對合規(guī)和流程管理要求非常強。大語言模型完全自主拆解出來的過程,就不太會被這些企業(yè)所接受。

 

舉一個比較極端的例子,假設(shè)一家銀行開發(fā)的一個 Agent,用戶給它一個指令“給我的賬戶增加十萬塊錢”。這個Autonomous Agent就會自主地按照模型認為的常識去拆解這個目標,“接下來應(yīng)該怎么辦?應(yīng)該做什么任務(wù)可以讓這個用戶的賬號上面多十萬塊錢?”如果你不去限制它,它可以計劃出很多種可能的任務(wù),也可能去攻擊銀行系統(tǒng)。無論怎樣你都不希望這樣的事情發(fā)生。

 

關(guān)于LLM和Agent的關(guān)系,目前主流的想法是由LLM去使用工具,比如說LangChain,比如說AutoGPT。而我作為關(guān)心實際落地的Agent Framework的從業(yè)人員,我們更偏向的是由Agent Framework里的組件在不同情況下去使用不同的LLM,然后共同來實現(xiàn)一個Agent的各種能力。

 

騰訊科技:您能不能再進一步去解釋一下Agent Framework,是不是這個框架可以調(diào)用不同特點的LLM,在特定應(yīng)用場景下實現(xiàn)所預(yù)期的效果。這和MultiAgents是一樣的道理嗎?

 

Mingke:你剛才描述的是從一個視角來看整個這一套框架,它是成立的,但它不是整體完善的角度,當然我們今天的對話時長有限,肯定是無法完全展開Agent Framework是怎么樣的,但是我可以給大家提供一些我們認為的支柱型要點。從剛才講的Society of Mind框架來理解,它一定是分角色的,然后是按什么分的問題,以及怎么協(xié)調(diào)的問題。至于為什么要分角色?如果有朋友去試過你把很多Prompt塞到一個模型里面去,然后讓模型去理解,模型就會要么在可控制性,要么在精準性,要么在穩(wěn)定性(也就是每次執(zhí)行出來都不是同樣的效果),這幾個角度它總有妥協(xié)。如果你要實現(xiàn)一個企業(yè)級的復(fù)雜業(yè)務(wù)邏輯,必然需要很長的Prompt去表達各種條件和,無論是哪一個LLM都無法同時達到可控性、穩(wěn)定性、精準性。

 

這個問題其實是深度學習本身,作為概率模型,無論是小模型還是大模型都會遇到的問題,大模型的本質(zhì)運行機理都是預(yù)測下一個Token,而不是真的執(zhí)行符號化的推理過程。在這種情況下,要使用大模型最行之有效的一個方面就是分而治之,在同一時刻不要讓一個統(tǒng)計模型去同時處理那么多的提示語(Prompt)。

 

魯為民:不管是大模型還是小模型驅(qū)動的智能體,目前還不能承載人類很高的“期望”。實際上Agent最終的效果,很大程度上往往處決于它的工程上的實現(xiàn)。

 

首先,我們其實不用對Agent有過高的期待。雖然有大模型的加持,但是其發(fā)展水平還不足以讓我們實現(xiàn)完全的自主智能體。我們打造Agent,就是為了讓我們關(guān)心的工作更加簡單和方便。我們需要循序漸進地發(fā)展智能體應(yīng)用,不能期待一蹴而就。所以我們不必要拘泥定義和理論,可適當?shù)姆潘芍悄荏w的定義,根據(jù)使用者設(shè)定的目標,結(jié)合目標的復(fù)雜度和約束來匹配合適的 AI 模型的能力,設(shè)計Agents 的邏輯,以便Agents安全可靠地承擔相關(guān)任務(wù)并達成目標。實際上,我們完全可以參照自動駕駛的實踐,像它分為L0到L5幾個層級,Agent也可以根據(jù)它目標復(fù)雜性、約束和人工的參與度,從易到難去考慮并對Agent能力分為不同地層級。另外,智能體的分級有助于對智能體應(yīng)用的風險管理。這樣的處理便于我們打造一個有合理期待的智能體應(yīng)用,因為我們可以預(yù)先設(shè)定智能體的目標范圍,了解Agents運行受到哪些約束,再看看需要做什么工作來打造智能體,在滿足約束的情況下安全地達成這些目標,從而實現(xiàn)相關(guān)的能力。

 

一個通用的AI Agent,可以自主安全可信地完成任何被賦予合理的目標。

 

在實踐當中,我們看到基于大語言模型的AI Agents的實現(xiàn)還需要考慮更多的問題。實際上,除了LLM本身的問題外,如果要讓智能體能夠有效自主的運行,還需要定義好大模型之外的邏輯。特別是設(shè)計以動態(tài)反饋作為核心的控制邏輯框架,它通過對環(huán)境的觀察,記憶、理解,規(guī)劃,反饋來使得智能體產(chǎn)生學習和執(zhí)行能力。特別是它能夠?qū)⑾嚓P(guān)的記憶、規(guī)劃、執(zhí)行等能力有機地串結(jié)起來,安全地控制智能體與環(huán)境的交互達到人類設(shè)定的目標。

 

反饋控制邏輯設(shè)計的關(guān)鍵點在于,首先要保證反饋的質(zhì)量,反饋的信息必須能夠足夠的反映真實環(huán)境;其次是反饋的數(shù)量,反饋讓智能體本身必須獲得足夠的環(huán)境知識;另外是反饋的頻率,讓智能體及時了解環(huán)境的變化;在很多情況下,智能體往往不能及時地去把握環(huán)境的變化,往往提供的一些信息都是過時的信息。

 

騰訊科技:AI Agents會是未來的一個風口嗎?還有我們究竟如何去看待AI Agents?它到底是一種新的應(yīng)用還是新的技術(shù)?

 

Mingke:我再強調(diào)一下剛剛Agent和LLM之間的關(guān)系這件事兒,這樣會有利于我們理解后面的問題。我引用文因互聯(lián)的鮑捷老師講的一個比喻,LLM更像是一個發(fā)動機引擎,而你要用發(fā)動機來做什么?你有可能把它做成一輛拖拉機,有可能把它做成一輛乘用車,有可能把它做成一個飛機。

 

在我們現(xiàn)在的語境下,所謂的AI Agent,就像是一輛車,車里的引擎就是LLM,Agent framework更像是一個造車的范式,這就是Agent 和 LLM之間的關(guān)系。所以從某種角度上講,可以把車理解為是引擎的一種應(yīng)用;另一個角度,也可以說是做車的選擇了發(fā)動機來做引擎。

 

當然也可以用LLM來做別的事情,最近我寫了一篇文章來分析,大語言模型已經(jīng)火了八、九個月,為什么我們還沒有看到超級APP?在當前除了大家ChatGPT本身以外,并沒有出現(xiàn)用了就回不去了的產(chǎn)品。其實在我看來,僅僅給消費者一個引擎是沒用的。需要有一個更好的、更有效的一種產(chǎn)品形態(tài)來封裝這個引擎,使它能在更具體的方面發(fā)揮更直接的作用。這里說“有效”,主要是強調(diào)兩個點:第一個點,在合理的設(shè)計的前提下,它的效果是比過去基于小模型的Agent更好的;第二,比起過去要創(chuàng)建維護很多小模型的成本,基于大語言模型的通用能力,會讓Agent的制作成本大幅下降。

 

另外,因為LLM對語言的能力大幅提高,還可以創(chuàng)造過去實現(xiàn)不了的場景。比如從增效的角度上來講,比如過去每一種對業(yè)務(wù)狀態(tài)的改變,用小模型的時候都需要設(shè)計對話回復(fù)模板(因為回復(fù)需要精準表達各種業(yè)務(wù)狀態(tài)),開發(fā)者要做很多設(shè)計,背后可能幾千上萬條表達的組合。

 

但是現(xiàn)在,在有好的Agent Framework的前提下,Agent開發(fā)變得平民化。Agent可以被更多終端用戶使用,中小企業(yè)也可以開發(fā)它,甚至個人也可以去使用agent。這是我們所謂的Agent is the new web:可以把AI Agent理解為一種產(chǎn)品形態(tài),就像網(wǎng)頁,一方面用網(wǎng)頁來實現(xiàn)的功能可以做的很全,也可以走得很深,對業(yè)務(wù)邏輯的承載的天花板可以很高;另一方面開發(fā)的門檻也可以像網(wǎng)頁一樣做的很低。這樣就可以讓更多的開發(fā)者開發(fā)LLM的應(yīng)用,給更多的用戶使用,像網(wǎng)頁一樣普及。

 

在這個語境下,我們就可以把AI Agent當成是一種可能的熱點。未來Agent有可能會像網(wǎng)站一樣,承載大量的業(yè)務(wù)邏輯,以一個用戶容易接受、不需要怎么學習的方式,變成一種新的有效的產(chǎn)品形態(tài)。但是我指的不是Autonomous Agents,我指的都是Autopilot Agents,也就是需要人為用先驗知識來描述業(yè)務(wù)邏輯是什么,再去驅(qū)動模型,然后讓Agents來做Autopilot,讓它自動去重復(fù)實現(xiàn)目標,按照被人認同的邏輯過程。

 

這樣一來,就去掉了Autonomous Agent需要對環(huán)境的模擬這件事。但Autopilot Agent也有新的挑戰(zhàn),開發(fā)者必須要把結(jié)構(gòu)化的東西當成環(huán)境的一部分來處理。比如說業(yè)務(wù)數(shù)據(jù)就得被視為是Agent所處的環(huán)境的一部分。所以我個人是認為Agent的價值很高,過去做一個企業(yè)級的Agent很貴,特別是要做出能有效地去操作和改變環(huán)境的,也就是能操作業(yè)務(wù)的Agent的成本很高。但是將來在LLM的加持下,一個好的Agent Framework可以讓Agent的開發(fā)和使用變得非常的普及。

 

騰訊科技:Autopilot比Autonomus Agents在目前的情況下,是不是應(yīng)用潛力更大?

 

Mingke:Autopilot Agent作為一個產(chǎn)品形態(tài),可以承載幾乎所有當前已經(jīng)存在的業(yè)務(wù)邏輯,那就意味著基圖形化界面做過的軟件,如果不是像地圖那樣非常依賴視覺進行交互的軟件,或者基本上所有的承載傳統(tǒng)商業(yè)業(yè)務(wù)邏輯的軟件,都有可能增加一種新的產(chǎn)品形態(tài)。

 

比如說一個企業(yè),可能過去做網(wǎng)站,后面做APP,將來可能做Agent。但這種Agent指的是Autopilot Agent,因為它的業(yè)務(wù)邏輯得跟至少跟網(wǎng)站一樣。銀行辦什么事兒,要有什么過程得跟企業(yè)的網(wǎng)站一樣,業(yè)務(wù)邏輯不能隨便改,只是增加了一種交互方式去覆蓋過去數(shù)字化產(chǎn)品形態(tài)可能沒有很好覆蓋的地方,以及一些新的場景不適合過去圖形化界面的產(chǎn)品形態(tài)來交互的。

 

這并不是說Agent會完全代替APP,或者代替web。比如移動互聯(lián)網(wǎng)時代的APP,它并沒有完全代替網(wǎng)頁端,而是代替掉一些更適合移動的場景,但是更多的創(chuàng)造了新的場景。很多業(yè)務(wù)都可以借助一個好的Agent Framework去發(fā)揮新的想象。比如用Agent的形態(tài)做交友軟件,用戶的Agent跟另外一個Agent交流替用戶交流來找合適的朋友,一天交完一堆朋友之后,再回過頭來跟用戶講,我今天給你推薦三個朋友,值得交往,他們分別是怎樣的。

 

魯博士:我基本上同意Mingke的看法。這里的Autopilot實際上定義了一個功能目標比較清楚且集中的智能體,它有明確的業(yè)務(wù)邏輯的數(shù)字化實現(xiàn),像飛機的自動駕駛Autopilot一樣。而理想的自主智能體(Autonomous Agents)則是需要根據(jù)人類的場景需要自主的定義任務(wù)和目標,然后它就通過本身的邏輯引擎根據(jù)目標來分析、學習、理解、分解、最后執(zhí)行任務(wù),并通過反饋迭代不斷的學習改進。這種理想的智能體的打造對智能體本身的引擎包括AI模型有相適應(yīng)的要求,這些往往超出目前的AI模型能力;目前可行的智能體的設(shè)計目標更接近所謂的 Autopilot。

 

Mingke:我可以補充一點,Autonomous Agents和 Autopilot Agents的區(qū)別就有點像自動駕駛飛機。如果我們讓Autopilot開飛機,它的航線是需要在起飛前做先做人為設(shè)計的,你從A點到B點,你的航線要怎么飛?這個事情是需要人提前設(shè)計的,把人納入整體系統(tǒng)來看,人是作為一個感知器,對于現(xiàn)在的真實世界在發(fā)生什么,做了人為感知了之后,再把航線計劃設(shè)計出來,最后讓飛機去執(zhí)行。

 

如果是Autonomous Agent,那用戶希望就設(shè)定一個起飛地點和落地地點,然后讓LLM自己根據(jù)常識去設(shè)計中國到歐洲的航線就會有問題,特別是因為LLM是靜態(tài)邏輯的表達,而不是動態(tài)的數(shù)據(jù),放在當前那就會出現(xiàn)一個情況,LLM有可能給你設(shè)計的航線是穿過烏克蘭的,因為在2021年之前航線都可以穿過烏克蘭,它有可能覺得這是最省油的最優(yōu)解。這種情況下所生成的計劃,就明顯跟當前的現(xiàn)實世界是脫節(jié)的。

 

另外在當前Autonomous Agents框架當中,需要對一個虛擬環(huán)境的模擬,而非是對現(xiàn)實環(huán)境的重現(xiàn)。而且這個環(huán)境模擬往往是用LLM來實現(xiàn)的構(gòu)建,這就再次會受到LLM本身的局限:LLM本身是世界模型的一個靜態(tài)投影,沒有動態(tài)的數(shù)據(jù),還是一個降維的模擬,所以在這種情況下,它并不是一個真實的、或者說并不是一個人類所感知的及時有效的世界模型。那Autonomous Agent 基于這個有問題的環(huán)境,去做感知再所生成的計劃是會有很多問題的,而且不管如何反饋和迭代,都和真實世界相差很大。

 

但這也并不代表LLM的特性,對我們就沒用。我們用剛才的例子,如果不期望Autonomous Agent去端到端地,又設(shè)計航線,又執(zhí)行飛行任務(wù)這些所有任務(wù),那么在人把航線設(shè)定完了之后, 再交給AI去嘗試應(yīng)對各種飛行過程中的顛簸。

 

還有一種可能性,是用LLM來制作基于常識的業(yè)務(wù)邏輯設(shè)計工具,但并不扮演業(yè)務(wù)邏輯的執(zhí)行者,這可以減掉很大的邏輯設(shè)計者的負擔。可以讓Agent幫你設(shè)計業(yè)務(wù)邏輯,然后你通過人去不斷地優(yōu)化,在確定了計劃之后,然后再交給系統(tǒng)去執(zhí)行。這樣的系統(tǒng)可能是混合的,有可能是既包括符號系統(tǒng)又包括了概率系統(tǒng)。所以有一種可能方向,是用Autonomous Agent去設(shè)計一個Autopilot Agent。然后用符號系統(tǒng)來穩(wěn)定概率系統(tǒng),再去確定哪些部分該由符號系統(tǒng)執(zhí)行,哪些東西該由概率系統(tǒng)去執(zhí)行,這是我當前在研究的開放框架的思路,感興趣參與的小伙伴歡迎跟我聯(lián)系(mingke.luo@mrs.ai)。

 

騰訊科技:Autopilot和Autonomous AI Agents,好像是完全不同的應(yīng)用場景。未來Autopilot會進化為Autonomous AI Agents,還是說他們兩個永遠都是平行的兩條發(fā)展路線?

 

魯博士:我覺得沒有什么矛盾。我們還是回到原點,首先要看智能體目標。Autopilot的目標,如我剛剛談到,它的任務(wù)是人類預(yù)先設(shè)定的,目標比較集中和單一,實現(xiàn)起來不確定性會少一些。

 

當然,我們追求的長遠目標可能是實現(xiàn)自主智能體,以及所謂的AGI。在這種情況下,任務(wù)是任意給定的,即智能體之前沒有遇到過,或者智能體可以根據(jù)人類的需求,自主定義相應(yīng)的目標。智能體能夠去自主分析理解這些任務(wù),通過反饋學習理解執(zhí)行相關(guān)的任務(wù)。這樣的一個自主智能體場景是大家希望擁有的,但這個目標目前可能難以實現(xiàn)。

 

但是隨著大模型的不斷改進和完善,我們也確實在一步步試圖逼近這個自主智能體的目標。但因為大模型的概率性和近似處理,使得大模型和相應(yīng)的智能體設(shè)計存在本質(zhì)上的缺陷。我們目前還不清楚大模型是否的確是實現(xiàn) AGI 或理想的智能體的途徑;可能根本就不是。但另一方面實現(xiàn)理想的自主智能體的障礙可能不僅僅在于AI模型本身,智能體引擎的邏輯設(shè)計更為關(guān)鍵,也可能是另外一個突破點,比如采用合適的反饋機制,通過持續(xù)迭代學習可能可以彌補大模型的缺陷。

 

當然更現(xiàn)實一點的處理方法是我們不必拘泥自主智能體的概念來一步到位實現(xiàn)自主智能體的目標。我們可以借助于智能體分級處理,通過循序漸進,明確設(shè)計目標。不同的智能體提供不同的能力服務(wù)相應(yīng)的目標和業(yè)務(wù)約束。這樣,通過像Autopilot這樣的智能體應(yīng)用做準備,我們可以從簡單到復(fù)雜逐步實現(xiàn)更高高級別的 AI Agent,不斷地逼近理想的自主智能體的目標。

 

Mingke:大語言模型作為一種驅(qū)動在可能并不是一個終極方案。盡管它確實是一個重要的組成部分,但是它可能不是一個充分的決定性的組成部分。要實現(xiàn)Autonomous Agents,還有很多挑戰(zhàn),在我看來至少要解決兩個問題吧:第一是對環(huán)境的模擬。因為要把一個在虛擬環(huán)境里面訓練出來的一個Agent拿到真實環(huán)境里面去使用,就有很多問題。而如果要讓虛擬環(huán)境跟真實環(huán)境一樣,就相當于重新創(chuàng)造了一個真實世界,這基本上是不可能的事情。所以要讓Agent對真實環(huán)境做感知而不是做一個虛擬環(huán)境出來,讓Agent去感知。

 

從具身認知角度上來講,直接使用真實環(huán)境來訓練Agent是一種可能性。這就涉及到各種不同模態(tài)的大模型,來替單純語言的模型。僅把語言模型看做是靜態(tài)常識的模擬器,來解決概念之間的關(guān)系問題。對真實環(huán)境做感知,就可能需要造物理的感知器,而不是由軟件來模擬。

 

第二個問題是基于反饋的迭代,這也需要有新的方法。因為基于傳統(tǒng)的強化學習的反饋系統(tǒng)也是有局限性的,特別是面向開放域問題。比如一個創(chuàng)業(yè)者要成功,可能需要同時滿足ABC三個條件,但是一次隨機嘗試命中了A和B兩個條件,但缺少了條件C,整體就失敗了。那么強化學習可能會給AB這兩個必要的條件,都打上負分,繼而再生成的方案,就可能離AB更遠,最終也離成功更遠。如果通過人類反饋的強化學習(RLHF)像chatgpt這樣,就不是autonomous了。如何結(jié)合多模態(tài)大模型,讓AI像人一樣批判性地(critical)的考慮問題的強化學習體系是值得期待的,但這也只是解決其中一個問題。

 

本文來自微信公眾號“騰訊科技”(ID:qqtech),作者:騰訊科技 郭曉靜 、MoPaas 秦昊陽,36氪經(jīng)授權(quán)發(fā)布。

 

本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com