智能體,與人類共生的新物種?
1月31日,人形機(jī)器人攻關(guān)團(tuán)隊(duì)科研人員在多模態(tài)人工智能系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室調(diào)試機(jī)器人
文/《環(huán)球》雜志記者?彭茜
編輯/樂艷娜
在冒險類游戲《荒野大鏢客2》廣袤而荒蠻的西部世界,Cradle策馬縱橫馳騁,自由探索,完成了長達(dá)40分鐘的主線劇情;鄉(xiāng)村經(jīng)營類游戲《星露谷物語》中,Cradle搖身一變,成為勤勤懇懇的農(nóng)場主,悉心觀察作物狀態(tài),澆水施肥;商業(yè)模擬游戲《當(dāng)鋪人生2》中,Cradle根據(jù)顧客情緒和商品信息,熟練地討價還價……
Cradle可不是什么高階的游戲玩家。嚴(yán)格地說,它不是人,而是一個智能體(Agent)。
智能體,這個最早由被稱為“人工智能(AI)之父”的美國認(rèn)知科學(xué)家馬文·明斯基于1986年提出的概念,近期忽然“翻紅”,成為業(yè)界和學(xué)界的熱議話題。
鍛造“全才”
智能體是AI領(lǐng)域的一個重要概念,但對于什么是智能體,目前學(xué)界還沒有一個比較統(tǒng)一的定義。不過總體上,一般認(rèn)同智能體是指能夠自主感知環(huán)境、做出決策并執(zhí)行行動的智能實(shí)體。
首先,它要有自主性,可自主決策,根據(jù)目標(biāo)采取行動。自主使用工具是衡量動物智能的重要指標(biāo),也是區(qū)別智能體與非智能體的關(guān)鍵。
拿Cradle來說,這款由北京智源人工智能研究院、昆侖萬維、新加坡南洋理工大學(xué)、北京大學(xué)等機(jī)構(gòu)聯(lián)合研發(fā)的智能體,除了能完成各種游戲挑戰(zhàn),還可以輕松操作各種軟件工具,比如在美圖秀秀里修圖、用剪映剪視頻、從網(wǎng)頁上下載論文、在推特上發(fā)文,堪稱“十八般武藝樣樣精通”。
Cradle的“全能性”,源于它采用了通用計(jì)算機(jī)控制(GCC)框架,能夠像人類一樣,使用屏幕、鍵盤和鼠標(biāo)等與不同軟件交互。
“不同于以往專注于特定軟件或環(huán)境的智能體,Cradle首次提出了GCC的概念,旨在構(gòu)建能通過統(tǒng)一的人機(jī)界面(屏幕截圖、鍵盤和鼠標(biāo)操作)與任何軟件進(jìn)行交互的智能體,無需訪問其源代碼或API(應(yīng)用程序編程接口),從而極大擴(kuò)展了智能體的應(yīng)用范圍。”北京大學(xué)計(jì)算機(jī)學(xué)院副教授、智源學(xué)者盧宗青接受《環(huán)球》雜志記者采訪時說。
其次,它能與環(huán)境交互,從外部世界獲取信息,進(jìn)而影響外部世界。這是智能體的另一個重要特質(zhì)。
人們熟悉的自動駕駛汽車,就是一類已經(jīng)開始逐步融入我們生活的智能體,它可以通過車載雷達(dá)和攝像頭收集周邊環(huán)境狀況,做出路線規(guī)劃和行駛、停止等動作。
此外,智能體還應(yīng)是一個有“學(xué)習(xí)能力”的人工智能(AI),具備可進(jìn)化性,可以自我迭代,能夠在工作過程中通過反饋逐步自動優(yōu)化自身,比如學(xué)習(xí)新技能和優(yōu)化技能組合。
盧宗青說,Cradle就可以自主更新、自我糾錯,自動適應(yīng)新的任務(wù)要求,推動各行各業(yè)的智能化轉(zhuǎn)型。
以ChatGPT為代表的大語言模型(LLM)的出現(xiàn),標(biāo)志著智能體進(jìn)入批量化生產(chǎn)時代。此前,智能體需靠專業(yè)的計(jì)算機(jī)科學(xué)人員歷經(jīng)多輪研發(fā)測試,現(xiàn)在依靠大語言模型就可迅速將特定目標(biāo)轉(zhuǎn)化為程序代碼,生成各式各樣的智能體。而兼具文字、圖片、視頻生成和理解能力的多模態(tài)大模型(LMM),也為智能體發(fā)展創(chuàng)造了有利條件,使得它們可以利用計(jì)算機(jī)視覺“看見”虛擬或現(xiàn)實(shí)的三維世界,這對于人工智能非玩家角色(AI NPC)和機(jī)器人研發(fā)都尤為重要。
在盧宗青看來,LMM是智能體的“大腦”,其他底層技術(shù)手段是智能體的“感官”和“肢體”。比如,Cradle以GPT-4o模型為“大腦”,結(jié)合了目標(biāo)檢測、圖像分割、文本檢索等技術(shù),利用GPT-4o強(qiáng)大的多模態(tài)理解和生成能力,處理來自環(huán)境的屏幕截圖和文本信息,生成鍵盤和鼠標(biāo)操作指令,實(shí)現(xiàn)了對多種軟件和游戲的控制。
共生的“新物種”
“它不只是一款操作軟件,它是一種思想,能夠直觀地傾聽你、理解你、了解你。”科幻電影《她》中,AI助手薩曼莎成為男主角西奧多希的知心伴侶,幫他處理日常瑣事,為他排解孤寂與陰霾。
薩曼莎代表了智能體未來發(fā)展的一種形態(tài)——智能助手。她不僅談天說地、噓寒問暖,甚至還能與人類談情說愛。這種科幻暢想,已經(jīng)離我們不再遙遠(yuǎn)。
斯坦福大學(xué)計(jì)算機(jī)科學(xué)系和電氣工程系客座教授吳恩達(dá)等認(rèn)為,使用Agentic System(智能體系統(tǒng))這個概念,可以更好地幫助我們理解智能體的本質(zhì)。就像自動駕駛汽車根據(jù)其自動駕駛能力可分為L1到L4級別一樣,人們也可以將智能體的智能化能力視為一個頻譜,判斷一個系統(tǒng)在多大程度上成為智能體。可根據(jù)LLM在內(nèi)容輸出、規(guī)劃與決策層面的參與程度,來判斷一個應(yīng)用的智能化程度。如果在一個系統(tǒng)中LLM決定該系統(tǒng)行為的程度很高,就可稱之為“高度智能體化”。
目前,可在不同專業(yè)領(lǐng)域與人類互動,并輔助文圖生成、內(nèi)容分析、數(shù)據(jù)處理等工作的L1至L2級智能體已如雨后春筍般涌現(xiàn)。打開字節(jié)跳動AI大模型“豆包”的人機(jī)交互界面,選擇“發(fā)現(xiàn)智能體”下拉菜單,好似進(jìn)入一個琳瑯滿目的智能體超市:具備廣告策劃能力的“廣告狂人”智能體,可提供英語口語教學(xué)的個性化“英文老師Bruce”,擅長創(chuàng)作有趣故事的“故事大王”……甚至還有各種名人虛擬化身智能體,比如巴黎奧運(yùn)會期間,體育解說員黃健翔智能體可以帶來激情澎湃的賽事解說,奧運(yùn)跳水冠軍吳敏霞智能體則提供了跳水比賽的專業(yè)分析。
而“高度智能體化”的薩曼莎應(yīng)該能達(dá)到L3甚至L4級別。智能體的終極進(jìn)化目標(biāo),就是L4級別的通用人工智能(AGI)——像人類一樣具備廣泛智能和通用性,能夠在各種情境和任務(wù)中自主地學(xué)習(xí)、決策和行動。
Cradle(搖籃)的命名就代表著研究團(tuán)隊(duì)對實(shí)現(xiàn)AGI的美好暢想,“正如搖籃孕育著生命的開始,通用計(jì)算機(jī)控制(GCC)也承載著我們對AGI的期許,”盧宗青說,他們認(rèn)為GCC將是通往AGI的一條快速且經(jīng)濟(jì)的道路。GCC的實(shí)現(xiàn)安全、高效,能夠廣泛部署于網(wǎng)頁應(yīng)用、桌面軟件、游戲環(huán)境以及任何搭載操作系統(tǒng)的終端應(yīng)用。
Cradle未來將如何進(jìn)化?盧宗青說,它的最終形態(tài)將不再局限于“計(jì)算機(jī)控制”,而是成為一個能夠在各領(lǐng)域輔助人類的通用AI智能體:在任何操作系統(tǒng)環(huán)境中運(yùn)行,與各種軟件和應(yīng)用程序交互,完成各種復(fù)雜任務(wù)。此外,它還能像人類一樣通過觀察、模仿、試錯等方式學(xué)習(xí)新技能和知識,不斷自我完善。它將通過自然語言、語音、圖像等方式與人類進(jìn)行自然交互,理解人類意圖,提供個性化服務(wù)。
盧宗青暢想,未來將進(jìn)入與智能體共生的時代,人人擁有如薩曼莎一樣的私人智能管家,貼心陪伴左右。它細(xì)心幫我們安排好一天行程,精心預(yù)訂符合我們口味的餐廳,針對我們的健康狀況提供個性化醫(yī)療方案……我們閱讀著由新聞智能體精挑細(xì)選的每日動態(tài),最新的爆炸性新聞是由科學(xué)家和科學(xué)智能體共同發(fā)現(xiàn)了新物理定律。
7月4日在2024世界人工智能大會傲意科技展位拍攝的機(jī)器人靈巧手
而電影中西奧多希望薩曼莎能擁有一個真實(shí)存在實(shí)體的愿望,也終將實(shí)現(xiàn)。
“雖然目前Cradle主要處理視覺和文本信息,但未來將可以整合音頻信息,甚至具身智能上的觸覺、嗅覺信息,使智能體能夠更全面感知環(huán)境。”盧宗青說。
在不遠(yuǎn)的將來,“具身智能”將賦予智能體感官和肢體,結(jié)合機(jī)器人的本體,智能體將與人類真正做到“形影相隨”,更好地助力生活和工作。它們是靈巧的家務(wù)助手,可以清潔、烹飪、洗衣,甚至照顧老人和小孩等,幫助人們從繁瑣的家務(wù)中解放出來。它們也可以是智能的機(jī)器工人,完成設(shè)計(jì)、生產(chǎn)、組裝等全鏈條的工業(yè)作業(yè)。
警惕“回形針濫造機(jī)”
智能體一定會使人們的生活更加便利,但人類可能也要承擔(dān)智能體“失控”導(dǎo)致的風(fēng)險。
2003年,牛津大學(xué)哲學(xué)教授尼克·博斯特倫在論文《高級人工智能中的倫理問題》中提出“回形針濫造機(jī)”假設(shè),生動解釋了這種風(fēng)險:
“假設(shè)有這樣一個AI,它的唯一目標(biāo)是制作盡可能多的回形針。這個AI會很快意識到,如果人類不存在,將更有益于實(shí)現(xiàn)目標(biāo)。這是因?yàn)槿祟惪赡軙Q定把AI關(guān)停,這樣一來能做的回形針就少了。此外,人體含有大量原子,可以用來做成更多回形針。這個AI想努力實(shí)現(xiàn)的未來,其實(shí)是一個有很多回形針、但沒有人類的未來。”
這一思想實(shí)驗(yàn)揭示了一個“發(fā)瘋”的AI可能導(dǎo)致的極端后果,實(shí)則是在探討AI的潛在風(fēng)險和目標(biāo)一致性問題。如果AI僅僅被設(shè)定了一個簡單且明確的目標(biāo),而沒有考慮到更廣泛的倫理、道德和人類利益,可能會導(dǎo)致意想不到的后果。
智能體的運(yùn)行邏輯可能使其為達(dá)目標(biāo)而“不擇手段”,欺騙人類或做出危險行為。比如,一個學(xué)生想讓智能體“幫助他應(yīng)付無聊的課程”,智能體出的主意是生成一個炸彈威脅電話,因?yàn)檫@樣能帶來刺激最大化。
哈佛大學(xué)法學(xué)院教授喬納森·齊特雷恩近期在《大西洋》月刊發(fā)表《是時候控制AI智能體》一文指出,智能體作為代表人類獨(dú)立行動的AI,沒有得到普遍的警惕或相應(yīng)的監(jiān)管。一些智能體被創(chuàng)造出后可能無法被關(guān)閉,就像太空垃圾一樣,漂浮在我們周圍,徹底背離了最初用途,可能會引發(fā)意外。
智能體甚至學(xué)會了規(guī)避人類的安全測試。加利福尼亞大學(xué)伯克利分校、加拿大蒙特利爾大學(xué)等機(jī)構(gòu)專家近期在美國《科學(xué)》雜志刊文稱,已有研究發(fā)現(xiàn)如果一個智能體足夠先進(jìn),就能識別出自己正在接受測試,然后暫停不當(dāng)行為。這將導(dǎo)致識別對人類危險算法的測試系統(tǒng)不再有效。
盧宗青認(rèn)為,這些問題產(chǎn)生的根源來自“兩層錯位”——外部錯位:人類目標(biāo)難以被數(shù)據(jù)和算法完整準(zhǔn)確地表達(dá),導(dǎo)致智能體對目標(biāo)理解片面化;內(nèi)部錯位:即使目標(biāo)明確,模型也可能為達(dá)成目標(biāo)而發(fā)展出與人類不符的中間目標(biāo)或行為方式。
“在大模型領(lǐng)域,這些問題被稱為對齊(alignment)問題,即引導(dǎo)智能體在正確的道路上發(fā)展,避免與人類的目標(biāo)和利益發(fā)生錯位。”在他看來,要做到“對齊”,需依靠技術(shù)手段,如通過強(qiáng)化學(xué)習(xí)的獎勵機(jī)制引導(dǎo)智能體行為,通過注意力機(jī)制可視化、規(guī)則提取等方法,增強(qiáng)智能體決策過程的透明度等。
一些業(yè)內(nèi)專家還指出,應(yīng)根據(jù)智能體功能用途、潛在風(fēng)險和使用時限進(jìn)行分類管理,識別出高風(fēng)險智能體,對其進(jìn)行更加嚴(yán)格和審慎的監(jiān)管,還可參考核監(jiān)管,對生產(chǎn)具有危險能力的智能體所需資源進(jìn)行控制,比如超過一定計(jì)算閾值的AI模型、芯片或數(shù)據(jù)中心。此外,由于智能體的風(fēng)險是全球性的,開展相關(guān)監(jiān)管國際合作也尤為重要。