分析師分享會紀要|從通用模型到個性化 AI,下一代智能將走向何處?
2026-04-20
在近日舉行的分析師分享會上,圍繞 Mano-P 的模型定位、技術(shù)路徑及其背后的 Personalized AI 思考,明略科技副總裁,多模態(tài)首席科學(xué)家 Cyrus 進行了系統(tǒng)分享。
隨著大模型發(fā)展進入新階段,行業(yè)競爭的焦點正在從單純追求更大參數(shù)規(guī)模,逐步轉(zhuǎn)向?qū)φ鎸嵢蝿?wù)執(zhí)行能力、持續(xù)學(xué)習(xí)能力以及個性化適配能力的深入探索。Mano-P 正是在這一背景下提出的一項重要嘗試。
以下為分析師分享會紀要。
Cyrus:今天我主要匯報的題目是 Personalized AI。這既是我們推動 Mano-P 這項工作的核心出發(fā)點,也是我們決定將模型推向個性化方向背后最重要的思考。
首先,我想分享一個判斷:我們正再次處在新舊 AI 時代的交界點。有人可能會問,之前大模型時代到來時,我們已經(jīng)說過行業(yè)進入了一個新的分界點,那么這一次所謂的新舊 AI 交界點,指的又是什么?我們目前的結(jié)論是,AGI 和 Personal AI 是兩條完全不同的路線。接下來,我想展開講講我們?yōu)槭裁磿贸鲞@樣的結(jié)論,以及這一判斷背后究竟發(fā)生了什么。
今年春節(jié)期間,行業(yè)非常熱鬧,既有 OpenClaw,也有各家廠商發(fā)布的新模型。但在這場看似激烈的 AI 軍備競賽背后,大家也會產(chǎn)生一個疑問:春節(jié)期間,諸如 Claude 4.6、GPT 5.2 等模型相繼發(fā)布,為什么卻沒有出現(xiàn)像此前 DeepSeek GRPO 那樣具有標志性的方法創(chuàng)新或重量級技術(shù)報告?
答案其實很直接:大家現(xiàn)在都在為數(shù)據(jù)所困。互聯(lián)網(wǎng)上的知識,基本已經(jīng)被消耗殆盡,越來越像“化石”。誰的 Agentic 類 App 用戶量更大、流量更高,誰就能獲得更多新數(shù)據(jù),也就更有機會讓模型學(xué)到真正新的知識。
我們已經(jīng)可以看到,一般的對話類智能體很難繼續(xù)為模型訓(xùn)練提供有效數(shù)據(jù)。比如用戶每天詢問天氣如何、感冒該吃什么藥,這類信息對于模型來說已經(jīng)不再屬于高價值語料。用戶反復(fù)提出同類問題,對模型訓(xùn)練的增益已經(jīng)非常有限。真正能夠持續(xù)提供新數(shù)據(jù)的,只有 Agentic 類 智能體。
最近 Anthropic 一直在強調(diào),不要再等下一代模型,而是立刻去做 Harness。現(xiàn)在大家普遍認為,Agent 等于 LLM 加上 Harness。這句話背后的意思其實很清楚:如果不盡快做 Harness,就沒有足夠的數(shù)據(jù)去訓(xùn)練下一代模型。
眼下真正有價值的新數(shù)據(jù),只有一種,就是完整的 Agent 工作流,而且這個工作流必須是真正替代人類完成了具體任務(wù)。只有這樣的數(shù)據(jù),才會對下一代模型產(chǎn)生實質(zhì)性幫助。
Claude 作為 OpenClaw 背后的大腦,大家可能會覺得它很好用,但其實這些模型本身早就已經(jīng)出現(xiàn)了。為什么 OpenClaw 看起來更智能、能做的事情更多?關(guān)鍵原因在于 CUA 的使用場景。一個 CUA 場景意味著更高的權(quán)限,也意味著一個長期存在的工作平臺。
你在電腦上留存的歷史文檔,都可以被 OpenClaw 調(diào)用,這和在沙箱中運行的 Agent 有本質(zhì)區(qū)別。沙箱中的任務(wù)結(jié)束后即被銷毀,灌輸進去的上下文也隨之消失;但 OpenClaw 會持續(xù)存在于你的電腦上,隨著時間推移,它會逐步了解你近期在做什么工作,并把這些內(nèi)容積累下來。因此,這類智能體會給人一種“伴隨你一起成長”的感覺。
但這件事本身也會帶來新的問題。隨著使用時間拉長,你會發(fā)現(xiàn) OpenClaw 反而可能慢慢變笨。原因在于,電腦里的文件系統(tǒng)可以無限擴展,而大語言模型的上下文通常只有 100 萬到 200 萬 Tokens。
剛開始使用時,文件量可能不到 1G,壓縮進 100 萬 Tokens 后,壓縮率還相對可控,因此 OpenClaw 還能夠較完整地看到上下文。但如果用上幾個月,記憶增長到 1T 甚至 100T,再把這些內(nèi)容壓縮進去,就必然會丟失大量信息,最終導(dǎo)致它記不住很多過去發(fā)生的事情。與此同時,每次請求都要重新傳入已經(jīng)占滿的上下文,哪怕只是一次簡單交互,成本都可能高得驚人。
OpenClaw 背后的大腦,也未必像大家想象中那樣聰明。比如你問大模型,距離 50 米去洗車,應(yīng)該開車還是走路,大多數(shù)模型仍然會回答走路。這說明大模型本身存在明顯問題。如果把它類比成人類,它更像一個患有順行性遺忘癥、也就是海馬體受損的患者。它能夠記住今天之前發(fā)生的事情,但對于今天之后發(fā)生的事情,往往只能形成短期記憶,很難形成長期記憶。
在 CL-Bench 這類設(shè)定了虛構(gòu)物理規(guī)則的測試中,模型的表現(xiàn)并不理想,最好的模型準確率也只有 23.7%。原因在于,在強化學(xué)習(xí)過程中,我們要求模型不能違背事實進行推理,因此它面對新知識時,仍然傾向于基于原有記憶展開推理。也正因此,今天的 AI 更像是記憶大師,而不是學(xué)習(xí)專家。那些依靠死記硬背就能刷高分的榜單,評測意義其實并不大。真正有價值的,是測試模型學(xué)習(xí)新知識的能力,也就是持續(xù)學(xué)習(xí)和終身學(xué)習(xí)的能力。
那么,怎樣解決“上下文不變,但記憶持續(xù)增長”的問題?如果有一種技術(shù),能夠把新的常識和新的客觀事實直接更新到模型的參數(shù)或權(quán)重中,這個問題就有可能被解決。比如一個月之內(nèi)發(fā)生的事情被壓縮進參數(shù)里,模型從 4.2B 變成 4.5B,知識真正進入?yún)?shù)之后,就不需要每次都重復(fù)攜帶在上下文中,不僅更節(jié)省成本,準確率也會更高。
再看另一個問題。人類是已知神經(jīng)元最多的生物嗎?并不是。短肢領(lǐng)航鯨和非洲象的神經(jīng)元數(shù)量都比人更多。在模型訓(xùn)練中,Scaling Law 和 Overfitting 是并存的。舉例來說,在辨別人臉時,參數(shù)量更大的模型有時會過度擬合一些無關(guān)特征,比如衣服,導(dǎo)致特征稍有變化就無法識別;相反,參數(shù)更小的模型如果抓住了更核心的特征,反而能夠識別出來。所以,參數(shù)更多并不必然意味著模型更聰明。
綜合前面這些問題,我們認為,當前 AI 真正的瓶頸,不是參數(shù)不夠多,不是數(shù)據(jù)不夠大,也不是算力不夠強,而是缺乏持續(xù)學(xué)習(xí)能力。而具備參數(shù)化持續(xù)學(xué)習(xí)能力的模型,必然發(fā)生在端側(cè),因為用戶不可能去修改商業(yè)模型的參數(shù)。
基于以上判斷,接下來我介紹一下 Mano-P 本身。它是 Personal AI 的第一步,目標是在端側(cè)持續(xù)打造真正屬于你的模型。它將分三個階段開源。
第一階段已經(jīng)開源,主要面向現(xiàn)有 OpenClaw 用戶的 Agent Skill。很多工具雖然已經(jīng)實現(xiàn) API 化,但在實際工作流中,一旦遇到需要 GUI 操作的軟件,仍然離不開人工介入,這也成為整個流程中的瓶頸。我們要做的,就是替代人工去操作 GUI 軟件,把這段工作流徹底打通。我們這次開源的 Skill 叫 Mano CUA。用戶下載安裝之后,就相當于擁有了一只“虛擬手”來操作電腦。目前開源的是云端版本。
第二階段將開源端側(cè)模型和本地版本,主要面向安全性要求更高的用戶。它可以在本地斷網(wǎng)運行,直接使用 Mac,尤其是 M4 芯片以上設(shè)備上的 GPU 與 ANE 混合算力,或者接入 USB 算力棒,即可完成本地推理,不需要英偉達顯卡,也不需要本地服務(wù)器。
第三階段,我們會開源整個模型的訓(xùn)練方法。到那個時候,開發(fā)者就可以基于這套方法,打造屬于自己的端側(cè)模型。
Mano P 目前已經(jīng)在全球多模態(tài) 13 個榜單上達到 SOTA。在 100B 以內(nèi)的小尺寸模型中,基本處于領(lǐng)先位置;在不限尺寸的情況下,也基本能夠穩(wěn)定進入前三。在 9 個主要榜單上,全部排名第一。
而剛才提到的參數(shù)化持久記憶,到底如何實現(xiàn)?我們把這套方法稱為嵌套學(xué)習(xí)。現(xiàn)有大語言模型建立在 Deep Learning 基礎(chǔ)之上,但在這一范式形成之初,并沒有真正把持續(xù)學(xué)習(xí)的問題納入核心設(shè)計,因此它更像是“海馬體受損”的狀態(tài)。人類之所以能夠形成長期記憶,是因為會不斷經(jīng)歷在線鞏固和離線鞏固。而我們現(xiàn)在采用的這套學(xué)習(xí)方式,就像齒輪結(jié)構(gòu)一樣,每一層的更新頻率都不相同。
在 Mano-P 的訓(xùn)練過程中,我們設(shè)計了三個 Agent,分別是執(zhí)行者、教授和哲學(xué)家,它們的更新頻率各不相同。其中,哲學(xué)家的更新頻率最低,相當于長期穩(wěn)定的準則。借助這套技術(shù),我們在 CL Bench 上取得了僅次于 GPT 5.1 的成績。
所以,最后的結(jié)論是,基于 Deep Learning 和 Transformer 的大模型,本質(zhì)上是記憶大師,而不是學(xué)習(xí)天才,它缺乏持續(xù)學(xué)習(xí)能力。現(xiàn)有路線更多依靠擴大上下文來彌補這一點,但這種方式意味著極高的成本。
嵌套學(xué)習(xí)的理念,將使 AI 真正具備終身學(xué)習(xí)能力。新時代的 AI 將運行在端側(cè),成為輔助個體的最強模型。未來,追求通用智能的 AGI 和追求個性化智能的 Personal AI 會長期共存。沒有人真正需要一個萬億參數(shù)的通用模型,你真正需要的,可能是一個懂你、了解你、能夠陪伴你一起成長的個性化 AI 模型。
Cyrus:Mano-P 在 GUI 操作能力上有了明顯提升,不僅頁面操作的準確率更高,更重要的是,我們開始能夠處理越來越多的長尾問題。因為 Mano-P 具備持續(xù)學(xué)習(xí)能力,所以只要你告訴它你的卡點在哪里,它就有可能把這個問題學(xué)會。
Cyrus:和那些做通用大模型的公司不同,我們更關(guān)注個性化 AI 能力的建設(shè),這就需要很多不同方向的技術(shù)支持,比如嵌套學(xué)習(xí)、持續(xù)學(xué)習(xí)等。接下來,我們會把更多研發(fā)精力投入到這些方向上。通用模型廠商走的基本是 Scaling up 路線,而我們提出的是 Scaling out。
對于可信智能的構(gòu)建來說,Scaling out 的優(yōu)勢在于,它可以讓學(xué)習(xí)過程更透明。因為它運行在你的客戶端上,本質(zhì)上是一個白盒,安全風(fēng)險會更低,你也會更愿意信任它,把自己的資料交給它學(xué)習(xí)。
Cyrus:Mano-P 究竟能幫我們做什么?以全自動化軟件開發(fā)場景為例,現(xiàn)在大家可以借助各種工具編寫代碼,但軟件最終仍然是給人使用的,因此界面功能和交互體驗仍然需要人來測試。也就是說,在測試這個環(huán)節(jié)中,人反而成為自動化的瓶頸。我們的這套技術(shù),可以通過 GUI 操作替代人工測試,從而實現(xiàn)從需求拆解、編碼到測試的全流程自動化。
相似的,在視頻剪輯的工作流中,從一句話生成TVC粗剪,到智能分析視頻問題,再到剪映自動精修,全程不用人工操縱,Mano-P 同樣可以直接幫你點鼠標、改字幕、傳文件,實現(xiàn)工作流的自動化運行。
而我們之所以堅持自研模型,是因為我們需要它去適配更多真實產(chǎn)品。在 Agent 時代,模型在后臺需要完成任務(wù)拆解、意圖理解、步驟規(guī)劃,再進一步調(diào)用工具。在這個過程中,哪怕底層模型能力只差 10%,最終呈現(xiàn)出來的結(jié)果也可能是 0 和 1 的區(qū)別,要么任務(wù)完成,要么整個流程失效。我們真正想做的,是一個更適配 Agent 的底層大模型,它對人類意圖的識別更敏銳,也更有能力幫助我們真正完成任務(wù)。
后面我們也會更關(guān)注一些更硬核的榜單,重點考察上下文學(xué)習(xí)能力和持續(xù)學(xué)習(xí)能力,因為這些榜單上的表現(xiàn),與真實應(yīng)用水平之間的偏差會更小。
Cyrus:這個問題其實已經(jīng)困擾很多人很久了。無論是把知識壓縮到上下文里,還是壓縮到向量空間里,本質(zhì)上都還是壓縮,而壓縮的上限又受限于商業(yè)模型的上下文窗口。擴大上下文,只能寄希望于模型廠商。但參數(shù)化這條路徑不一樣。因為模型運行在端側(cè),是你自己的模型,所以參數(shù)量增加到什么程度,其實由你自己決定,你可以持續(xù)擴展。我們認為,這是一條更可靠、也更科學(xué)的方式。
信息填寫