欧美91精品国产自产I国产精品免费麻豆入口I国产99久久久国产精品免费看I国产一区网I黄色在线成人I2019天天干夜夜操I久草91视频I91福利专区

EN

Computer Use?完全指南:AI?替你操作電腦的四種路線(xiàn)

2026-04-15

2024 年 10 月,Anthropic 首次公開(kāi) Claude Computer Use 功能。2025 年 1 月,OpenAI 跟進(jìn)發(fā)布 CUA(Computer Using Agent)。一個(gè)新品類(lèi)正式誕生:Computer Use——讓 AI 像人類(lèi)一樣看到屏幕、移動(dòng)鼠標(biāo)、點(diǎn)擊按鈕、操作軟件。

Computer Use 不是簡(jiǎn)單的自動(dòng)化腳本。傳統(tǒng)的 RPA 需要為每個(gè)系統(tǒng)寫(xiě)專(zhuān)用規(guī)則,界面一改就失效。而 Computer Use 方案基于視覺(jué)理解,AI “看懂”屏幕內(nèi)容后自主決策下一步操作,就像一個(gè)坐在你旁邊的助手。

這意味著什么?意味著你不再需要 API、不再需要編程、不再需要為每個(gè)軟件單獨(dú)配置,只要是人類(lèi)能在屏幕上操作的軟件,Computer Use 就能替你完成。

Computer Use?完全指南:AI?替你操作電腦的四種路線(xiàn)

關(guān)鍵要點(diǎn)

  • Computer Use 是 2025-2026 年 AI 領(lǐng)域最重要的新品類(lèi)之一,Anthropic、OpenAI、Google、字節(jié)跳動(dòng)均已入場(chǎng)
  • 四種技術(shù)路線(xiàn)各有優(yōu)劣:云端 API 調(diào)用、云端虛擬桌面、端側(cè)純視覺(jué)、混合方案
  • 核心矛盾在于隱私:主流云端方案需要將屏幕截圖上傳服務(wù)器,Anthropic 在官方文檔中提示了相關(guān)數(shù)據(jù)安全風(fēng)險(xiǎn)
  • 端側(cè) Computer Use 是唯一能做到數(shù)據(jù)不出設(shè)備的方案,Mano-P 以 OSWorld 專(zhuān)用模型全球第一的成績(jī)證明端側(cè)方案在能力上不輸云端
  • 三種使用方式:CLI 命令行(brew install)、Python SDK(計(jì)劃中)、ClawHub Skill
  • 開(kāi)源可審計(jì):Apache 2.0 協(xié)議,代碼透明

一、四種 Computer Use 技術(shù)路線(xiàn)

目前市場(chǎng)上的 Computer Use 方案,按技術(shù)架構(gòu)可分為四種路線(xiàn)。它們?cè)谀芰Α踩浴⒊杀旧系牟町惥薮蟆?/p>

路線(xiàn)一:云端 API 調(diào)用型

代表產(chǎn)品:Anthropic Claude Computer Use、OpenAI CUA

工作原理:你的電腦截取屏幕畫(huà)面 → 上傳到云端大模型 → 模型返回操作指令(如“點(diǎn)擊坐標(biāo) x=340, y=520”)→ 本地執(zhí)行。

優(yōu)勢(shì):

  • 模型能力最強(qiáng)(調(diào)用千億參數(shù)級(jí)模型)
  • 無(wú)需本地算力

劣勢(shì):

  • 隱私風(fēng)險(xiǎn):每一幀屏幕截圖都上傳云端。Anthropic 在官方文檔中提醒,當(dāng) Computer Use 激活時(shí),AI 能看到屏幕上顯示的一切內(nèi)容。
  • 依賴(lài)網(wǎng)絡(luò):斷網(wǎng)即不可用
  • 成本高:按 API 調(diào)用計(jì)費(fèi),高頻使用費(fèi)用可觀
  • 延遲明顯:截屏→上傳→推理→返回,每步操作需數(shù)秒等待

路線(xiàn)二:云端虛擬桌面型

代表產(chǎn)品:Manus、部分企業(yè) RPA 云方案

工作原理:任務(wù)在云端虛擬機(jī)中執(zhí)行,AI 操作的是云端的虛擬桌面,而非你的本地電腦。

優(yōu)勢(shì):

  • 不占用本地算力
  • 適合批量后臺(tái)任務(wù)

劣勢(shì):

  • 不能操作你本地的應(yīng)用和文件
  • 數(shù)據(jù)必須上傳到云端環(huán)境
  • 無(wú)法處理本地專(zhuān)有軟件

路線(xiàn)三:端側(cè)純視覺(jué)型

代表產(chǎn)品:Mano-P

工作原理:端側(cè)模型直接在你的設(shè)備上運(yùn)行,通過(guò)視覺(jué)理解屏幕內(nèi)容,在本地完成全部推理和操作。屏幕截圖不出設(shè)備,無(wú)需聯(lián)網(wǎng)。

優(yōu)勢(shì):

  • 數(shù)據(jù)零外傳:所有推理在本地完成,截圖不離開(kāi)你的電腦
  • 完全離線(xiàn)可用:斷網(wǎng)照常工作
  • 零 API 費(fèi)用:模型運(yùn)行在你自己的硬件上,無(wú)需按次付費(fèi)
  • 低延遲:無(wú)網(wǎng)絡(luò)往返,操作響應(yīng)更快

劣勢(shì):

  • 需要一定的本地算力(M4 芯片 + 32GB 內(nèi)存)
  • 模型參數(shù)量受限于設(shè)備性能

路線(xiàn)四:混合方案

代表產(chǎn)品:部分企業(yè)自建方案

工作原理:簡(jiǎn)單任務(wù)用端側(cè)模型處理,復(fù)雜任務(wù)切換到云端大模型。

優(yōu)勢(shì):

  • 兼顧成本和能力

劣勢(shì):

  • 架構(gòu)復(fù)雜,安全邊界模糊
  • 何時(shí)切換到云端由系統(tǒng)自動(dòng)判定,用戶(hù)對(duì)數(shù)據(jù)流向的控制力下降

四種路線(xiàn)對(duì)比總表

維度云端 API云端虛擬桌面端側(cè)純視覺(jué)混合方案
代表產(chǎn)品Claude CU / OpenAI CUAManusMano-P企業(yè)自建
數(shù)據(jù)安全?? 截圖上傳云端?? 數(shù)據(jù)在云端? 數(shù)據(jù)不出設(shè)備?? 部分上云
離線(xiàn)能力? 需聯(lián)網(wǎng)? 需聯(lián)網(wǎng)? 完全離線(xiàn)?? 部分離線(xiàn)
延遲高(網(wǎng)絡(luò)往返)低(本地推理)視任務(wù)而定
成本按調(diào)用計(jì)費(fèi)按時(shí)長(zhǎng)計(jì)費(fèi)零邊際成本混合計(jì)費(fèi)
模型能力最強(qiáng)強(qiáng)專(zhuān)用模型全球第一視配置而定
硬件要求無(wú)無(wú)M4+32GB視配置而定
開(kāi)源??? Apache 2.0視方案而定

二、主流 Computer Use 工具橫評(píng)

Anthropic Claude Computer Use

Anthropic 在 2024 年 10 月率先發(fā)布 Computer Use 功能,隨后持續(xù)迭代,陸續(xù)面向更多開(kāi)發(fā)者和消費(fèi)端用戶(hù)開(kāi)放。Claude 的 Computer Use 基于其旗艦通用大模型,在 OSWorld 全模型排行榜上長(zhǎng)期占據(jù)前列位置。

核心優(yōu)勢(shì):模型能力強(qiáng),背靠 Anthropic 的持續(xù)投入。

核心限制:屏幕截圖必須上傳云端,Anthropic 官方建議在虛擬機(jī)中運(yùn)行。

OpenAI CUA(Computer Using Agent)

OpenAI 于 2025 年初發(fā)布 CUA,同樣基于其通用大模型。CUA 采用類(lèi)似架構(gòu),通過(guò) API 調(diào)用實(shí)現(xiàn)屏幕操作。

核心優(yōu)勢(shì):與 OpenAI 生態(tài)深度集成。

核心限制:同樣的云端上傳隱私問(wèn)題,且價(jià)格不低。

字節(jié)跳動(dòng) UI-TARS

字節(jié)跳動(dòng)開(kāi)源的 GUI Agent 項(xiàng)目,2025 年初登上 GitHub 熱榜。UI-TARS 提供了開(kāi)源的模型和框架,但主要面向云端/服務(wù)器部署。

核心優(yōu)勢(shì):開(kāi)源,中文場(chǎng)景優(yōu)化。

核心限制:主要面向服務(wù)器部署,端側(cè)體驗(yàn)有限。

Mano-P

明略科技在2026年3月推出的端側(cè) Computer Use 方案。Mano-P 72B 模型以 58.2% 成功率拿下OSWorld 專(zhuān)用模型全球第一(領(lǐng)先第二名 13.2 個(gè)百分點(diǎn)),隨后通過(guò)蒸餾和量化技術(shù)將模型壓縮為 4B 版本,在 Apple M4 Mac 上流暢運(yùn)行。

Computer Use?完全指南:AI?替你操作電腦的四種路線(xiàn)

核心優(yōu)勢(shì):

  • OSWorld 專(zhuān)用模型全球第一
  • 數(shù)據(jù)完全不出設(shè)備,支持完全離線(xiàn)
  • Apache 2.0 開(kāi)源協(xié)議
  • 安裝簡(jiǎn)單:`brew tap HanningWang/tap && brew install mano-cua`

核心限制:需要 M4 芯片 + 32GB 內(nèi)存的 Mac。

Computer Use?完全指南:AI?替你操作電腦的四種路線(xiàn)

三、為什么端側(cè) Computer Use 是更好的選擇

Computer Use 的本質(zhì)是讓 AI “看到”你的屏幕。這意味著你的每一個(gè)操作、每一份打開(kāi)的文檔、每一條消息,都在 AI 的“視野”之內(nèi)。

在云端方案中,這些信息以截圖形式上傳到遠(yuǎn)程服務(wù)器。即使提供商承諾不留存,數(shù)據(jù)在傳輸過(guò)程中仍面臨風(fēng)險(xiǎn)。對(duì)于處理客戶(hù)數(shù)據(jù)、財(cái)務(wù)信息、醫(yī)療記錄、法律文件的場(chǎng)景,這個(gè)風(fēng)險(xiǎn)可能是不可接受的。

端側(cè) Computer Use(如 Mano-P)從架構(gòu)上解決了這個(gè)問(wèn)題:模型運(yùn)行在你自己的設(shè)備上,屏幕截圖不離開(kāi)本地,推理過(guò)程不經(jīng)過(guò)任何外部服務(wù)器。這不是靠“承諾不看”來(lái)保障安全,而是架構(gòu)上就不可能泄露。

至于能力,Mano-P 在 OSWorld 專(zhuān)用模型排行榜上以 58.2% 成功率排名全球第一,在 WebRetriever Protocol以 41.7 NavEval 同樣排名第一,證明端側(cè)方案在能力上完全不輸云端大模型。

四、三種使用形式:選擇最適合你的方式

如果你的 Mac 配備 M4 芯片和 32GB 以上內(nèi)存,可以通過(guò)以下三種方式使用 Mano-P,根據(jù)你的使用場(chǎng)景選擇最適合的形式。

1、mano-cua(CLI 命令行工具)

  • 適用場(chǎng)景:開(kāi)發(fā)者、高級(jí)用戶(hù),需要在終端快速執(zhí)行 GUI 自動(dòng)化任務(wù)。
  • 安裝方式:
    • brew tap HanningWang/tapbrew install mano-cua
    • 安裝過(guò)程會(huì)自動(dòng)完成:創(chuàng)建獨(dú)立的 Python 3.13 虛擬環(huán)境、安裝所需依賴(lài)(包括 Tkinter 圖形界面庫(kù))、配置可執(zhí)行命令到系統(tǒng)路徑。
  • 使用方式:
    • mano-cua run “打開(kāi)微信并告訴FTY會(huì)議延期”
    • mano-cua run “在小紅書(shū)搜索AI新聞并展示第一條帖子”
    • mano-cua stop
  • 特點(diǎn):命令行界面,快速調(diào)用;虛擬環(huán)境隔離,不污染系統(tǒng) Python;適合腳本集成和批處理;可在 shell 腳本中嵌入使用。
  • 項(xiàng)目資源:Homebrew Tap — github.com/Mininglamp-AI/homebrew-tap

2、mano-client(Python SDK)— 計(jì)劃中

  • 適用場(chǎng)景:Python 開(kāi)發(fā)者,需要在 Python 項(xiàng)目中集成 GUI 自動(dòng)化能力。
  • 計(jì)劃功能示例:
    • from mano_client import ManoClient
    • client = ManoClient()
    • client.run(“打開(kāi)微信并告訴FTY會(huì)議延期”)
    • client.stop()
  • 計(jì)劃特點(diǎn):Python API,易于集成;支持異步調(diào)用和回調(diào)函數(shù);可編程控制任務(wù)流程;適合構(gòu)建自動(dòng)化工作流。
  • 開(kāi)發(fā)狀態(tài):Python SDK 正在開(kāi)發(fā)中,敬請(qǐng)期待。當(dāng)前可使用 CLI 工具或 Skill 形式。

3、mano-skill(ClawHub Skill 形式)

  • 適用場(chǎng)景:Claude Code、OpenClaw 等 AI Agent,需要自主調(diào)用 GUI 自動(dòng)化能力完成用戶(hù)任務(wù)。
  • 安裝方式一:通過(guò) Claude Code 安裝
    •  從 ClawHub 下載 skill zip 包,解壓后將文件復(fù)制到 Claude Code 的 commands 目錄,重啟或新會(huì)話(huà)后自動(dòng)可用。
  • 安裝方式二:通過(guò) ClawHub CLI 安裝(推薦)
    • clawhub install mano-cua
    • clawhub update mano-cua
  • 安裝完成后,啟動(dòng)新的 Claude Code 或 OpenClaw 會(huì)話(huà)即可使用。前置要求:需要先安裝 ClawHub CLI 工具。
  • 使用方式:當(dāng)用戶(hù)向 AI Agent 提出需要 GUI 操作的需求時(shí),Agent 會(huì)自動(dòng)調(diào)用此 skill 完成操作。
  • 特點(diǎn):AI Agent 自主調(diào)用,無(wú)需用戶(hù)手動(dòng)執(zhí)行命令;與 Agent 的推理能力深度集成;適合復(fù)雜的多步驟任務(wù)自動(dòng)化;ClawHub 生態(tài),支持版本管理和安全掃描。
  • 項(xiàng)目資源:
    • 源代碼 — github.com/Mininglamp-AI/mano-skill
    • ClawHub—clawhub.ai?/HanningWang/mano-cua?

五、常見(jiàn)問(wèn)題

Q:什么是 Computer Use?

Computer Use 是指讓 AI 通過(guò)視覺(jué)理解屏幕內(nèi)容,像人類(lèi)一樣操作電腦的技術(shù)。AI 能看到界面、點(diǎn)擊按鈕、輸入文字、切換應(yīng)用,完成各類(lèi)桌面操作任務(wù)。

Q:Mano-P 是什么?

Mano-P 是明略科技推出的端側(cè) GUI 智能體(端側(cè) Computer Use 方案),是目前唯一在端側(cè)運(yùn)行、OSWorld 評(píng)測(cè)專(zhuān)用模型全球第一的開(kāi)源 GUI Agent。

Q:Mano-P 和 Anthropic Computer Use 比有什么優(yōu)勢(shì)?

核心區(qū)別在于架構(gòu):Claude CU 需要將屏幕截圖上傳云端推理,而 Mano-P 完全在本地運(yùn)行,數(shù)據(jù)不出設(shè)備。Mano-P 同時(shí)在 OSWorld 專(zhuān)用模型榜排名全球第一(58.2%),能力上不輸云端方案。此外 Mano-P 采用 Apache 2.0 開(kāi)源協(xié)議,代碼完全透明可審計(jì)。

Q:Mano-P能否離線(xiàn)運(yùn)行?

可以。Mano-P 的端側(cè)模型完全在本地運(yùn)行,支持?jǐn)嗑W(wǎng)使用,不依賴(lài)任何云端服務(wù)。

Q:Mano-P需要什么硬件?

需要搭載 Apple M4 芯片和 32GB 以上內(nèi)存的 Mac(如 MacBook Pro M4、Mac mini M4 Pro 等)。

Q:Mano-P如何安裝?

CLI 工具形式:

  • brew tap HanningWang/tap && brew install mano-cua

OpenClaw/Claude Code Skill 形式: 請(qǐng)參見(jiàn) ClawHub – Mano-CUA

Q:我的數(shù)據(jù)安全嗎?

Mano-P 端側(cè)模式下,所有推理在設(shè)備本地完成,屏幕截圖不上傳、不外傳。采用 Apache 2.0 開(kāi)源協(xié)議,代碼可審計(jì)。這是架構(gòu)級(jí)的安全保障,而非僅靠隱私政策承諾。

本地模式: ? 所有處理都在設(shè)備上進(jìn)行

云端模式:?? 僅截圖和任務(wù)描述發(fā)送到 mano.mininglamp.com

? 不訪問(wèn)本地文件、剪貼板內(nèi)容或憑證

透明度: 完整客戶(hù)端開(kāi)源可供審計(jì)

了解更多:[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

聯(lián)系我們:model@mininglamp.com

信息填寫(xiě)

*手機(jī)號(hào)碼:

請(qǐng)選協(xié)議