款手機Type-C擴展塢我花了128元,用HDMI電纜連接到我一直擱置N年不用的臺式機顯示器,當一臺智能手機電腦用。這是我的購買記錄,當時花了128元。
當然,我的臺式機主機箱早就淘汰了,用這款擴展塢來代替臺式機主機,再連接藍牙鍵盤和鼠標,就成了一臺智能手機電腦,用我這29寸的顯示器看高清電影、追劇還是非常爽的。
這個擴展塢有7個接口,用于連接手機的Type-C口,用于連接顯示設備的HDMI,還有3個USB插槽,可以同時連接鼠標、鍵盤和U盤,還有TF、SD卡插口,實在是該有的都有了。
這個擴展塢的插槽接口是Type-C,適合大多數安卓智能手機,如下圖就是與我的華為Mate30Pro手機的完美適配。
將我的Mate30Pro手機插入到這個擴展塢底座后,彈出的擴展選項有2種,一種是“手機模式”,一種是“電腦模式”,“手機模式”就是常規(guī)的豎屏手機同屏顯示,手機和顯示器上的顯示內容是一樣的。
華為手機的另一種“電腦模式“功能十分強大(這也是我選擇購買華為的主要原因之一),如果選擇“電腦模式”,那么手機就化身成電腦了。如下就是選擇電腦模式的全屏畫面,就像使用電腦Windows操作系統(tǒng)那樣,用鼠標和鍵盤運行手機里的app應用程序(可以裝TV版的App),用手機瀏覽器全屏看網頁,用MS Office/WPS查看、整理和編輯文檔,完全可以用于常用的娛樂和辦公。
華為手機的“電腦模式”的另一個好處就是:手機與這個擴展塢連接的顯示器都可以單獨操作,也就是說你連接為電腦模式后,手機可以該干嘛就干嘛,不影響電腦模式,電腦模式也是獨立的,它的操作也不影響手機,這樣你就可以一邊玩手機,一邊玩“電腦模式”的電腦。
當然,這個擴展塢是手機專用的,那么電腦的Type-C擴展塢可不可以如這個手機擴展塢實現一樣的功能呢?
答案是:可以。
下一期,我給大家介紹通過電腦Type-C擴展塢連接與華為手機的“電腦模式”配合讓手機化身智能電腦。
#萬能生活指南#
機高清投屏電腦,控制手機,電腦便捷。
有沒有一款軟件可以實現這些呢?
1. 有沒有一款軟件不僅可以實現手機高清投屏電腦,還能用電腦去反控手機?這款不需要手機 root,適配所有安卓機型,支持無線連接的 Total Control 值得一試。
2. 有了它就能像這樣在電腦上操作手機游戲。
3. 可以在電腦上打開手機 APP,把手機的一切操作通過電腦鼠標鍵盤來完成。
4. 可以在電腦上刷手機短視頻,預防手機玩久了脖子酸腰痛等問題。
5. 當沒時間看手機的時候,還能即使通過電腦查看和鼠標鍵盤回復手機聊天軟件上的信息。
6. 作為手機和電腦之間的快速連接通道,還能從電腦上復制或剪切文字粘貼到手機,或者從手機復制或剪切文字粘貼到電腦。
7. 鼠標一鍵拖拽電腦照片、視頻或文件到手機。
8. 電腦瀏覽手機網頁或新聞。
9. 手機電量不足的情況下,還能讓它息屏,電腦上繼續(xù)玩手機。
10. 手機橫豎屏快速切換,放大手機屏幕,解放雙眼不再過度疲勞。
11. 除此之外,還能同時投屏不同的手機到電腦,然后控制不同的手機同步執(zhí)行相同的命令,或者讓它們分開運行不同的 APP。
xiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
跨平臺的多模態(tài)智能體基準測試 CRAB 由 CAMEL AI 社區(qū)主導,由來自牛津、斯坦福、哈佛、KAUST、Eigent AI 等機構的研究人員合作開發(fā)。CAMEL AI 社區(qū)開發(fā)的 CAMEL 框架是最早基于大語言模型的多智能體開源項目,因此社區(qū)成員多為在智能體領域有豐富科研和實踐經驗的研究者和工程師。
AI 智能體(Agent)是當下大型語言模型社區(qū)中最為吸引人的研究方向之一,用戶只需要提出自己的需求,智能體框架便可以調度多個 LLMs 并支持多智能體(Multi-agents)以協(xié)作或競爭的方式來完成用戶給定的任務。
目前智能體已越來越多地與大型多模態(tài)模型 (MLM) 相結合,支持在各種操作系統(tǒng)( 包括網頁、桌面電腦和智能手機) 的圖形用戶界面( GUI) 環(huán)境中執(zhí)行任務。但是目前針對這種智能體性能評估的基準(benchmarks)仍然存在很多局限性,例如構建任務和測試環(huán)境的復雜性,評價指標的單一性等。
針對這些問題,本文提出了一個全新的跨環(huán)境智能體基準測試框架 CRAB。CRAB 采用了一種基于圖的細粒度評估方法,并提供了高效的任務和評估器構建工具。本文的研究團隊還基于 CRAB 框架開發(fā)了一個跨平臺的測試數據集 CRAB Benchmark-v0,其中涵蓋了可以在 PC 和智能手機環(huán)境中執(zhí)行的 100 個任務,其中既包含傳統(tǒng)的單平臺任務,還包含了必須同時操作多個設備才能完成的復雜跨平臺任務。
作者選取了當前較為流行的四個多模態(tài)模型進行了初步實驗,實驗結果表明,使用 GPT-4o 作為推理引擎的單智能體結構擁有最高的測試點完成率 35.26%。
引言
作為全新的智能體評估基準框架,CRAB(Cross-environment Agent Benchmark)主要用于評估基于多模態(tài)語言模型(MLMs)的智能體在跨環(huán)境任務中的表現。CRAB 可以模擬真實世界中人類用戶同時使用多個設備完成復雜任務的場景,如 Demo 所示,CRAB 可以用來評估智能體同時操縱一個 Ubuntu 桌面系統(tǒng)和一個 Android 手機系統(tǒng)完成發(fā)送信息的過程。
<script src="https://lf3-cdn-tos.bytescm.com/obj/cdn-static-resource/tt_player/tt.player.js?v=20160723"></script>
想象一下,如果智能體具備根據人類指令同時精確操作電腦和手機的能力,很多繁雜的軟件操作就可以由智能體來完成,從而提高整體的工作效率。為了達成這個目標,我們需要為智能體構建更加全面和真實的跨平臺測試環(huán)境,特別是需要支持同時操作多個設備并且能提供足夠的評估反饋機制。本文的 CRAB 框架嘗試解決以下幾個實際問題:
上表展示了本文提出的 CRAB 框架與現有其他智能體基準框架的對比,相比其他基準,CRAB 可以同時支持電腦和手機等跨平臺的操作環(huán)境,可以模擬更加真實的使用場景。
對于 CRAB,一眾網友給出了很高的評價。
有人表示,AGI 已經達成,因為有大語言模型(指 CRAB)已經學會了如何退出 Vim。
"Can you exit Vim?" 這個問題常常是一個編程或技術社區(qū)的玩笑,因為 Vim 對新手來說可能很難退出,尤其是當他們不熟悉 Vim 的操作模式時。(在此貢獻一張表情包)
有人說很難相信一個智能體可以完成 “查看日歷,打開 Vim,進入插入模式,輸入事件列表,退出插入模式,并使用 :wq 保存” 這一系列任務。
也有網友總結說下個下一代機器人流程自動化(RPA)將更像是 “請幫我完成下列任務”,而不需要記錄每一個步驟,然后在幾天內運行時崩潰。
也有人提到了 CRAB 中的圖評估器(Graph Evaluator)用于處理智能體在環(huán)境中的狀態(tài)是一種非常智能的方式。
甚至有人夸贊道 CRAB 是 AI PC 的未來,認為這是 LLM 與 PC 和移動設備的完美結合,“它是一種類似 RabbitOS 的 AI,使現有的 PC 和移動設備具備 AI 功能。CRAB 的基準測試允許在現實世界中測試多模態(tài)語言模型代理的有效性和實用性。”
GDT 中的每個節(jié)點可以代表一個子任務 (m,i,r),其中 m 為子任務執(zhí)行的環(huán)境,i 為自然語言指令,r 是獎勵函數,用于評估環(huán)境 m 的狀態(tài)并輸出布爾值,判斷子任務是否完成。GDT 中的邊表示子任務之間的順序關系。
CRAB 框架
跨環(huán)境智能體交互
CRAB 首次引入了跨環(huán)境任務的概念,將多個環(huán)境(如智能手機和桌面電腦)組合成一個環(huán)境集合,使智能體能夠在多個設備之間協(xié)調操作完成復雜任務。
在 CRAB 框架中使用基于環(huán)境分工的多智能體系統(tǒng)的運行流程如上圖所示。工作流程通過一個循環(huán)進行,首先通過主智能體觀察環(huán)境,并對子智能體指定計劃,然后所有的子智能體在各自的環(huán)境中執(zhí)行操作。隨后由一個圖評估器(Graph Evaluator)來監(jiān)視環(huán)境中各個子任務的狀態(tài),并在整個工作流程中不斷更新任務的完成情況。這種評估方式可以貼近真實場景,以考驗智能體的推理能力,這要求智能體能夠處理復雜的消息傳遞,并且需要深入理解現實世界的情況。
圖評估器(Graph Evaluator)
CRAB 內置的圖評估器同時兼顧了目標導向和軌跡導向評估的優(yōu)點,其首先將復雜任務分解為多個子任務,形成一個有向無環(huán)圖結構。隨后定義了一種節(jié)點激活機制,即圖中的節(jié)點(子任務)需要根據前置任務的完成情況逐步激活,確保任務的順序執(zhí)行。其中每個節(jié)點都關聯(lián)了一個驗證函數,用來檢查環(huán)境中的關鍵中間狀態(tài)。相比之前的評估基準,CRAB 圖評估器創(chuàng)新性地引入了一系列新的評價指標:
這些指標為智能體基準提供了更細粒度和更多維度的評估側重點。
CRAB Benchmark-v0
基準構建細節(jié)
基于提出的 CRAB 框架,本文構建了一個具體的基準測試集 CRAB Benchmark-v0 用于社區(qū)進一步開展研究。CRAB Benchmark-v0 同時支持 Android 手機和 Ubuntu Linux 桌面電腦兩個環(huán)境。并且為 Ubuntu 和 Android 定義了不同的動作集,用來模擬真實生活中的常見交互。其觀察空間由兩種環(huán)境的系統(tǒng)界面構成,并且使用屏幕截圖形式獲取環(huán)境狀態(tài)。為了方便智能體在 GUI 中操作,作者使用 GroundingDINO [7] 來定位可交互圖標,使用 EasyOCR 檢測和標注可交互文本,為每個檢測項分配一個 ID,方便后續(xù)在操作空間內引用。
我們以一個具體任務舉例,例如在 Ubuntu 系統(tǒng)上完成如下任務:創(chuàng)建一個新目錄 “/home/crab/assets_copy”,并將所有具有指定 “txt” 擴展名的文件從 “/home/crab/assets” 復制到目錄 “/home/crab/assets_copy”。
該任務需要執(zhí)行多步操作才能完成,下圖展示了當使用 GPT-4 Turbo 作為推理模型并采用單智能體結構時的實驗細節(jié)。智能體首先使用 search_application 命令查找終端并打開。
然后使用 Linux 命令 “mkdir -p /home/crab/assets_copy” 創(chuàng)建新的目標目錄。
在創(chuàng)建好目標目錄后,智能體直接在終端中執(zhí)行了拷貝命令 :
“cp /home/crab/assets/*.txt/home/crab/assets_copy” 來完成任務,整個流程行云流水,沒有任何失誤。
實驗效果
作者隨后在 CRAB Benchmark-v0 進行了 baseline 實驗,智能體的核心是后端的多模態(tài)語言模型,其用來提供自然語言和圖像理解、基本設備知識、任務規(guī)劃和邏輯推理能力,需要支持多模態(tài)混合輸入,可以同時處理多輪對話,因而作者選取了 GPT-4o (gpt-4o-2024-05-13)、GPT-4 Turbo (gpt-4-turbo-2024-04-09)、Gemini 1.5 Pro (2024 年 5 月版本) 和 Claude 3 Opus (claude-3-opus-20240229) 作為 baseline 模型。
實驗結果如上表所示,其中 GPT-4o 和 GPT-4 Turbo 模型在測試模型中實現了最高的平均測試點完成率(CR)。在執(zhí)行效率(EE)和成本效率(CE)方面, GPT-4 系列也相比 Gemini 和 Claude 系列模型更加優(yōu)秀。
,時長02:37
總結
本文介紹了一種全新的跨環(huán)境多智能體評估基準 CRAB,CRAB 框架通過引入跨環(huán)境任務、圖評估器和基于子任務組合的任務構建方法,為自主智能體的評估提供了一個更加全面、靈活和貼近實際的基準測試平臺。相比先前的智能體基準,CRAB 減少了任務步驟中的手動工作量,大大提高了基準構建效率。基于 CRAB,本文提出了 Crab Benchmark-v0,同時支持智能體在 Ubuntu 和 Android 系統(tǒng)上執(zhí)行多種復雜的跨環(huán)境任務,這一基準的提出,不僅可以推動自主智能體評價體系的發(fā)展,也為未來設計更加高效的智能體系統(tǒng)提供全新靈感。
參考 :
[1] Shuyan Zhou et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. Oct.24, 2023. URL: http://arxiv.org/abs/2307.13854. preprint.
[2] Chi Zhang et al. AppAgent: Multimodal Agents as SmartphoneUsers. Dec. 21, 2023. URL: http://arxiv.org/abs/2312.13771. preprint.
[3] Shunyu Yao et al. “Webshop: Towards scalable real-world web interaction with grounded language agents”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 20744–20757.
[4] Tianbao Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Apr. 11, 2024. URL: http://arxiv.org/abs/2404.07972. preprint.
[5] Lin, Fangru, et al. "Graph-enhanced Large Language Modelsin Asynchronous Plan Reasoning." arXiv preprint arXiv:2402.02805 (2024).
[6] Tushar Khot et al. “Decomposed Prompting: A Modular Approach for Solving Complex Tasks”. In: The Eleventh International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.
[7] Shilong Liu et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv.org. Mar. 9, 2023.