色噜噜亚洲综合av,色乳av一区二区三区,欧美精品在线观看不卡一区

欄目導航

公司新聞

新聞資訊

新聞資訊

引入了“Phone”全新插件，可以更好地和安卓手機互動。

在 Windows 11 系統中，用戶可以使用 Phone Link 配套應用程序，在 PC 端查看手機端的通知，回復好友信息，甚至可以直接撥打電話。

而本次 Copilot 引入的全新“Phone”插件，用戶將安卓手機連接配對到 PC 之后，可以通過自然語言溝通方式查找聯系人信息，讀取、收發短信內容等。

該媒體實測目前該插件功能尚未生效，無法撥打聯系人電話，也無法讀取短信內容，畢竟該插件目前正在開發中，預估微軟后續會進一步完善該插件功能。

微軟在 2023 年 9 月的主題演講中曾詳細討論過這一功能，IT之家附上相關截圖如下：

xiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

跨平臺的多模態智能體基準測試 CRAB 由 CAMEL AI 社區主導，由來自牛津、斯坦福、哈佛、KAUST、Eigent AI 等機構的研究人員合作開發。CAMEL AI 社區開發的 CAMEL 框架是最早基于大語言模型的多智能體開源項目，因此社區成員多為在智能體領域有豐富科研和實踐經驗的研究者和工程師。

AI 智能體（Agent）是當下大型語言模型社區中最為吸引人的研究方向之一，用戶只需要提出自己的需求，智能體框架便可以調度多個 LLMs 并支持多智能體（Multi-agents）以協作或競爭的方式來完成用戶給定的任務。

目前智能體已越來越多地與大型多模態模型 (MLM) 相結合，支持在各種操作系統（包括網頁、桌面電腦和智能手機）的圖形用戶界面（ GUI）環境中執行任務。但是目前針對這種智能體性能評估的基準（benchmarks）仍然存在很多局限性，例如構建任務和測試環境的復雜性，評價指標的單一性等。

針對這些問題，本文提出了一個全新的跨環境智能體基準測試框架 CRAB。CRAB 采用了一種基于圖的細粒度評估方法，并提供了高效的任務和評估器構建工具。本文的研究團隊還基于 CRAB 框架開發了一個跨平臺的測試數據集 CRAB Benchmark-v0，其中涵蓋了可以在 PC 和智能手機環境中執行的 100 個任務，其中既包含傳統的單平臺任務，還包含了必須同時操作多個設備才能完成的復雜跨平臺任務。

論文題目：CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
論文地址：https://arxiv.org/abs/2407.01511
代碼倉庫：https://github.com/camel-ai/crab

作者選取了當前較為流行的四個多模態模型進行了初步實驗，實驗結果表明，使用 GPT-4o 作為推理引擎的單智能體結構擁有最高的測試點完成率 35.26%。

引言

作為全新的智能體評估基準框架，CRAB（Cross-environment Agent Benchmark）主要用于評估基于多模態語言模型（MLMs）的智能體在跨環境任務中的表現。CRAB 可以模擬真實世界中人類用戶同時使用多個設備完成復雜任務的場景，如 Demo 所示，CRAB 可以用來評估智能體同時操縱一個 Ubuntu 桌面系統和一個 Android 手機系統完成發送信息的過程。

想象一下，如果智能體具備根據人類指令同時精確操作電腦和手機的能力，很多繁雜的軟件操作就可以由智能體來完成，從而提高整體的工作效率。為了達成這個目標，我們需要為智能體構建更加全面和真實的跨平臺測試環境，特別是需要支持同時操作多個設備并且能提供足夠的評估反饋機制。本文的 CRAB 框架嘗試解決以下幾個實際問題：

跨環境任務評估：現有的基準測試通常只關注單一環境（如網頁、Android 或桌面操作系統）[1][2][3][4]，而忽視了真實世界中跨設備協作場景的復雜性。CRAB 框架支持將一個設備或應用的交互封裝為一個環境，通過對多環境任務的支持，提供給智能體更豐富的操作空間，也更貼近實際應用場景。
細粒度評估方法：傳統的評估方法要么只關注最終目標的完成情況（目標導向），要么嚴格比對操作軌跡（軌跡導向）[1][2][3]。這兩種方法都存在局限性，無法全面反映智能體的表現。CRAB 提出了基于圖的評估方法，既能提供細粒度的評估指標，又能適應多種有效的任務完成路徑。
任務構建復雜性：隨著任務復雜度的增加，手動構建任務和評估器變得越來越困難。CRAB 提出了一種基于子任務組合的方法，簡化了跨環境任務的構建過程。
智能體系統結構評估：本文還探討了不同智能體系統結構（單智能體、基于功能分工的多智能體、基于環境分工的多智能體）對任務完成效果的影響，為設計更高效的智能體系統提供了實證依據。

上表展示了本文提出的 CRAB 框架與現有其他智能體基準框架的對比，相比其他基準，CRAB 可以同時支持電腦和手機等跨平臺的操作環境，可以模擬更加真實的使用場景。

對于 CRAB，一眾網友給出了很高的評價。

有人表示，AGI 已經達成，因為有大語言模型（指 CRAB）已經學會了如何退出 Vim。

"Can you exit Vim?" 這個問題常常是一個編程或技術社區的玩笑，因為 Vim 對新手來說可能很難退出，尤其是當他們不熟悉 Vim 的操作模式時。（在此貢獻一張表情包）

有人說很難相信一個智能體可以完成 “查看日歷，打開 Vim，進入插入模式，輸入事件列表，退出插入模式，并使用 :wq 保存” 這一系列任務。

也有網友總結說下個下一代機器人流程自動化（RPA）將更像是 “請幫我完成下列任務”，而不需要記錄每一個步驟，然后在幾天內運行時崩潰。

也有人提到了 CRAB 中的圖評估器（Graph Evaluator）用于處理智能體在環境中的狀態是一種非常智能的方式。

甚至有人夸贊道 CRAB 是 AI PC 的未來，認為這是 LLM 與 PC 和移動設備的完美結合，“它是一種類似 RabbitOS 的 AI，使現有的 PC 和移動設備具備 AI 功能。CRAB 的基準測試允許在現實世界中測試多模態語言模型代理的有效性和實用性。”

GDT 中的每個節點可以代表一個子任務 (m,i,r)，其中 m 為子任務執行的環境，i 為自然語言指令，r 是獎勵函數，用于評估環境 m 的狀態并輸出布爾值，判斷子任務是否完成。GDT 中的邊表示子任務之間的順序關系。

CRAB 框架

跨環境智能體交互

CRAB 首次引入了跨環境任務的概念，將多個環境（如智能手機和桌面電腦）組合成一個環境集合，使智能體能夠在多個設備之間協調操作完成復雜任務。

在 CRAB 框架中使用基于環境分工的多智能體系統的運行流程如上圖所示。工作流程通過一個循環進行，首先通過主智能體觀察環境，并對子智能體指定計劃，然后所有的子智能體在各自的環境中執行操作。隨后由一個圖評估器（Graph Evaluator）來監視環境中各個子任務的狀態，并在整個工作流程中不斷更新任務的完成情況。這種評估方式可以貼近真實場景，以考驗智能體的推理能力，這要求智能體能夠處理復雜的消息傳遞，并且需要深入理解現實世界的情況。

圖評估器（Graph Evaluator）

CRAB 內置的圖評估器同時兼顧了目標導向和軌跡導向評估的優點，其首先將復雜任務分解為多個子任務，形成一個有向無環圖結構。隨后定義了一種節點激活機制，即圖中的節點（子任務）需要根據前置任務的完成情況逐步激活，確保任務的順序執行。其中每個節點都關聯了一個驗證函數，用來檢查環境中的關鍵中間狀態。相比之前的評估基準，CRAB 圖評估器創新性地引入了一系列新的評價指標：

完成率（Completion Ratio, CR）：完成的子任務節點數量與總節點數量的比率，CR=C / N。
執行效率（Execution Efficiency, EE）：完成率與執行的動作數量的比值，EE=CR / A，A 為指定的動作數。
成本效率（Cost Efficiency, CE）：完成率與使用的模型 token 數量的比值，CE=CR / T，T 為使用的模型 token 數量。

這些指標為智能體基準提供了更細粒度和更多維度的評估側重點。

CRAB Benchmark-v0

基準構建細節

基于提出的 CRAB 框架，本文構建了一個具體的基準測試集 CRAB Benchmark-v0 用于社區進一步開展研究。CRAB Benchmark-v0 同時支持 Android 手機和 Ubuntu Linux 桌面電腦兩個環境。并且為 Ubuntu 和 Android 定義了不同的動作集，用來模擬真實生活中的常見交互。其觀察空間由兩種環境的系統界面構成，并且使用屏幕截圖形式獲取環境狀態。為了方便智能體在 GUI 中操作，作者使用 GroundingDINO [7] 來定位可交互圖標，使用 EasyOCR 檢測和標注可交互文本，為每個檢測項分配一個 ID，方便后續在操作空間內引用。

我們以一個具體任務舉例，例如在 Ubuntu 系統上完成如下任務：創建一個新目錄 “/home/crab/assets_copy”，并將所有具有指定 “txt” 擴展名的文件從 “/home/crab/assets” 復制到目錄 “/home/crab/assets_copy”。

該任務需要執行多步操作才能完成，下圖展示了當使用 GPT-4 Turbo 作為推理模型并采用單智能體結構時的實驗細節。智能體首先使用 search_application 命令查找終端并打開。

然后使用 Linux 命令 “mkdir -p /home/crab/assets_copy” 創建新的目標目錄。

在創建好目標目錄后，智能體直接在終端中執行了拷貝命令：

“cp /home/crab/assets/*.txt/home/crab/assets_copy” 來完成任務，整個流程行云流水，沒有任何失誤。

實驗效果

作者隨后在 CRAB Benchmark-v0 進行了 baseline 實驗，智能體的核心是后端的多模態語言模型，其用來提供自然語言和圖像理解、基本設備知識、任務規劃和邏輯推理能力，需要支持多模態混合輸入，可以同時處理多輪對話，因而作者選取了 GPT-4o (gpt-4o-2024-05-13)、GPT-4 Turbo (gpt-4-turbo-2024-04-09)、Gemini 1.5 Pro (2024 年 5 月版本) 和 Claude 3 Opus (claude-3-opus-20240229) 作為 baseline 模型。

實驗結果如上表所示，其中 GPT-4o 和 GPT-4 Turbo 模型在測試模型中實現了最高的平均測試點完成率（CR）。在執行效率（EE）和成本效率（CE）方面， GPT-4 系列也相比 Gemini 和 Claude 系列模型更加優秀。

，時長02:37

總結

本文介紹了一種全新的跨環境多智能體評估基準 CRAB，CRAB 框架通過引入跨環境任務、圖評估器和基于子任務組合的任務構建方法，為自主智能體的評估提供了一個更加全面、靈活和貼近實際的基準測試平臺。相比先前的智能體基準，CRAB 減少了任務步驟中的手動工作量，大大提高了基準構建效率。基于 CRAB，本文提出了 Crab Benchmark-v0，同時支持智能體在 Ubuntu 和 Android 系統上執行多種復雜的跨環境任務，這一基準的提出，不僅可以推動自主智能體評價體系的發展，也為未來設計更加高效的智能體系統提供全新靈感。

參考：

[1] Shuyan Zhou et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. Oct.24, 2023. URL: http://arxiv.org/abs/2307.13854. preprint.

[2] Chi Zhang et al. AppAgent: Multimodal Agents as SmartphoneUsers. Dec. 21, 2023. URL: http://arxiv.org/abs/2312.13771. preprint.

[3] Shunyu Yao et al. “Webshop: Towards scalable real-world web interaction with grounded language agents”. In: Advances in Neural Information Processing Systems 35 (2022), pp. 20744–20757.

[4] Tianbao Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Apr. 11, 2024. URL: http://arxiv.org/abs/2404.07972. preprint.

[5] Lin, Fangru, et al. "Graph-enhanced Large Language Modelsin Asynchronous Plan Reasoning." arXiv preprint arXiv:2402.02805 (2024).

[6] Tushar Khot et al. “Decomposed Prompting: A Modular Approach for Solving Complex Tasks”. In: The Eleventh International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[7] Shilong Liu et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv.org. Mar. 9, 2023.

幾年，遠程工作已經成為了各個公司的剛需！遠程控制工具可以幫助我們完成辦公、開發、測試、游戲等工作。

很多辦公小伙伴都在向往自由職業；也有一些不想要到辦公室坐班的小伙伴；希望享受遠程工作的待遇；當然也有一些則是工作太多需要回家處理，因此用上了遠程辦公的方式。本篇給大家分享幾款遠程辦公軟件，幫助你更輕松地完成遠程工作！

01、RayLink

RayLink是一款「流暢高清」、「高性能低延遲」的免費跨平臺遠程控制軟件，支持 Windows、Mac、Linux 桌面平臺，以及 iOS、Android 安卓手機平臺，同時還提供免安裝的 Web 網頁版端可以使用。

它還支持手機電腦、全平臺、高畫質、低延遲等！服務器擁有不錯的線路，還部署有國內外節點，畫面清晰流暢，客戶端齊全，局域網內還能實現直連，算是一款挺能打的全能遠控工具……

你可以通過它使用手機或是電腦，出門在外隨時隨地遠程訪問到公司或家里的電腦和文檔。

02、PinStack

一款輕量好用的Windows剪貼板歷史記錄增強管理工具。你可以按快捷鍵Win+V，調出Windows自帶的剪貼板工具，實現多次復制、一次粘貼的功能。

PinStack是專為Windows設計的輕量級剪貼板歷史記錄管理增強軟件工具。

它可以幫助我們記錄下所有復制過的內容，還提供了強大的搜索和查找功能，方便你快速定位需要的剪貼內容，高效粘貼。相比Ditto等工具，它更加的現代化，功能更豐富界面也更精美一些。

它還支持預覽功能，讓你在選擇時更加直觀。支持將常用的剪貼內容Pin收藏，方便隨時調用。支持通過快捷鍵隨時調出剪貼板歷史記錄，即使電腦重啟也不會清空這些記錄！

它的界面簡潔干凈，使用靈活，你可以隨時呼出，在已經記錄過的內容中，選擇任意片段進行二次復制和粘貼。更便于辦公、寫作，以及經常需要多次拷貝文本的工作。

注：你可以在Microsoft Store中找到并下載它。PinStack是一款買斷制軟件，一次付費可以終身使用，支持多達十臺設備，而且價格定價非常便宜，可以說是非常實惠好用了！

03、Bluetooth Keyboard & Mouse藍牙鍵盤和鼠標解鎖高級版+漢化版

Bluetooth Keyboard & Mouse「藍牙鍵盤和鼠標」，可以將你的Android設備用作智能手機、平板電腦、計算機或AndroidTV的遠程鍵盤和鼠標。

使用該應用無需其他軟件，只需一臺支持藍牙的設備即可！

它支持低延遲藍牙連接，無需額外軟件；可以將你的智能手機變成支持滾動的觸控板；支持使用任何鍵盤應用程序在遠程設備上鍵入文本，支持 33 種不同的鍵盤語言布局；

可用于控制媒體播放器的多媒體模式，可控制播放、音量和導航；支持數字鍵盤和演示者控制模式；可為應用程序或游戲的特定控件創建你自己的自定義布局；可將你的手機變成基于移動的 Air 鼠標；可使用語音輸入并將復制的文本發送到連接的設備等！

04、AnyDesk macOS+Win

AnyDesk是一款跨平臺速度快的免費遠程工具，支持遠程連接、遠程桌面控制、遠程發送、接受文件軟件等功能。

它擁有先進的視頻壓縮技術DeskRT，可以輕松穿透防火墻/路由器，在電信、移動的跨網寬帶環境下，速度確實要比TeamViewer和QQ流暢！

AnyDesk目前支持Windows系統（XP~Windows10）、macOS和Linux，移動端也支持iOS、Android等主流平臺。

05、Smart File Manager Premium直裝付費高級版

Smart File Manager Premium 智能文件管理器「文件資源管理器」是一款簡潔、強大、小巧完美的文件管理應用程序，可用于管理移動設備中的圖像、電影、文檔、音樂、應用程序等文件。

它支持文件管理器，可以輕松訪問和管理存儲，復制和粘貼文件，刪除文件，備份文件，傳輸文件，顯示隱藏文件，壓縮和解壓文件以及許多類似的操作。

支持備份，可卸載并為你的應用程序創建快捷方式。

可以為root用戶提供強大的root explorer工具，允許訪問整個文件系統和所有數據目錄。

它內置各種文件類型的查看器和播放器；可以創建備份；支持帶密碼的壓縮和解壓縮ZIP，RAR，JAR，TAR和APK文件（加密AES 256位）。

可以按類別查看媒體；支持30種語言；支持管理系統和用戶安裝的應用程序，備份應用程序到apk文件，卸載應用程序，共享應用程序……

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综