操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综

新聞資訊

    來的電腦是個什么樣子?

    我們今天就能預見未來的奇跡般商品嗎?


    答案,是的,這是可能的。事實上,甚至早在6、7年前就已經有這樣的模型得到呈現了。

    信息分析經常會使用一種窗口觀察方法,通過一個窗口去觀察未來的趨勢。今年這樣的“窗口”是來自三星電子。2024年1月17日,韓國科技巨頭三星電子在美國加州圣荷西市正式召開年度旗艦新品發布會,三星電子在這個會上推出了全球首款人工智能(AI)智能手機Galaxy S24系列。該產品系列具有多個AI功能,例如,AI即時同傳翻譯、AI整理筆記及“畫圈搜索”等。


    作為一部智能手機,最重要的功能當然是通話。在發布會上,三星電子介紹了“Galaxy AI”的一項令人驚艷的功能,幾乎可以讓世界上所有同聲翻譯們失業,這就是人工智能三星手機的語音即時傳譯+文字翻譯功能。根據三星電子的表態,這個功能現在支持13種語言,包括漢語、韓語、英語、法語、德語、印地語、意大利語、日語、波蘭語、葡萄牙語、西班牙語、泰語和越南語。由于人工智能技術的使用,三星電子的這個手機通過提供同步翻譯功能,在一定范圍內突破了人類的語言障礙。這也就是說,一個中國人使用這部三星手機,就可以用中文跟世界上很多講不同的語言的人通話,不會發生聽不懂的問題。


    有宗教故事說,上帝當年創造人類的時候,為了懲罰人類而讓他們說不同的語言,這就是巴比倫塔的故事。現在的人工智能,終于戰勝了上帝,讓人類重歸虛擬化的同一種語言。很顯然,三星推出的這一款AI手機,無疑等同于向競爭對手們下了挑戰書,大大提高了下一代智能手機的基準線。那些沒有真實AI技術,只是依靠忽悠品牌的手機制造商,預料將會輸的很慘。根據數據提供商Canalys的預測,2024年雖然只有5%的智能手機在某種程度上支持人工智能,但到了2027年,這一比例將會提高至45%。


    從三星電子的AI智能手機出發來看未來的電腦,我在這里介紹一個未來的人工智能條件下的電腦筆記本模型。這款未來型的筆記本(LAPTOP)將會具有如下性能設計特點:


    1.

    使用自然語言代替鍵盤,因而取消了電腦模型的鍵盤,人與電腦之間,完全使用自然語言溝通和運作,人類完全依靠自然語言駕馭和驅動電腦。

    2.

    兩大操作系統出現了新的激烈競爭,即便是具有全面統治力的微軟的WINDOWS和蘋果電腦的OS系統也將面臨重大挑戰,包含有足夠AI功能的新型自然語言操作系統,將會成為未來型筆記本電腦的核心。

    3.

    硬件設計的模版更趨向今天的IPAD,而不是具有鍵盤的折疊筆記本電腦機型。

    4.

    這種電腦是世界上第一款真正的無語言障礙電腦,它將會猶如一個機器人一樣,無縫陪伴使用者,時刻協同工作,甚至是與世界各地講不同語言的人一起工作。

    5.

    根據這樣的電腦模型,已經將現在的筆記本電腦轉型成為一種未來的人工智能終端設備。它的主要配套設備,將會是耳機以及各種無線寬帶的接口。

    6.

    AI導致現有的各種在電腦上的應用軟件,均需要全部進行再智能化,必須引入自然語言功能才有未來市場。

    7.

    外部設備等硬件要適應人工智能的時代,也必須建立有自然語言的接口,實現AI化,才能跟上潮流。

    8.

    這個電腦模型,由于AI技術的存在,因而具有驚人的自我學習能力,它能為人類提供更好的工作能力。

    所以很顯然,這種AI電腦終端模型,實際創立了一種新的AI硬件平臺,不僅僅代替了今天我們正在使用的筆記本電腦,它還會創建一系列的AI標準和接口,以此整合AI技術在各方面的應用和發展。因此,今天描繪的這個AI條件下的電腦模型,不僅僅是向聯想那樣的電腦生產廠家提供了未來發展方向的可能性,而且也為將來電子產品的AI化以及競爭,指明了方向。

    想一想未來的世界,人們使用的電腦將會是一件多么令人激動的事情。“擬人化”的設備,在上世紀的技術舞臺上,通常僅僅是那些具有前瞻技術能力的少數大師們討論的話題。時間到了今天,由于AI技術的驚人發展,“擬人化”的電子設備,將會很快成為最基本的電子設備特點。

    那么這樣的電腦模型,究竟還要多久可以成為現實?

    從人工智能手機的發展模版來分析,發展速度應該是類似的,我的估計是在2027年就會有很多相對成熟的產品可以投入商品化應用。大規模的浪潮式應用,我估計是在2030年。或許在那個時候,我們甚至可以看到有代替微軟或者蘋果電腦的新公司出現并統領世界電子設備市場。

    AI的發展將在智能終端設備領域帶來革命性的變化,在不遠的將來,將會有AI背景下的新型筆記本電腦出現,這些帶有多種AI功能的“擬人化”電子設備,將很快成為電子設備最基本的特點。

    科創板日報》5月21日訊當地時間周一,微軟公司在發布會上引入了“Copilot+PC”,象征著AI PC站上了一個全新的高度。

    據悉,相較于早先上市的一眾AI PC,此刻微軟將旗下AI助手Copilot全面引入了Windows系統,并且內置了OpenAI的GPT-4o模型,其硬件AI算力據稱可每秒執行40多萬億次操作。根據微軟官方測試,其發布的第一款Copilot+PC,即新款Surface Pro的多線程性能相比蘋果的MacBook Air高58%。

    受此消息影響,今日AIPC概念股強勢發力,截至發稿,英力股份漲停,思泉新材漲超12%,雷神科技漲超10%,智迪科技漲超7%,格林精密、華勤技術、隆揚電子等紛紛跟漲。

    值得注意的是,此次發布的Surface Pro的NPU(神經網絡處理器)算力來到了40 TOPs(每秒萬億次處理)。實際上,微軟早前便將40 TOPs視作AI PC的準入門檻,英特爾也在早先透露了本地運行微軟Copilot的前提條件為“需要至少40 TOPs算力的NPU”。

    每秒執行40多萬億次操作的NPU,相當于什么概念?前不久剛剛問世的iPad Pro,其內搭載的M4芯片的NPU計算能力為38 TOPs,英特爾目前的Meteor Lake芯片組合功率可達34 TOPs,而目前市面上絕大多數AI PC,其中最低NPU計算能力也僅為10 TOPS,沒有絲毫在本地運行微軟Copilot的可能。從這個意義上來看,微軟引入Copilot+PC的舉措,相當于對AI PC的認知重新下達了定義。

    那么,Copilot+PC能夠做到什么?

    首先是新功能Recall,在GPT-4o的加持下,Copilot+PC能夠回憶并抓取一切曾在顯示屏上出現過的內容。

    其次,在強大算力和語言模型的幫助下,Copilot+PC能夠實時翻譯約40種語言,實時生成或優化AI圖像。

    并且,Copilot+PC具備充分的實時交互能力,微軟發布會演示了游戲《我的世界》,結果顯示,AI為玩家提供了相當于游戲攻略的基本信息,包括如何建造物品、躲避僵尸等。

    無論如何,Copilot+PC的出現象征著AI PC的一次進步。2024年被譽為AI PC元年,AI的發展推動AI PC、AI服務器與AI手機等產品在市場上蓬勃崛起。據悉,未來包括聯想、戴爾、惠普、三星等在內的電腦制造商也將推出可運行微軟Copilot的AI PC。據Canalys預測,2024年AI PC的市場份額將達到19%。

    回歸國內視角,東海證券研報指出,目前,各消費電子廠商相繼發布AI PC,AI大模型迭代迅速,未來AI在硬件方面的落地競爭趨于白熱化,建議關注AI芯片相關產業鏈。頭豹研究院指出,AI PC的發展拉動PC從軟硬件進行全面的升級和迭代,呈現出先硬件后軟件的變革態勢。當前AI PC進入以硬件端變革為主的第一階段,預計2024年中后期將進入以個人大模型、個人Agent等軟件端變革。

    從投資角度來看,德邦證券建議AI PC疊加換機需求有望拉動上游產業鏈量價齊升,建議關注PC上游產業相關標的:1)整機及ODM:聯想集團、聞泰科技、華勤技術、億道信息;2)零部件:光大同創、春秋電子、翰博高新、萊寶高科、匯創達;3)散熱:思泉新材、飛榮達、中石科技;4)IC設計:芯海科技、龍芯中科。

    器之心報道

    機器之心編輯部

    當我們談到 AI 助手的未來,很難不想起《鋼鐵俠》系列中那個令人炫目的 AI 助手賈維斯。賈維斯不僅是托尼?斯塔克的得力助手,更是他與先進科技的溝通者。如今,大模型的出現顛覆了人類使用工具的方式,我們或許離這樣的科幻場景又近了一步。想象一下,如果一個多模態 Agent,能夠直接像人類一樣通過鍵盤和鼠標直接操控我們身邊的電腦,這將是多么令人振奮的突破。

    AI助手賈維斯

    近期,吉林大學人工智能學院發布了一項利用視覺大語言模型直接控制電腦 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它將這一想象映射進了現實。該工作提出了 ScreenAgent 模型,首次探索在無需輔助定位標簽的情況下,利用 VLM Agent 直接控制電腦鼠標和鍵盤,實現大模型直接操作電腦的目標。此外,ScreenAgent 通過「計劃-執行-反思」的自動化流程首次實現對 GUI 界面的連續控制。該工作是對人機交互方式的一次探索和革新,同時開源了具備精準定位信息的數據集、控制器、訓練代碼等。

    • 論文地址:https://arxiv.org/abs/2402.07945
    • 項目地址:https://github.com/niuzaisheng/ScreenAgent

    ScreenAgent 可以幫助用戶輕松實現在線娛樂活動,購物,旅行,閱讀等也不在話下。它還可以是最了解你的貼心管家,幫助用戶管理個人電腦。甚至無需動手,就幫助用戶實現快速辦公,成為你最得力的辦公助手!話不多說,直接看效果。

    帶你網上沖浪,實現娛樂自由

    ScreenAgent 根據用戶文本描述上網查找并播放指定的視頻:

    系統操作管家,賦予用戶高階技能

    讓 ScreenAgent 打開 Windows 的事件查看器:

    掌握辦公技能,輕松玩轉 office

    此外,ScreenAgent 可以使用 office 辦公軟件。例如根據用戶文本描述,刪除所打開的第二頁 PPT:

    謀定而后動,知止而有得

    對于要完成某一任務,在任務執行前必須要做好規劃活動。ScreenAgent 可以在任務開始前,根據觀測到的圖像和用戶需求,進行規劃,例如:

    將視頻播放速度調至 1.5 倍速:

    在 58 同城網站上搜索二手邁騰車的價格:

    在命令行里安裝 xeyes:

    視覺定位能力遷移,鼠標選定無壓力

    ScreenAgent 還保留了對于自然事物的視覺定位能力,可以通過鼠標拖拽的方式繪制出物體的選框:

    方法

    事實上,要教會 Agent 與用戶圖形界面直接交互并不是一件簡單的事情,需要 Agent 同時具備任務規劃、圖像理解、視覺定位、工具使用等多種綜合能力。現有的模型或交互方案都存在一定妥協,例如 LLaVA-1.5 等模型缺乏在大尺寸圖像上的精確視覺定位能力;GPT-4V 有非常強的任務規劃、圖像理解和 OCR 的能力,但是拒絕給出精確的坐標。現有的方案需要在圖像上人工標注額外的數字標簽,并讓模型選擇需要點選的 UI 元素,例如 Mobile-Agent、UFO 等項目;此外,CogAgent、Fuyu-8B 等模型可以支持高分辨率圖像輸入并有精確視覺定位能力,但是 CogAgent 缺乏完整函數調用能力,Fuyu-8B 則語言能力欠缺。

    為了解決上述問題,文章提出為視覺語言模型智能體(VLM Agent)構建一個與真實計算機屏幕交互的全新環境。在這個環境中,智能體可以觀察屏幕截圖,并通過輸出鼠標和鍵盤操作來操縱圖形用戶界面。為了引導 VLM Agent 與計算機屏幕進行持續的交互,文章構建了一個包含「計劃-執行-反思」的運行流程。在計劃階段,Agent 被要求將用戶任務拆解為子任務。在執行階段,Agent 將觀察屏幕截圖,給出執行子任務的具體鼠標和鍵盤動作。控制器將執行這些動作,并將執行結果反饋給 Agent。在反思階段,Agent 觀察執行結果,并判定當前的狀態,選擇繼續執行、重試或調整計劃。這一流程持續進行,直到任務完成。值得一提的是,ScreenAgent 無需使用任何文字識別或圖標識別模塊,使用端到端的方式訓練模型所有的能力。

    ScreenAgent 環境參考了 VNC 遠程桌面連接協議來設計 Agent 的動作空間,包含最基礎的鼠標和鍵盤操作,鼠標的點擊操作都需要 Agent 給出精確的屏幕坐標位置。相比起調用特定的 API 來完成任務,這種方式更加通用,可以適用于各種 Windows、Linux Desktop 等桌面操作系統和應用程序。

    ScreenAgent 數據集

    為了訓練 ScreenAgent 模型,文章人工標注了具備精準視覺定位信息的 ScreenAgent 數據集。這一數據集涵蓋了豐富的日常計算機任務,包括了 Windows 和 Linux Desktop 環境下的文件操作、網頁瀏覽、游戲娛樂等場景。

    數據集中每一個樣本都是完成一個任務的完整流程,包含了動作描述、屏幕截圖和具體執行的動作。例如,在亞馬遜網站上「將最便宜的巧克力加入到購物車」的案例,需要先在搜索框中搜索關鍵詞,再使用過濾器對價格進行排序,最后將最便宜的商品加入購物車。整個數據集包含 273 條完整的任務記錄。

    實驗結果

    在實驗分析部分作者將 ScreenAgent 與多個現有的 VLM 模型從各個角度進行比較,主要包括兩個層面,指令跟隨能力和細粒度動作預測的正確率。指令跟隨能力主要考驗模型能否正確輸出 JSON 格式的動作序列和動作類型的正確率。而動作屬性預測的正確率則比較每一種動作的屬性值是否預測正確,例如鼠標點擊的位置、鍵盤按鍵等。

    指令跟隨

    在指令跟隨方面,Agent 的首要任務就是能夠根據提示詞輸出正確的工具函數調用,即輸出正確的 JSON 格式,在這方面 ScreenAgent 與 GPT-4V 都能夠很好的遵循指令,而原版的 CogAgent 由于在視覺微調訓練時缺乏 API 調用形式的數據的支撐,反而喪失了輸出 JSON 的能力。

    動作屬性預測的正確率

    從動作屬性的正確率來看,ScreenAgent 也達到了與 GPT-4V 相當的水平。值得注意的是,ScreenAgent 在鼠標點擊的精確度上遠遠超過了現有模型。這表明視覺微調有效增強了模型的精確定位能力。此外,我們還觀察到 ScreenAgent 在任務規劃方面與 GPT-4V 相比存在明顯差距,這凸顯了 GPT-4V 的常識知識和任務規劃能力。

    結論

    吉林大學人工智能學院團隊提出的 ScreenAgent 能夠采用與人類一樣的控制方式控制電腦,不依賴于其他的 API 或 OCR 模型,可以廣泛應用于各種軟件和操作系統。ScreenAgent 在「計劃-執行-反思」的流程控制下,可以自主地完成用戶給定的任務。采用這樣的方式,用戶可以看到任務完成的每一步,更好地理解 Agent 的行為想法。

    文章開源了控制軟件、模型訓練代碼、以及數據集。在此基礎上可以探索更多邁向通用人工智能的前沿工作,例如在環境反饋下的強化學習、Agent 對開放世界的主動探索、構建世界模型、Agent 技能庫等等。

    此外,AI Agent 驅動的個人助理具有巨大的社會價值,例如幫助肢體受限的人群使用電腦,減少人類重復的數字勞動以及普及電腦教育等。在未來,或許不是每個人都能成為像鋼鐵俠那樣的超級英雄,但我們都可能擁有一位專屬的賈維斯,一位可以陪伴、輔助和指導我們的智能伙伴,為我們的生活和工作帶來更多便利與可能。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有