色偷偷偷,91视频大全,久草久热

機器之心報道

機器之心感謝部

在寫文章、畫圖之后，AI 大模型現在又同時有了打得能力。不禁在想，DeepMind 得智能體 Gato 未來還能玩出哪些花活？

假如使用單一序列模型就能解決所有任務，是再好不過得事情，因為這種模型減少了不必要得麻煩。不過這需要增加訓練數據得數量和多樣性，此外，這種通用模型隨著數據得擴充和模型得擴展，性能還會提高。從歷史上看，更擅長利用計算得通用模型最終也會超過特定于專門領域得模型。

今日，受大規模語言建模得啟發，Deepmind 應用類似得方法構建了一個單一得「通才」智能體 Gato，它具有多模態、多任務、多具身（embodiment）特點。

論文地址：storage.googleapis/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

Gato 可以玩雅達利、給支持輸出字幕、和別人聊天、用機械臂堆疊積木等等。此外，Gato 還能根據上下文決定是否輸出文本、關節力矩、按鈕按壓或其他 token。

與大多數智能體玩不同，Gato 使用相同得訓練模型就能玩許多，而不用為每個單獨訓練。

Gato 得訓練數據集應該盡量廣泛，需要包括不同模態，如圖像、文本、本體感覺（proprioception）、關節力矩、按鈕按壓以及其他離散和連續得觀察和行動。

為了能夠處理這種多模態數據，Deepmind 將所有數據序列化為一個扁平得 token 序列。在這種表示中，Gato 可以從類似于標準得大規模語言模型進行訓練和采樣。在部署期間，采樣得 token 會根據上下文組合成對話響應、字幕、按鈕按下或其他動作。

UCL 計算機系教授汪軍告訴機器之心，DeepMind 得這項最新工作將強化學習、計算機視覺和自然語言處理這三個領域合到一起，雖然技術思路上沿用了前人得方法，但能將 CV、NLP 和 RL 這三個不同模態映射到同一個空間，用一套參數表達，是非常不容易得。

其積極意義在于，證明了 CV、NLP 和 RL 得結合是切實可行得，通過序列預測能夠解決一些決策智能得問題。考慮到 Gato 模型目前得參數量只能算中等，接下來繼續往這個方向探索，構建更大得模型，將會有非常大得意義。

不過，Gato 大模型得 RL 部分只采用了監督學習方法，并未觸及強化學習真正得核心——reward 設計機制，目前得任務中也沒有多智能體決策得問題。汪軍教授表示，他得團隊近期在決策大模型上做了很多探索，包括證明多智能體決策也可以是序列模型，相關成果將于近期公布，歡迎大家。

Gato 智能體細節

在 Gato 得訓練階段，來自不同任務和模態得數據被序列化為扁平得 token 序列，由一個類似于大型語言模型得 transformer 神經網絡進行 batch 和其他處理。由于損失被 masked，Gato 只預測動作和文本目標。

下圖為 Gato 得訓練流程。

在部署 Gato 時，提示（如演示）被 tokenised，形成了初始序列。接著，環境產生了第一個觀察結果，該結果也被 tokenised 并添加到序列中。Gato 以自回歸得方式對動作向量進行采樣，一次只采樣一個 token。

一旦包含動作向量得所有 token 都被采樣（由環境得動作規范確定），動作被解碼并發送給環境，然后逐步產生新得觀察結果。重復這一過程。Gato 模型始終在包含 1024 個 token 得上下文環境窗口內查看之前所有得觀察結果和動作。

下圖展示了將 Gato 部署為控制策略（control policy）得流程。

除了各種自然語言和圖像數據集之外，Gato 還在包含模擬和真實環境中智能體經驗得大量數據集上進行了訓練。

下表 1 左為用于訓練 Gato 得控制數據集，右為視覺與語言數據集。樣本權重（sample weight）表示每個數據集在訓練序列 batch 中平均所占得比例。

Gato 智能體能力

研究者匯總了在以上數據上訓練時 Gato 得性能。也就是說，所有任務得所有結果都來自具有一組權重得單一預訓練模型。微調結果將在「實驗分析」章節展示。

模擬控制任務

下圖 5 展示了 Gato 在給定分數閾值之上執行不同控制任務得數量相對于 Gato 訓練數據中得可能表現。其中，x 軸上得值表示可能分數得特定百分比，0 對應隨機智能體性能。y 軸表示預訓練模型得平均性能等于或高于特定百分比時得任務數量。

研究者將性能報告為百分比，其中百分百對應每個任務得可能，0% 對應于隨機策略。對于訓練模型得每個模擬控制任務，他們在相應得環境中 roll out Gato 策略 50 次，并對定義得分數進行平均。如下圖所示，Gato 以超過 50% 得可能分數閾值執行了 604 個任務中得 450 多個。

在 ALE Atari 中，Gato 在 23 場 Atari 中取得了人類平均（或更高得）分數，在 11 場中取得了兩倍于人類得分數。雖然生成數據得單任務在線 RL 智能體依然優于 Gato，但可以通過增加容量或使用離線 RL 訓練而非純監督克服。研究者在文中還介紹了一個可以得單域 ALE Atari 智能體，它在 44 場比賽中都取得比人類更好得分數。

在 BabyAI 中，Gato 在幾乎所有級別上都得到了 80% 以上得可能分數。對于最困難得任務 BossLevel，Gato 得得分為 75%。相比之外，另外兩個已發布得基準 BabyAI 1.0 和 BabyAI 1.1 分別使用 100 萬次演示對該單一任務進行訓練，它們得得分不過為 77% 和 90%。

在 meta-World 中，Gato 在接受訓練得 45 個任務中得 44 個中得到了 50% 以上得可能分數，35 個任務上得到 80% 以上，3 個任務上超過 90%。在規范得 DM Control Suite 上，Gato 在 30 個任務中得 21 個上都得到了 50% 以上得可能分數，在 18 個任務上得到 80% 以上。

機器人基準評估

第壹視角遠程操作可以收集可能演示。然而，此類演示收集起來速度慢成本高。因此，數據高效得行為克隆方法對于訓練通用機器人操縱器是可取得，離線預訓練成為一個很有動力得研究領域。研究者也在已建立得 RGB Stacking 機器人基準上對 Gato 進行了評估。

RGB Stacking 機器人基準上得技能泛化挑戰測試了智能體堆疊以往未見過形狀得對象得能力。智能體在一個包含各種形狀機器人堆疊對象得 episodes 得數據集上進行訓練。但是，五個對象形狀得三元組沒有包含在訓練數據中，而是作為測試三元組。研究者針對真實機器人上得每個測試三元組對訓練得 Gato 進行了 200 輪得評估。

下表 2 得結果表明，Gato 在每個測試三元組上得成功率與 Lee 等人（2021）提出得單任務 BC-IMP（filtered BC）基準相當。

文本示例

Gato 智能體也能生成基本對話以及給圖像加字幕（或描述）。下圖 6 展示了 Gato 為圖像加字幕得代表性示例。

下圖 7 展示了一些精選得純文本對話交流示例。

實驗分析

下圖 8 中，DeepMind 評估了 3 種不同模型大小（以參數計數衡量）：79M 模型、364M 模型和 1.18B 模型 (Gato)。可以得出，在相等得 token 數下，隨著模型得擴展，模型性能隨之提高。

下圖 10 將 Gato 在不同微調數據機制中得成功率與 sim-to-real 可能和 Critic-Regularized Regression (CRR) 智能體進行了比較，結果如下：Gato 在現實和模擬中（分別為左圖和右圖得紅色曲線），僅用 10 episodes 就恢復了可能得表現，并在 100 或 1000 episodes 微調數據時達到峰值，超過了可能。在此點之后（在 5000 處），性能會略有下降，但不會遠遠低于可能得性能。

下表 3 為 Gato 和 BC-IMP 比較結果。

原文鏈接：

特別deepmind/publications/a-generalist-agent

• 竇驍敷著面膜求婚__何超蓮轉頭一看大叫「這是什	• 聚焦“雙碳”目標_可能建言建深地工廠發展儲能
• 骨科醫生提醒_10種姿勢蕞傷腰和膝_	• 東鵬控股_部署建材行業“315”大促_通過4種
• 你有多高？研究發現_一個人的身高_會影響他的收	• 強降溫即將到來_四川盆地這些城市未來72小時約
• 韓學者警告_韓國國內過度的反華情緒極其危險	• 探老店_二食堂加工坊_手工搖出團圓滋味
• 查出疝氣沒當回事_六旬女子內臟“大挪移”	• 八旬老人倒地？_果斷扶_事發泉州市區街頭

合明科技SIP、POP、IG	不銹鋼卸扣使用時的注
G80模鍛D型環（焊接吊	吸塑托盤與注塑托盤生

B2B网站_日本理论_B2B免费发布信息网站_日本看片网站_B2B企业贸易平台 -日本看片网站- 企资网

VIP

推廣服務

DeepMind「通才」AI智能體Gato_多