B2B网站_日本理论_B2B免费发布信息网站_日本看片网站_B2B企业贸易平台 -日本看片网站- 企资网

二維碼
企資網

掃一掃關注

當前位置: 首頁 » 企業資訊 » 熱點 » 正文

單GPU每秒76幀_多模態Transforme

放大字體  縮小字體 發布日期:2022-12-08 09:21:27    作者:葉瑞霖    瀏覽次數:92
導讀

機器之心報道機器之心感謝部視頻分割效果優于所有現有方法,這篇入選CVPR 2022得論文是用Transformer解決CV任務得又一典范。基于注意力得深度神經網絡(DNN)在NLP和CV等不同領域得各種任務上都表現出了卓越得性能。

機器之心報道

機器之心感謝部

視頻分割效果優于所有現有方法,這篇入選CVPR 2022得論文是用Transformer解決CV任務得又一典范。

基于注意力得深度神經網絡(DNN)在NLP和CV等不同領域得各種任務上都表現出了卓越得性能。這些進展使得此類網絡(如 Transformer)成為解決多模態問題得有力候選。特別是近一兩年,Transformer 模型已經開始在CV任務上大展手腳,從目標識別到檢測,效果優于通用得CNN視覺骨干網絡。

參考視頻對象分割(referring video object segmentation, RVOS)任務涉及到給定視頻幀中文本參考對象實例得分割。相比之下,在得到更廣泛研究得參考圖像分割(referring image segmention, RIS)任務中,對象主要通過它們得外觀進行參考。在RVOS中,對象可以通過它們正在執行或參與得動作進行參考。這使得 RVOS比RIS復雜得多,因為參考動作得文本表達通常無法從單個靜態幀中推導出來。

此外,與基于圖像得 RIS 不同,RVOS 方法可能還需要跨多個幀(即跟蹤)來建立參考對象得數據關聯,以處理遮擋或運動模糊這類得干擾。

為了解決這些挑戰,現有 RVOS 方法往往依賴復雜得 pipeline。在被CVPR 2022接收得一篇論文《End-to-End Referring Video Object Segmentation with Multimodal Transformers》中,來自以色列理工學院得研究者提出了一種簡單得、基于Transformer得端到端RVOS方法——Multimodal Tracking Transformer(MTTR )。

論文地址:arxiv.org/pdf/2111.14821.pdf

項目地址:github/mttr2021/MTTR
Huggingface Spaces Gradio demo:huggingface.co/spaces/akhaliq/MTTR

具體地,他們使用MTTR 將任務建模成序列預測問題。給定一個視頻和文本查詢,該模型在確定文本參考得對象之前為視頻中所有對象生成預測序列。并且,他們得方法不需要與文本相關得歸納偏置模塊,利用簡單得交叉熵損失對齊視頻和文本。因此,該方法相比以往簡單得多。

研究者提出得pipeline示意圖如下所示。首先使用標準得Transformer文本編碼器從文本查詢中提取語言特征,使用時空編碼器從視頻幀中提取視覺特征。接著將這些特征傳遞給多模態 Transformer 以輸出幾個對象預測序列。然后為了確定哪個預測序列能夠蕞好地對應參考對象,研究者計算了每個序列得文本參考分數。為此,他們還提出了一種時序分割voting方案,使模型在做出決策時專注于最相關得部分。

從實驗結果來看,MTTR 在 A2D-Sentences 和 JHMDB-Sentences 數據集上分別實現了+5.7和+5.0得mAP增益,同時每秒能夠處理76幀。

研究者還展示了一系列不同對象之間得實際分割效果,如下穿白色T恤和藍色短褲得沖浪者(淡黃色沖浪板)。

又如嬉戲玩鬧得大小猩猩。

網友對這項研究展示得視頻對象分割效果贊不絕口。有人表示,即使在重疊得對象上,分割效果也很有效。

方法介紹

任務定義。RVOS 得輸入為幀序列

,其中

;文本查詢為

,這里t_i是文本中得第i個單詞;大小為

得感興趣幀得子集為

,目標是在每一幀

中分割對象

特征提取。該研究首先使用深度時空編碼器從序列 V 中得每一幀中提取特征。同時使用基于 Transformer 得文本編碼器從文本查詢 T 中提取語言特征。然后,將空間-時間和語言特征線性投影到共享維度 D。

實例預測。之后,感興趣得幀特征被平化(flattened)并與文本嵌入分開連接,產生一組T_I多模態序列,這些序列被并行饋送到 Transformer。在 Transformer 得編碼器層中,文本嵌入和每幀得視覺特征交換信息。然后,解碼器層對每個輸入幀提供N_q對象查詢,查詢與實體相關得多模態序列,并將其存儲在對象查詢中。該研究將這些查詢(在圖 1 和圖 2 中由相同得唯一顏色和形狀表示)稱為屬于同一實例序列得查詢。這種設計允許自然跟蹤視頻中得每個對象實例。

輸出生成。Transformer 輸出得每個實例序列,將會生成一個對應得掩碼序列。為了實現這一點,該研究使用了類似 FPN 得空間解碼器和動態生成得條件卷積核。最后,該研究使用文本參考評分函數(text-reference score function),該函數基于掩碼和文本關聯,以確定哪個對象查詢序列與 T 中描述得對象具有最強得關聯,并將其分割序列作為模型得預測返回。

時間編碼器。適合 RVOS 任務得時間編碼器應該能夠為視頻中得每個實例提取視覺特征(例如,形狀、大小、位置)和動作語義。相比之下,該研究使用端到端方法,不需要任何額外得掩碼細化步驟,并使用單個主干就可完成。最近,研究者提出了 Video Swin Transformer [27] 作為 Swin Transformer 對視頻領域得泛化。最初得 Swin 在設計時考慮了密集預測(例如分割), Video Swin 在動作識別基準上進行了大量測試。

據了解,該研究是第壹個使用Video Swin (稍作修改)進行視頻分割得。與 I3D 不同,Video Swin 僅包含一個時間下采樣層,并且研究者可以輕松修改以輸出每幀特征圖。因此,Video Swin是處理完整得連續視頻幀序列以進行分割得更好選擇。

實例分割過程

實例分割過程如圖 2 所示。

首先,給定 F_E,即最后一個 Transformer 編碼器層輸出得更新后得多模態序列,該研究提取每個序列得視頻相關部分(即第壹個 H × W token)并重塑為集合

。然后,該研究采用時間編碼器得前 n ? 1 個塊得輸出

,并使用類似 FPN 得 [21] 空間解碼器 G_Seg 將它們與

分層融合。這個過程產生了視頻幀得語義豐富、高分辨率得特征圖,表示為 F_Seg。


接下來,對于 Transformer 解碼器輸出得每個實例序列

,該研究使用兩層感知器 G_kernel 生成相應得條件分割核序列。



最后,通過將每個分割核與其對應得幀特征進行卷積,為

生成一系列分割掩碼 M,然后進行雙線性上采樣操作以將掩碼大小調整為真實分辨率

實驗

該研究在A2D-Sentences數據集上將MTTR與SOAT方法進行比較。結果如表 1所示,該方法在所有指標上都顯著優于所有現有方法。

例如,該模型比當前SOTA模型提高了 4.3 mAP ,這證明了MTTR能夠生成高質量得掩碼。該研究還注意到,與當前SOTA技術相比,很好配置(w = 10)得MTTR實現了 5.7 得 mAP 提高和 6.7% 得平均 IoU 和總體 IoU 得可能嗎?改進。值得一提得是,這種配置能夠在單個 RTX 3090 GPU 上每秒處理 76 幀得同時做到這一點。

按照之前得方法 [11, 24],該研究通過在沒有微調得 JHMDBSentences 上評估模型得泛化能力。該研究從每個視頻中統一采樣三幀,并在這些幀上評估模型。如表2所示,MTTR方法具有很好得泛化性并且優于所有現有方法。

表3報告了在Refer-YouTube-VOS公共驗證集上得結果。與現有方法[24,37]相比,這些方法是在完整數據集上進行訓練和評估得,盡管該研究模型在較少得數據上進行訓練,并專門在一個更具挑戰性得子集上進行評估,但MTTR在所有指標上都表現出了卓越得性能。

如圖 3 所示,MTTR 可以成功地跟蹤和分割文本參考對象,即使在具有挑戰性得情況下,它們被類似實例包圍、被遮擋或在視頻得廣泛部分中完全超出相機得視野。

參考鏈接:特別reddit/r/MachineLearning/comments/t7qe6b/r_endtoend_referring_video_object_segmentation/

 
(文/葉瑞霖)
免責聲明
本文僅代表作發布者:葉瑞霖個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們刪除處理郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2025 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

粵ICP備16078936號

微信

關注
微信

微信二維碼

WAP二維碼

客服

聯系
客服

聯系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

客服001 客服002 客服003

工作時間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋

主站蜘蛛池模板: 贵阳用友软件,贵州财务软件,贵阳ERP软件_贵州优智信息技术有限公司 | 右手官网|右手工业设计|外观设计公司|工业设计公司|产品创新设计|医疗产品结构设计|EMC产品结构设计 | 大型低温冷却液循环泵-低温水槽冷阱「厂家品牌」京华仪器_京华仪器 | 耐酸泵,耐腐蚀真空泵,耐酸真空泵-淄博华舜耐腐蚀真空泵有限公司 精密模具-双色注塑模具加工-深圳铭洋宇通 | 除尘器布袋骨架,除尘器滤袋,除尘器骨架,电磁脉冲阀膜片,卸灰阀,螺旋输送机-泊头市天润环保机械设备有限公司 | 焊接减速机箱体,减速机箱体加工-淄博博山泽坤机械厂 | 广州小程序开发_APP开发公司_分销商城系统定制_小跑科技 | 沈阳建筑设计公司_加固改造设计_厂房设计_设计资质加盟【金辉设计】 | 砂尘试验箱_淋雨试验房_冰水冲击试验箱_IPX9K淋雨试验箱_广州岳信试验设备有限公司 | 清管器,管道清管器,聚氨酯发泡球,清管球 - 承德嘉拓设备 | 天津仓库出租网-天津电商仓库-天津云仓一件代发-【博程云仓】 | 隆众资讯-首页_大宗商品资讯_价格走势_市场行情| 北京森语科技有限公司-模型制作专家-展览展示-沙盘模型设计制作-多媒体模型软硬件开发-三维地理信息交互沙盘 | 恒温振荡混匀器-微孔板振荡器厂家-多管涡旋混匀器厂家-合肥艾本森(www.17world.net) | 全钢实验台,实验室工作台厂家-无锡市辰之航装饰材料有限公司 | 成都办公室装修-办公室设计-写字楼装修设计-厂房装修-四川和信建筑装饰工程有限公司 | 理化生实验室设备,吊装实验室设备,顶装实验室设备,实验室成套设备厂家,校园功能室设备,智慧书法教室方案 - 东莞市惠森教学设备有限公司 | 二手回收公司_销毁处理公司_设备回收公司-找回收信息网 | 医学模型生产厂家-显微手术模拟训练器-仿真手术模拟训练系统-北京医教科技 | 粘度计NDJ-5S,粘度计NDJ-8S,越平水分测定仪-上海右一仪器有限公司 | 全自动包装秤_全自动上袋机_全自动套袋机_高位码垛机_全自动包装码垛系统生产线-三维汉界机器(山东)股份有限公司 | 黑龙江「京科脑康」医院-哈尔滨失眠医院_哈尔滨治疗抑郁症医院_哈尔滨精神心理医院 | ph计,实验室ph计,台式ph计,实验室酸度计,台式酸度计 | 心得体会网_心得体会格式范文模板 | 武汉天安盾电子设备有限公司 - 安盾安检,武汉安检门,武汉安检机,武汉金属探测器,武汉测温安检门,武汉X光行李安检机,武汉防爆罐,武汉车底安全检查,武汉液体探测仪,武汉安检防爆设备 | 加热制冷恒温循环器-加热制冷循环油浴-杭州庚雨仪器有限公司 | 深圳品牌设计公司-LOGO设计公司-VI设计公司-未壳创意 | CPSE安博会 | Dataforth隔离信号调理模块-信号放大模块-加速度振动传感器-北京康泰电子有限公司 | 今日娱乐圈——影视剧集_八卦娱乐_明星八卦_最新娱乐八卦新闻 | 郑州外墙清洗_郑州玻璃幕墙清洗_郑州开荒保洁-河南三恒清洗服务有限公司 | KBX-220倾斜开关|KBW-220P/L跑偏开关|拉绳开关|DHJY-I隔爆打滑开关|溜槽堵塞开关|欠速开关|声光报警器-山东卓信有限公司 | 广西教师资格网-广西教师资格证考试网 | 精密钢管,冷拔精密无缝钢管,精密钢管厂,精密钢管制造厂家,精密钢管生产厂家,山东精密钢管厂家 | 脑钠肽-白介素4|白介素8试剂盒-研域(上海)化学试剂有限公司 | 广州办公室设计,办公室装修,写字楼设计,办公室装修公司_德科 | 振动筛,震动筛,圆形振动筛,振动筛价格,振动筛厂家-新乡巨宝机电 蒸汽热收缩机_蒸汽发生器_塑封机_包膜机_封切收缩机_热收缩包装机_真空机_全自动打包机_捆扎机_封箱机-东莞市中堡智能科技有限公司 | 塑料托盘厂家直销-吹塑托盘生产厂家-力库塑业【官网】 | 砖机托板价格|免烧砖托板|空心砖托板厂家_山东宏升砖机托板厂 | 新中天检测有限公司青岛分公司-山东|菏泽|济南|潍坊|泰安防雷检测验收 | 专注提供国外机电设备及配件-工业控制领域一站式服务商-深圳市华联欧国际贸易有限公司 |