English
當前您的位置: 當前位置: bat365首頁 > bat365動态 > 正文

我院蔣智威老師課題組在多模态視頻理解技術方面取得新進展

發布日期:2024-04-11 浏覽量:

我院蔣智威老師課題組在多模态視頻理解技術方面取得新進展:(1)針對聲音-視覺事件在視頻中的定位任務,提出一種基于事件定位偏好學習的條件雙分支範式,在事件定位與事件分類兩個子任務之間建立條件依賴的關聯關系,讓事件定位能更充分地利用特定于事件類别的定位偏好,以獲得更好的事件定位效果;(2)針對短視頻排序任務,提出一種基于位置解碼和後繼預測的短視頻排序框架,并精心構造了一個專門的短視頻排序數據集,以促進新算法的開發和評估。

兩項研究工作分别為:

1. Learning Event-Specific Localization Preferences for Audio-Visual Event Localization

聲音-視覺事件定位(AVEL)旨在定位視頻中可見且可聽到的事件。現有的AVEL方法主要集中于學習适用于所有事件的通用定位模式。然而,事件通常會表現出模态偏好,例如視覺主導、音頻主導或模态平衡,這可能導緻不同的定位偏好。這些偏好可能被現有方法忽視,從而導緻定位性能不夠理想。為解決這一問題,該研究工作提出了一種新穎的事件感知定位範式,首先識别事件類别,然後利用特定事件的定位偏好來改進事件定位。為實現這一目标,該研究工作引入了一種基于記憶的度量學習框架,利用曆史片段作為錨點來調整統一的表示空間,用于事件分類和事件定位。為了為這種度量學習提供足夠的信息,該工作設計了一個空間-時間音視頻融合編碼器,以捕捉音頻和視覺模态之間的空間和時間交互作用。在完全監督和弱監督設置下,該工作在公開的AVE數據集進行的大量實驗,實驗結果驗證了該提出方法的有效性。

A50F

該研究工作相關成果《Learning Event-Specific Localization Preferences for Audio-Visual Event Localization》已在多模态處理頂級國際會議The 31st ACM International Conference on Multimedia(MM2023, CCF-A類會議)上發表,歡迎對該研究感興趣的同學和學術同行來信交流:jzw@nju.edu.cn

2. Short Video Ordering via Position Decoding and Successor Prediction

短視頻集合是用戶在各種在線短視頻平台(如TikTok、YouTube、抖音和微信視頻号)上浏覽連貫内容的一種簡便方式。這些集合涵蓋了廣泛的内容,包括在線課程、電視劇、電影和動畫片等。然而,由于各種原因,如修訂、二次創作、删除和重新發布,短視頻創作者偶爾會以無組織的方式發布視頻,這經常導緻用戶浏覽體驗不佳。因此,根據内容連貫性精确地對視頻進行重新排序是一項至關重要的任務,可以增強用戶體驗,同時也是視頻叙事推理領域中的一個有趣的研究問題。在這項工作中,蔣智威老師課題組為這個短視頻排序任務精心構造了一個專門的多模态數據集,并介紹了一些基準方法在該數據集上的性能。此外,該工作還進一步提出了一個基于位置解碼和後繼預測的短視頻排序框架。所提出的框架結合了成對和列表排序範式,可以擺脫成對範式中的二次增長和級聯沖突問題,并提高現有列表方法的性能。大量實驗證明,該提出方法在數據集上實現了最佳性能,并且框架的每個組件都有助于最終性能的提升。

1513F

該研究工作相關成果《Short Video Ordering via Position Decoding and Successor Prediction》已被信息檢索領域頂級國際會議 The 47th International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR2024, CCF-A類會議)長文錄用,歡迎對該研究感興趣的同學和學術同行來信交流:jzw@nju.edu.cn

蘇州校區

地址:蘇州市太湖大道 1520 号

郵編:215163    歡迎來到bat365在线平台官方网站,bat365在线登录入口!

版權所有©bat365中文官方网站(正版)登录入口 All Rights Reserverd

網站制作:bat365在线平台官方网站,bat365在线登录入口

Baidu
sogou