我院殷亞鳳老師課題組近期在手語動作識别與理解領域取得新進展:提出了一種基于區域感知時序圖的手語識别與翻譯技術,在輕量級邊緣設備上實現實時手語識别與翻譯,旨在為聾人提供随時随地的實時溝通與交流服務。
Towards Real-Time Sign Language Recognition and Translation on Edge Devices:手語是聽障人士的主要溝通方式。為了建立聽障人士與普通人之間的溝通橋梁,手語理解技術備受關注。然而,現有的手語理解工作主要聚焦手語識别或翻譯的性能,鮮少關注手語識别或翻譯的資源開銷與時延。實際上,為了随時随地給聽障人士提供即時溝通服務,實時手語識别與翻譯技術至關重要。因此,該研究工作提出了一種基于區域感知時序圖的方法,旨在輕量級邊緣設備上實現實時手語識别與翻譯技術。首先,為了減少計算開銷,該工作構建了一個淺層圖卷積網絡來減少模型的深度,從而減少模型的規模。并且,該工作采用結構重參數化融合卷積層、批标準化層和其他分支結構來減少模型的寬度,從而減少模型的複雜度。其次,為了提高手語識别和翻譯的性能,該工作通過提取每幀圖像的骨骼點定位手語動作的關鍵區域,并設計了區域感知時序圖來關聯一幀圖像中的不同區域以及連續幀中的同一區域,增強手語動作的特征表示。然後,該工作設計了一個多階段訓練策略來聯合優化骨骼點提取、手語識别和手語翻譯階段。最後,該工作在公開數據集和輕量級邊緣設備上驗證了所提出方法的有效性,即具有較好的手語識别和翻譯性能,同時大幅降低手語識别與翻譯中的資源開銷與時延,在邊緣設備上實現了實時手語識别與翻譯技術。該項研究工作已于The 31st ACM International Conference on Multimedia (MM 2023)(CCF-A類會議)上發表。歡迎對該研究工作感興趣的學術同行來信交流:yafeng@nju.edu.cn.