我院殷亞鳳老師課題組近期在人體動作識别與理解領域取得新進展:提出了一種基于聲波感知與自蒸餾的唇語識别技術用于無聲語音交互,提出了一種基于對比學習的手語識别與翻譯技術輔助聾人溝通。
1. Acoustic-Based Lip Reading for Mobile Devices: Dataset, Benchmark and a Self Distillation-Based Approach.語音是人與人之間一種自然的交流方式,也是人機交互的一種良好方式。然而,可聽見的語音常常面臨以下問題:受周圍噪音影響,打破安靜環境,洩露隐私等。因此,無聲語音交互技術被提出,尤其是基于唇語識别的無聲語音交互技術。為了實現唇語識别,該研究工作利用從移動設備産生的不可聽聲學信号,用于感知和識别唇部動作。首先,鑒于現有的唇語識别研究中缺乏公開數據集,該工作提出并發布了一個大規模的單詞級别的唇語數據集LIPCMD,其中包含30000個基于聲學的唇語樣本。其次,為了推進唇語識别技術的進一步發展,該工作在LIPCMD數據集上提供了基準評估。然後,為了将弱聲學信号識别為單詞,該工作提出了一種基于自蒸餾的方法LipReader,通過在卷積神經網絡中蒸餾概率分布和注意力圖以提高唇語識别/分類的性能。最後,該工作将LipReader實現在智能手機上,并在LIPCMD數據集以及複雜場景下評估自蒸餾唇語識别技術的有效性。該項研究工作已被IEEE Transactions on Mobile Computing(CCF-A類期刊)錄用。歡迎對該研究工作感興趣的學術同行來信交流:yafeng@nju.edu.cn。
2. Contrastive Learning for Sign Language Recognition and Translation.當前的端到端手語處理架構中存在兩個普遍的問題:一是連續手語識别(Continuous Sign Language Recognition,CSLR)中的CTC尖峰現象,削弱了視覺表征能力;另一個是手語翻譯(Sign Language Translation,SLT)推理過程中存在的暴露偏差問題,導緻翻譯錯誤的累積。該工作通過引入對比學習來緩解這些問題,旨在增強視覺層面的特征表示能力和語義層面的誤差容忍度。具體而言,為了減輕CTC尖峰現象并增強視覺層面的特征表示能力,該工作設計了一種視覺對比損失,通過最小化同一手語視頻中不同增強幀之間的視覺特征距離,使模型能夠通過無監督的方式利用大量未标記幀進一步增強特征表示。為了減輕暴露偏差問題并提高語義層面的誤差容忍度,該工作設計了一種語義對比損失,通過将預測的句子重新輸入語義模塊,并比較真實序列和預測序列的特征,從而在訓練階段暴露翻譯模型可能存在的錯誤,提高測試階段模型對暴露偏差的容忍性。最後,該工作在公開數據集上通過大量實驗評估所提出方法的有效性。該項研究工作已被The 32nd International Joint Conference on Artificial Intelligence (IJCAI 2023)(CCF-A類會議)錄用。歡迎對該研究工作感興趣的學術同行來信交流:yafeng@nju.edu.cn。