全世界有數百萬人使用手語進行交談,手語早已是重要語言之一;但目前為止,能夠捕捉手語複雜手勢並即時翻譯成口語的相關技術,進展仍然有限,而 Google AI 實驗室則推出即時手部追蹤新技術,可望協助手語和口語族群彼此溝通。
誰說一定要大數據?Google 選擇先讓機器辨識「手掌」
根據 TechCrunch 報導,過去如果要讓手語即時翻譯成口語,通常得在桌機環境裡進行。因為使用手語時,手勢可能會遮住自己的手指、手掌,或是手會抖動;再加上手語的手部動作通常很細微,有時候打手語的速度也很快,就算同時採用多個攝影鏡頭,這些辨識對機器視覺來說,都屬於高強度挑戰任務,較難在手機或行動裝置環境中進行追蹤、辨識、分析並即時翻譯。
為了解決目前困境,在強調大數據的現在,Google AI 實驗室則反其道而行,在一定程度上減少數據量,降低機器視覺辨識的周轉時間。他們先放棄讓系統檢測整體手部位置、大小,只讓系統去捕捉「手掌」,因為手掌大小通常固定,且是方形,可以避免系統得處理矩形或其他特殊圖像所帶來的辨識困擾。
當識別手掌後,其延伸出去的手指就可以被個別分析,依據所設定的 21 個座標,分析出指關節、指尖與手掌的距離,甚至根據手掌的大小、角度,推測出目前手勢的形狀。
為了達到這樣的手指識別,Google AI 實驗室得事先用人工方式,一個個把不同手勢、不同照明情況下的 3 萬張手部圖像都加上這 21 個座標點,以利後續的機器學習。畢竟,所有人工智慧的起點,都來自於人類自己先下苦工、打地基。
之後,透過機器學習,手語動作就可以跟已知的手勢相比對,從字母和數字的手語符號對應到所指語言。這種方式可以讓手語辨識直接在一般手機上運作,不需要在桌機環境或雲端環境進行。
目前 Google 還沒把這些研究成果用在任何產品上,因此也開放原始碼,讓有需要的人都可以自行取用。
未來挑戰:手語包含雙手、臉部表情,各地手語系統也大不同
平心而論,Google AI 實驗室的手語辨識技術已經往前邁了一大步,但手語是成熟、複雜且含有豐富訊息的系統,手語也不只是單一隻手的手勢,同時還得運用雙手、臉部表情以及其他線索來進行溝通,因此未來可能還是需要搭配強大硬體,才能真正達到「手語即時翻譯」。
而按照目前 Google AI 實驗室的手語辨識技術進展,可能暫時比較適用於辨識基本手型,或是用來辨識「手語拼寫法」(Fingerspelling)。因為手語拼寫法是用手指打出從 A 到 Z 的 26 個字母,再對應到英文拼音來理解意思。
但就像口語有不同系統,世界上也有不同手語系統,並不是每種手語系統都類似手語拼寫法。以美國聾人族群大宗使用的美國手語(American Sign Language;ASL)來說,美國手語的基礎仍然是擁有獨特系統、由聾人溝通方式發展而成的「自然手語」,只有在需要打出新興詞彙(例如:iPhone)時,才會借用手語拼音法打出i-p-h-o-n-e,因此如果要完整辨識美國手語,需要的手勢圖像更多、挑戰更難。
此外,台灣手語也像中文詞彙一樣,台灣的「自然手語」象形意象較強,如果要採用機器視覺辨識,可能難度更高,仍需要一段漫漫長路。
核稿編輯:Anny
留言列表