姚登峰是一位聽障人士,但他在逆境中不斷地創造傳奇,獲得了北京大學碩士、清華大學博士學位,現在是北京聯合大學的副教授、碩士生導師。去年12月,他和另外兩位清華博士一起創業。
他來自湖北天門,1歲時雙耳失聰,卻以優異成績完成各階段學業。作為全球首位人工智慧聾人博士,姚登峰的博士課題是手語認知與計算,致力解決聾人與健全人的信息溝通問題。在李德毅院士的點撥下,姚登峰團隊將手語計算研究擴展到行為語言計算研究,即理解全人類的行為語言。為了將最新科技成果轉化為科技產品,他創業成立行語科技,成為一家行為語言整體解決方案的提供商,公司自主研發的行為語言計算技術,在理解除了語音語言之外的整個人類多樣化行為方面,居於世界領先水平。
5月25日,在清華大學校長杯創新挑戰賽中,行語科技脫穎而出,獲得由眾多頂級投資人和專家評出的企業創新獎。
面對坎坷「生氣不如爭氣」
姚登峰從小就以殘疾身體奔跑在人生馬拉松賽場。他1歲時因為感冒發燒導致聽力極重度損失,從此墜入了一片靜寂的無聲世界。
當時醫生的判斷是訓練沒有效果,但他的母親沒有放棄,日復一日對他進行聽語康復訓練。沒有助聽器,母親就在他耳邊大聲「喊話」,彼此摸著對方的喉嚨感覺聲音的震動來發音,漸漸登峰學會說話和交流。上學后,他無法聽到老師講課的完整信息,自己就通過大量的閱讀和自學來彌補,以頑強的毅力克服了求學中的種種困難和阻礙,他的成績可以考入重點大學,卻因耳聾被拒錄,幾經周折被錄取到一所二本大學。
「生氣不如爭氣!」姚登峰面對挫折激發鬥志,更加努力證明自己不比健全人差。2003年他通過全國統考,以專業第一名的成績考上了北大研究生,並以全優的成績畢業。也正是在北大讀研期間,他第一次接觸到信息無障礙。「大部分人認為信息障礙只存在於殘障人士之間,其實健全人也會有老的時候,也會有聽不到聲音、看不到東西的時候,也會有特殊場景下遇到信息障礙的時候。信息無障礙是全人類的事情」。
他在信息無障礙領域做了大量開創性的工作,也發現了手語背後計算領域的一片空白地帶,為此他2012年考入清華大學在職攻讀博士學位,希望用手語認知和計算技術,讓有聲世界的口語族與無聲世界的手語族能夠自由溝通。
在清華讀博期間,在數以萬計的代碼編寫和實驗論證之後,2016年姚登峰團隊在國際上首次提出手語計算的認知架構,一舉解決了手語計算困擾多年的底層像素特徵與邏輯語義輸出的斷層,匯合手勢分詞實驗的數據寶庫,手語計算的理論、技術與認知支撐首次形成了完整閉環。
擔任中國人工智慧學會理事長、北京聯合大學機器人學院院長的李德毅院士,有一次點撥姚登峰:在自然語言交流效果中,有聲語言佔7%,語音音調佔38%,面部表情、肢體語言及手勢等行為語言佔55%。過去幾十年來AI只關注佔比45%的講話內容的理解,但對於佔比55%的表情、手勢、肢體等行為語言並未關注。
姚登峰博士畢業后在手語計算的基礎上,開始嘗試破解行為語言的深層奧秘,由於兩者本身在面部、手勢、肢體的聚合感知上架構相通,再加上團隊夥伴不懈地探索和研究,僅僅兩年便在這一領域取得了突破性進展,2017年姚登峰被推薦為北京市卓越青年科學家。
調研發現各行各業都有行為語言計算需求
行為語言是從運算智能到達感知智能、認知智能重要的途徑,基於動態影像的行為識別是AI的最前沿領域,全球科技巨頭都在積極尋找剛需解決方案。
阿布都克力木、哈里旦木兩位博士和姚登峰是從事小語種計算研究的清華同學,他們常常在一起討論前沿科技,在一次次探討中敏銳地認識到,如果對人類行為語言進行全方位無感識別與計算輸出,機器智能便能理解各種行為語義並做出善解人意的反饋。這將是由傳統運算智能上升至感知智能和認知智能的重要核心,並可以延伸出更多跨行業有價值的產品和服務。
2018年,姚登峰團隊在湖北進行了智能領域的無人駕駛無感識別的實驗,通過一周的數據採集,該技術在0~100米範圍內可以準確在人群中識別出交警,識別率達到95%;在識別交警準確的8套手勢時,識別率達到90%。這證明該技術已達商用標準,他們順利拿到了國家知識產權證書。
一次,姚登峰與創業夥伴做市場調研,在一所監獄考察時發現其引入了最先進的監控系統,僅一個監控室安裝了幾十個顯示器,對應500個房間外加各類場所通道。但負責這500個房間的狀況監控的幹警,每天輪班連續看顯示器,人極度疲勞,監控效果也很難面面俱到。
如果有了行為語言智慧監控系統,就可以通過人工智慧自動發現是否有違規行為,能夠及時把違規動作等截圖上傳到監控室,讓就近獄警及時干預,提高管理運行效率和安全防範水平。
團隊在市場調查中得知很多場景、場合都需要應用行為語言計算,比如在照顧老人時,識別出老人是否摔倒;在跑步、游泳等體育運動時,識別動作是否標準;在煉油廠等敏感區域,識別出抽煙、沒有戴安全帽等不安全行為……各行業的需求對接讓團隊意識到行為語言計算技術確實可以幫助很多人,使大家增添了開發貼近市場需求產品的緊迫感。
國內團隊多在語音識別、圖像識別、可穿戴設備識別方面下功夫,但是在行為語言計算方向上,姚登峰認為,未來世界行為語言計算是不需要任何設備的,識別是無感的,希望用超前的無感識別技術改變人類的生活,讓技術儘快轉化為應用產品。
在接受中國青年報·中青在線專訪時,儘管姚登峰能聽懂提問,但他還是打開手機語音識別軟體,用標準普通話流暢地回答每一個問題。
姚登峰明白,創業是對一個人綜合實力的考驗,生活節奏「不斷在加快加快再加快」,也不斷地解決一個又一個難題。
行語科技在創辦3個月後,國際某工業巨頭主動尋求行語科技投資控股且計劃在後續B、C輪融資時引入頂級平台資源。但因隨後而來的經濟危機擱淺了該計劃。
緊接著,行語科技在部署煉油廠監控系統時,發現單體技術跟理想應用還存在著不少距離,很多場景應用不光是行為識別的問題,還需要結合圖像識別的技術,比如抽煙動作最好結合識別香煙形狀。這涉及底層技術架構的調整,否則就很難通過客戶嚴苛的測試,此時研發主力程序員又因出國被迫退出。困難一個接一個,只能靠創始成員自己頂上,加班加點完成任務。
據了解,目前行語科技的團隊有10多人,已與國內一線科創平台簽署戰略合作,落地智慧監獄和工業場景,同時在南京、杭州等地都有項目落地。
(原標題:《清華聽障博士用AI賦能信息無障礙》)
責任編輯:楊笑
留言列表