Categories
科技報導

索尼“無聲語音識別”大法:脖頸貼合傳感器 AI轉換皮膚震動信息



如今,對於聽力有障礙的群體來說,聽不到的聲音,可以觸摸到了。 “觸摸”聽不到的語言,是由東京大學和索尼計算機科學研究所(CSL)共同研發的 AI
系統“Derma”實現的。有了 Derma 系統,只要在喉嚨周圍的皮膚上貼上傳感器,利用喉嚨和下顎的皮膚震動,就能將口形轉化為語音。

索尼“無聲語音識別”大法:脖頸貼合傳感器 AI轉換皮膚震動信息 1

可“觸摸”的語言

根據病症的嚴重程度,現階段治療聽力障礙的主流手段包括:

  • 藥物治療:通過靜脈點滴或局部滴藥(如激素、抗菌素、抗病毒藥物等)消退炎症,使聽力盡快恢復;

  • 手術治療:主要針對外、中耳畸形、各種壓迫咽鼓管疾病、耳外傷等進行手術;

  • 儀器輔助:如助聽器(聽力損失程度≤80dB)、人工耳蝸(聽力損失程度>80dB)。

其中,人工耳蝸植入是當前讓重度、極重度耳聾患者恢復聽力的唯一有效辦法。

早在 1957 年,法國科學家首次將電極植入一位全聾病人的耳蝸內,使該患者感知到周圍的環境音。直到上世紀 90 年代,人工耳蝸進入臨床應用階段,給極重度耳聾患者帶來了“新生”。

實際上,人工耳蝸的發展離不開電子技術、計算機技術、語音學、電生理學、材料學、耳顯微外科學的發展。在這些學科興起、發展之前,針對聽力障礙患者,科學家給出的應對措施是一種叫做 Tadoma 的觸診唇讀法。顧名思義,這種療法是指——聽力障礙患者通過用手指觸摸說話者的嘴唇、下巴、脖頸處,讀取說話者想表達的內容。

而上述日本團隊研發 AI 系統 Derma 的靈感,最初正是源於 Tadoma。

通過機器學習將 Tadoma 自動化

該團隊的設計其實就是將 Tadoma 療法的過程通過機器學習自動化了。

就其原理而言,如下圖所示,在喉嚨周邊的皮膚上貼上一個加速度/角速度傳感器,獲取無聲發聲時下顎、舌肌運動引起的從下顎到喉嚨的皮膚顫動信息,採用深度學習進行分析識別,最終實現將無聲語音轉換為語音輸入的無聲語音交互(Silent Speech Interaction,SSI)。

索尼“無聲語音識別”大法:脖頸貼合傳感器 AI轉換皮膚震動信息 2

該傳感器可獲取 12 維的皮膚運動信息,深度學習可以分析、識別 35 種發聲類型。實驗表明,識別皮膚顫動信息的精準度超過 94%。

值得一提的是,研究團隊訓練模型用到了連接時間分類(Connectionist Temporal Classification, CTC)。

實際上,在訓練語音識別器的過程中,受說話者語速等因素影響,將輸入與輸出對齊是一個難點。為解決這一問題,連接時間分類就派上用場了。

就其外形而言,與現有的一些無聲語音交互設備相比,這一設備體積小、重量輕、並不顯眼。此外,這一系統耗電量低,不易受到環境亮度等因素的影響,不會影響到佩戴者的正常生活,可以說是非常實用了。

另外研究團隊表示,經轉換後的語音合成不僅可以輸入到具有語音識別功能的數字設備(語音助手),同時也能幫助有語言障礙的患者進行交流。

將來,該團隊的研究方向則是可穿戴電子設備和體內嵌入式計算集成。

基於 AI 的無聲語音交互

近年來,無聲語音交互領域方興未艾,當前產業和學界在該領域的思路主要有 2 條——通過感知氣流識別話語(氣流採集)和通過感知肌肉運動的方式識別話語(EMG 信號採集)。以下是該領域發展的大致時間線:

  • 2009 年,麻省理工學院感知交流組研發的觸覺設備能夠克服讀唇語無法清晰識別的障礙,成本比人工耳蝸植入手術低幾個數量級;

  • 2016 年,牛津大學人工智能實驗室、谷歌 DeepMind 和加拿大高等研究院(CIFAR)聯合開發了結合深度學習技術的唇讀程序 LipNet;

  • 2016 年,DeepMind 經 1 萬小時的新聞視頻訓練,將 AI 唇讀準確率提升至 46.8%;

  • 2019 年,世界知識產權組織公佈了微軟申請的“無聲語音輸入”(Silent Voice Input)專利,豐富了“機器聽懂人話”的場景;

  • 2020 年3 月,浙江工業大學、中科院計算技術研究所智能信息處理重點實驗室及中國科學院大學共同提出了在局部特徵層和全局序列層上引入互信息約束,增強口型特徵與語音內容的關係,將計算機唇讀精度提升至84.41%。

實際上,無聲語音識別不僅可以幫助有聽力、語言障礙的人群,也適用於包括災害現場、艙外探索、水下作業、工廠車間在內的場景。

不過,無聲語音交互設備要想真正成為消費級產品,還需打磨。正如微軟全球資深技術院士、微軟雲與人工智能事業部負責人黃學東博士曾表示:

公開的測試、已發表的學術文章,雖不能與現實完全割裂,但相比消費級產品與商業場景,仍需要不一樣的評判標準。

關於索尼 CSL

正如上文所述,Derma 由東京大學和索尼 CSL 共同研發。

索尼“無聲語音識別”大法:脖頸貼合傳感器 AI轉換皮膚震動信息 3

在中國人民大學出版社 2011 年出版的一本名為《索尼研究所的經營哲學》的書中,索尼 CSL 董事長所真理雄便講述了索尼 CSL 的經營管理理念。所真理雄寫道,索尼 CSL 遵循“小即是美”的經營理念,堅持不擴大規模,因此誕生了眾多的“異類和天才”,同時也支持人才的“流通”。

索尼 CSL 成立於 1988 年,作為索尼公司的“創新工廠”,廣泛關注計算機科學、生命科學、腦科學和經濟學等多個領域。當前索尼 CSL 的研究方向包括“全球議程”(涵蓋從能源到食品和醫療保健的問題)、“人類增強”(包括探索人類創造力和人機交互/集成的研究)與“網絡智能”(AI )。

2019 年11 月,索尼宣布成立索尼AI 部門,以“利用AI 激發人類的想像力和創造力” 為使命,旨在推進AI 技術的基礎研發,而索尼 CSL 總裁兼CEO Hiroaki Kitano 便是索尼AI 的全球負責人。