Categories
科技報導

麻省理工學院的機器學習系統有助於破解丟失的語言



麻省理工學院的研究人員創建了一個新的系統,該系統使用機器學習來幫助語言學家解讀及時消失的語言。研究表明,曾經存在的大多數語言都不再使用,數十種無效的語言被認為是未解密的。 語言學家對語法,詞彙和語法不夠了解,無法理解這些失落語言留下的文字。

語言學家面臨的挑戰眾多,而且這些失落的語言中有許多都無法與經過深入研究的相對語言相提並論。 有些還缺少分隔符,例如空格和標點符號。 麻省理工學院計算機科學和人工智能實驗室最近在破譯語言方面取得了突破。

研究人員創建了一個新系統,該系統能夠自動解密丟失的語言,而無需了解其與其他語言之間的關係。 系統可以確定語言之間的關係。 一些語言學家認為,該系統最近顯示,伊比利亞人與巴斯克語無關。 該項目的科學家們的最終目標是,僅使用幾千個單詞來解密使語言學家感到困惑的語言。

項目負責人里賈納·巴齊萊伊(Regina Barzilay)表示,該系統依賴於基於歷史語言見解的七項原則。 這些原則認為,語言通常只會以可預測的方式發展。 該語言很少添加或刪除整個聲音,很有可能將替換聲音。 例如,母語中帶有“ P”的單詞在後代語言中可能變成“ B”,但是由於發音差異,不太可能變成“ K”。

利用這些語言限制,麻省理工學院的研究人員開發了一種解釋算法,可以處理巨大的可能轉換空間。 該算法可以學習將語言聲音嵌入到多維空間中,其中發音差異反映在相應矢量之間的距離中。 該模型旨在對古代語言中的單詞進行細分並將其映射到相關語言中的對應單詞。

dead-languages-1280x720.jpg