簡評:在大英博物館 (British Museum) 的柔光中,人們只能勉強看到鐫刻在這些古老泥板上的密密麻麻的楔形標記。這些細小的標記是世界上最古老的書寫系統 —— 楔形文字的遺蹟。
楔形文字起源於 5000 多年前的美索不達米亞,位於底格里斯河和幼發拉底河之間,也就是如今的伊拉克。它記錄了一個長達 3000 年之久的、複雜而迷人的文明。git
從王室之間憤怒內鬥的信件,到安撫一個任性嬰兒的儀式,這些石碑讓人們能夠從另外一個獨特的視角瞭解歷史初期的社會。它們記錄了阿卡德、亞述和巴比倫帝國的興衰,這是世界上第一個帝國。據估計,人們已經挖掘出了約50萬塊楔形文字板,但還有不少仍深埋地下。算法
約 150 年前,學者們首次破譯楔形文字。然而,目前仍有約 90% 的楔形文字未被翻譯出來。數據庫
可是,這種狀況可能會有所改變,這都要歸功於現代工具 —— 機器翻譯。微信
多倫多大學亞述學研究員佩龍 (Emilie Page-Perron) 如今正在進行的一個項目,是用機器翻譯公元前 21 世紀以來美索不達米亞文明的行政記錄,數量多達 69000 份,其目的之一是爲新的研究發掘過去。網絡
美索不達米亞文明孕育了車輪、天文學、一小時 60 分鐘的計時制、地圖、洪水和方舟的故事、以及第一部文學做品 ——《吉爾伽美什史詩》。這本詩集主要是用蘇美爾語和阿卡德語寫成的,能讀懂這些語言的學者少之又少。工具
除了石碑,還有 5 萬多枚美索不達米亞雕刻印章散落在世界各地。幾千年來,美索不達米亞人使用由雕刻石頭製成的印章,這些印章被壓入潮溼的粘土中,用來標記門、罐子、石板和其餘物品。這些刻章中只有 1/10 被編入目錄,更不用說翻譯了。學習
牛津大學亞述學教授達爾 (Jacob Dahl) 表示 —— 咱們所得到的關於美索不達米亞文明的資料比希臘、羅馬和古埃及的加起來還要多,但真正的挑戰在於找到能讀懂它們的人。人工智能
佩龍與其團隊正在對一個數據庫中的 4000 個古代行政文本樣本編寫算法。spa
這些行政文本包括交易和運輸記錄,好比把羊、蘆葦束或啤酒運到寺廟或我的手中的記錄。這些文字最初是用蘆葦筆刻在粘土上的。如今,學者已經把它們音譯成了咱們的字母表。翻譯
例如,蘇美爾語中表示「大」的詞能夠寫成楔形文字,也能夠寫成英文字母表中的「gal」。
這些行政文書的措辭很簡單。例如「第15天,廚房有 11 只母山羊」。這種特色使得它們特別適合被自動化處理。一旦算法學會了將樣本文本翻譯成英語,它們就能自動翻譯其餘通過音譯的石碑。
這些記錄向咱們展現了古代美索不達米亞人的平常生活,包括權力結構和貿易網絡,同時還展現了社會歷史的其餘方面,如女工的角色。
佩龍但願機器分析也能弄清蘇美爾人的一些特徵,這是至今仍困擾着現代學術界的難題。這種已經滅絕的語言與任何現代語言都沒有聯繫,但卻保存在以楔形文字書寫的碑文中。這多是咱們與更古老,甚至沒有歷史記載的社會之間最後的聯繫。
芬克爾是世界上頂尖的楔形文字專家之一。
他在大英博物館堆滿書的辦公室裏講解了手稿是如何慢慢被破譯的,這多虧了一位國王的多語種銘文,就像羅塞塔石碑幫助研究人員理解了埃及象形文字同樣。
多虧了先進的成像技術,如今任何人只要能上網就能接觸到這些寶藏。
好比,世界上現存最古老的皇家圖書館,人們正在將它數字化。這座圖書館位於尼尼微,由亞述國王亞述巴尼帕(Ashurbanipal)建造。雖然早在公元前 612 年,尼尼微遭遇洗劫時,這些碑文被火烤得又黑又硬,但上面的文字仍可辨認。
新的成像技術讓人們在處理這些古老且破損嚴重的文本時更加輕鬆。有了精細的圖像,人們就有可能找出那些肉眼看不見的模糊標記。
一個名爲「楔形文字數字圖書館倡議」(Cuneiform Digital Library Initiative) 的項目,將儲存在德黑蘭、巴黎和牛津館藏中的碑文及印章進行數字化處理。這個龐大的在線數據庫已經包含了世界上約三分之一的楔形文字,以及一些未被破譯的書面語言(如古伊朗的原始埃蘭語)。
若是沒有這樣龐大的數字資源,讓機器進行翻譯幾乎是不可能的。
數字化還幫助研究者們將散落在世界各地的文本拼湊起來。
研究員曾對美索不達米亞的 200 多枚石印的 3D 圖像進行了數字化處理。在試點項目中,他們使用了人工智能算法校驗了 6 塊碑文,並識別出在世界其餘地方發現的與之匹配的石印。算法準確地挑選出了兩塊現存於意大利和美國的石碑,這兩塊石碑上蓋的石印是同樣的。
在過去,想要將石印和印痕匹配起來困難重重,由於許多石印儲存在數千英里以外的地方。而如今,人工智能的發展能幫助探索世界各地收藏品中蘊藏的豐富信息。
成像技術也改變了對於未破譯文本的研究。
對於數量少、具創造性文本的破譯,人類每每比機器作得更好,人類有着對生活和組織方式的深刻理解,以及高度的靈活性。
例如,早期的楔形文字符號並非線性排布的,而是簡單地與畫在周圍的方框排在一塊兒。原始埃蘭語是三維立體的,一個圓印的深淺不一樣意義也不一樣。可是,技術能夠放大、分享和比較圖片的細節,加快了破譯進程。
佩龍但願機器最終可以翻譯更復雜的蘇美爾語石碑和其餘語言,好比阿卡德語。也許有一天,咱們將可以閱讀全部古老文字的翻譯版本。
古代美索不達米亞的國王們深深地思考着過去和將來。他們崇敬前朝的楔形文字,將記錄着他們的名字和成就的銘文埋藏地下,寄望後世的統治者會將榮耀歸於本身。
在某種程度上,他們的願望已經實現。他們的經歷過的戰爭和征服可能已經被大多數人遺忘,可是他們最強大的發明 —— 文字,在過去的幾千年裏助力了人類思想和技術的發展。
而如今,人類開始訓練機器從過去中學習。
原文連接: The key to cracking long-dead languages?
推薦閱讀: 人工智能缺陷與誤覺:讓機器產生幻覺的「怪異事件」
歡迎關注微信號「極光開發者」