谷歌工程師利用和語言翻譯相似的技術開發出了一個用於翻譯圖片主題的機器學習算法

谷歌工程師利用和語言翻譯相似的技術開發出了一個用於翻譯圖片主題的機器學習算法html

將一種語言自動翻譯成另外一種語言一直以來都是難以攻克的問題。但最近幾年,谷歌經過開發機器翻譯算法改變了傳統的翻譯過程,經過谷歌翻譯從本質上改變了跨文化翻譯交流。算法

現在,谷歌正在運用一樣的機器學習技術將圖片轉變爲文字。其結果就是自動產生可以準確描述圖片內容的標題。該技術將用在互聯網搜索引擎,圖片自動發表,視覺受損者的網頁瀏覽,以及其餘更爲廣闊的領域。數據庫

翻譯語言的傳統步驟是一個更迭的過程 - 從個體單詞的翻譯開始,而後經過從新排列單詞和短語的順序來提升翻譯的準確性。可是近幾年來,經過徹底不一樣的方式,谷歌已經可以運用本身超大規模的搜索數據庫來轉換文字。網絡

谷歌運用的方法的本質是統計相鄰或相近單詞出現的頻率,而且在向量空間中定義他們之間的關係。經過這樣的方法,每個單詞就能夠用一個向量在空間中表示出來,每個句子則是不一樣向量的組合。接下來谷歌作了一個重要的假設 - 不管什麼語言,特定的單詞之間具有相同的關係。例如,在全部語言中,向量「國王-男人+女人=皇后」都應該是一個真命題。iphone

這就使得語言翻譯成爲了向量空間學裏的一個問題。谷歌翻譯是經過這一方式實現這一過程的:先把句子轉換成向量,而後使用這個向量產生意思相同,另外一種語言的句子。機器學習

如今Oriol Vinyals 和他在谷歌的合做者們正在使用相似的方法將圖片轉化爲文字。他們的技術是使用神經網絡去學習10萬個圖片的數據集合以及他們的標題,以此來實現如何對這些圖片的內容進行分類。學習

可是除了生成一組能夠描述圖片的單詞,他們的算法一樣能夠生成表明單詞之間關係的向量。這個向量能夠和谷歌現有的翻譯算法結合起來去生成英語標題,或者任何其餘語言的標題。事實上,谷歌的機器學習方法已經能夠將圖片轉換爲單詞。ui

爲了考量這種方法的效果,他們從亞馬遜的」mechanical turk」 (提供不一樣技能的勞動力資源平臺)僱傭了評估者來對經過上述方法自動產生的標題,以及其餘方法和人工翻譯的標題進行評分。搜索引擎

結果顯示被谷歌叫作神經圖片標題(Neural Image Caption, NIC)的新系統很是成功。使用一個叫作PASCAL的被你們所熟知的圖片數據集,神經圖片標題的翻譯功能明顯超出其餘的非人工翻譯方法。據Vinyals說,NIC的BLEU (wiki) 分數是59,現今最好的非人工翻譯技術的分數是25,人工翻譯的分數是69。翻譯

這是個不錯的結果,而且隨着訓練數據集的增大,這個方法產生的結果會更好。「從實驗中咱們很是清楚地看到,因爲數據集的增大,NIC的翻譯功能也相應獲得提升。」谷歌團隊說。

下圖是一組圖片翻譯結果的示例-按翻譯結果評分分組:

很明顯,這是另外一個在不久的未來機器會超越人類的項目。谷歌原論文題目:Show and Tell: A Neural ImageCaption Generator

論文連接:arxiv.org/abs/1411.4555

編者注:最近升級版的「谷歌翻譯「中,已經增長了相似的功能,叫作「Word Lens「,下文摘自雷鋒網(leiphone.com)

原文連接 http://www.leiphone.com/news/201501/4d8lzMhsZBfqy1NG.html

iOS版谷歌翻譯推出了更新版本,新版本增長了「Word Lens」功能,能夠直接對鏡頭捕捉到的文字圖像進行實時翻譯,並顯示在相機視圖上。而且,即便在沒有網絡鏈接的時候也能使用。遺憾的是,目前支持翻譯的文字有限,僅包括英語、法語、俄語、德語、意大利語、葡萄牙語和西班牙語,不過將來會支持更多語言。

此外,新版本還增長了實時會話模式,能夠在雙方使用天然語速進行語音對話時,自動識別雙方的語種並進行實時翻譯。

 

本文轉自:http://www.tuicool.com/articles/FbyUn2B

相關文章
相關標籤/搜索