50 行 Python 代碼寫一個語言檢測器

你有沒有曾經好奇過 Chrome 瀏覽器是如何知道一個網頁的語言,並對外國文字的網頁提供翻譯服務的?或者,Facebook 是如何翻譯你朋友用寫在你主頁上的外國文字?檢測一種語言實際上很是簡單,改進了用戶體驗,並且不須要用戶作任何的事情。html

我無心中發現的 ActiveState recipe for a language detector in Python這是很是不錯的一段程序,可是我決定作點小小的改進。提供一些背景知識給那些不熟悉天然語言處理或者是程序語言學的人。python

若是你是有經驗的程序員,你也許能夠直接跳到這段文字最下端的程序部分。出奇的簡單。程序員

你須要熟悉Python語法。若是你歷來沒有用過python, 我建議你讀一下 Zed Shaw 的《Learn Python the Hard Way》。算法

肯定你下載並安裝了python,並且能夠正常運行程序。這段文字中的python不算很長,因此你能夠用任何文本編輯器從而省去安裝任何軟件的麻煩。api

第一部分,什麼檢測到了一種語言?

在你寫區分語言的程序以前,你須要回答一個問題:什麼區別了兩種語言?瀏覽器

有趣的是,這個問題的答案會根據不一樣的比較語言而有所不一樣。好比:app

女性が牛乳を飲んだ。 (譯者注: 日語:女性喝牛奶。)編輯器

你是怎麼知道這句話不是英文的?你也許不熟悉日文,可是你確定知道這些字符不是英文,你甚至不須要知道具體哪一個字符不存在於英文字母中。函數

La femme boit du lait. (譯者注: 法語:女性喝牛奶。)測試

你怎麼知道這句話不是英文的?有一點麻煩。每一個字母都在英文中。甚至每個字母和句型結構都和英文的同一個意思的那句話很類似—— 「The woman drank milk.」 (譯者注: 英語:女性喝牛奶。) 。 你的大腦用了另外一個特性去判斷這個:儘管字母很類似,這兩句話發音沒有任何類似之處。

還有不少更復雜的方式去檢測兩種不一樣的語言(例如,語法、句法等等)上面提到的兩個特性彷佛足夠用來區分不少的書寫文字。

提問:你能夠想到一個相反的例子嘛? 兩種不能用字符或者發音而區分的語言?(譯者注:這是我想到的,和編者沒有任何關係。Hindi 和Nepali 的區分度極低,印度的一種語言和尼泊爾的官方語言的區別度很是低,字符區別很低而發音更高達50%的類似度。固然,他們兩個是同一語系的語種。)

第二部分,如何用計算機檢測到這些特性?

第一個特性已經存在於任何一臺現代化的機器裏 ——character encodings 字符解碼容許任何一臺計算機去經過二進制碼而呈現每個字符。咱們要用unicode 在Python 的程序中。

第二個特徵更有意思。如何能讓一臺電腦檢測到字符串的發音呢?答案比想象的簡單點:字符串順序是按照聲音解碼的!他們有直接的穩定的對應關係- 語言改變的很是緩慢。

所以,你能夠用下面的兩個特性去檢測一行文本語言:

  • 單個字符的重複性
  • 字符串的重複性

實際上,這兩個特性濃縮到了一個特性中:字符串的順序。單個字符的重複性只是字符串的重複性。

快速知識補充:在計算機語言學中,字符串的長度 n 被定義爲 n-gram。 「a」 是一個gram, 1-gram. 「bc」是兩個gram,2-gram or bigram。 「def」 是三個gram, 3-gram 或者trigram,以此類推。

第三部分,用python 實現吧!

首先,咱們須要計算某個字符串在特定文本中出現的次數。爲了封裝結果,咱們將創建一個NGram 類。

class NGram(object):
    def __init__(self, text, n=3):
        self.length = None
        self.n = n
        self.table = {}
        self.parse_text(text)

    def parse_text(self, text):
        chars = ' ' * self.n # initial sequence of spaces with length n

        for letter in (" ".join(text.split()) + " "):
            chars = chars[1:] + letter # append letter to sequence of length n
            self.table[chars] = self.table.get(chars, 0) + 1 # increment count

代碼實際上很短,定義了一個NGram類去接受一個unicode的文本輸入做爲一個參數。它還定義了一個選擇性的參數n做爲定義字符序列的長度。這段程序讀取了輸入文本的每一個字符而後創建了一個python 的詞典(dictionary),該詞典包含了全部小於n長度的字符序列以及相對應的出現頻率。好比,輸入:」Snail Mail.」 將獲得3-gram 的詞典:

{
  '  S': 1,
  ' Sn': 1,
  'Sna': 1,
  'nai': 1,
  'ail': 2,
  'il ': 1,
  'l M': 1,
  ' Ma': 1,
  'Mai': 1,
  'il.': 1
}

第四部分:如何比較兩個NGrams?

即便上面介紹的NGram類能夠用來計算字母序列出現的頻率,咱們始終不知道如何比較NGrams.咱們想要在不一樣的語言中找到最接近匹配去表明那種語言。咱們想要在一組給予的不一樣語言的Ngram 對象中,能找到最接近的匹配對象。爲了協調匹配NGram 去找到最佳的匹配,咱們引進了兩個新的函數: calculate_length() 和 sub() 去容許Python 實現兩個NGram對象之間的減法。

這樣的減法應用於多緯NGrams向量。每一個獨立的n 字符序列表明着向量的一個維度。Calculate_length()函數用來計算向量的長度(分散範圍)。找到NGram向量間的角度就是找到向量間的類似性。這個技術被稱作基於向量的查詢 (這篇是基於perl 的文章,基本上用Perl 實現了這篇做者上面闡述的全部觀點)。

實現代碼:

class NGram(object):
    def __init__(self, text, n=3):
        self.length = None
        self.n = n
        self.table = {}
        self.parse_text(text)
        self.calculate_length()

    def parse_text(self, text):
        chars = ' ' * self.n # initial sequence of spaces with length n

        for letter in (" ".join(text.split()) + " "):
            chars = chars[1:] + letter # append letter to sequence of length n
            self.table[chars] = self.table.get(chars, 0) + 1 # increment count

    def calculate_length(self):
        """ Treat the N-Gram table as a vector and return its scalar magnitude
        to be used for performing a vector-based search.
        """
        self.length = sum([x * x for x in self.table.values()]) ** 0.5
        return self.length

    def __sub__(self, other):
        """ Find the difference between two NGram objects by finding the cosine
        of the angle between the two vector representations of the table of
        N-Grams. Return a float value between 0 and 1 where 0 indicates that
        the two NGrams are exactly the same.
        """
        if not isinstance(other, NGram):
            raise TypeError("Can't compare NGram with non-NGram object.")

        if self.n != other.n:
            raise TypeError("Can't compare NGram objects of different size.")

        total = 0
        for k in self.table:
            total += self.table[k] * other.table.get(k, 0)

        return 1.0 - (float(total) / (float(self.length) * float(other.length))

    def find_match(self, languages):
        """ Out of a list of NGrams that represent individual languages, return
        the best match.
        """
        return min(languages, lambda n: self - n)

第五部分:如何比較NGram?

選擇合適的NGram 模型至關的簡單。你只須要將unicode的文本改爲任何一種你想要選擇的語言。

english = NGram(training_text, n=3) #trigram

若是你想比較兩個NGram 模型。你能夠用兩個模型作減法來尋找兩個模型的類似性(sub()是用來實現這個功能的)。

similarity = english - NGram(text, n=3)

若是你想用 Python list 或者iterator實現一個簡單的基於向量的搜索, 你能夠用NGram 類中的find_match(language)方式。搜索將在參數languages上實現對NGram對象的疊代。

languages = [english, spanish, french]
NGram(text, n=3).best_match(languages)

正如你所見,真正的生產實現中的問題,在於尋找正確的數據去實現NGram 模型。若是你想創建一個很好的語言檢測器,你須要找到一些頗有表明性的文本例子去表明你想測試的語言。維基百科上有不少很好的例子能夠做爲你的數據來源。

除了文本檢測,你還能夠用NGram 去作其餘有意思的事情。Google 的瀏覽顯示 就是一個很好的例子。它用了剛纔建立的Python代碼去實現了類似的統計應用。Google 還公開了作這個統計實驗用的數據

第六部分: 如今該幹些什麼了呢?

不少事情能夠去作!咱們從一個文本檢測器開始,一樣的方法能夠在不少其餘領域應用。好比說,你能夠修改你的代碼,讓這個文本檢測器再也不只檢測字母字符,而是直接進行詞語匹配。理論上來講,這些詞法順序(用詞的方式根據我的習慣而有所不一樣)能夠用來鑑定一做者的寫做。

N-Grams的概念能夠在不一樣的領域應用。好比:

  • 語法拼寫建議(建議改正非正確語法詞彙)
  • 鑑定DNA序列
  • 提升壓縮算法的有效性
  • 改進搜索引擎
  • 改進語音識別系統和特徵,經過某個特定詞語會出如今另外一個詞語後面的機率

儘管每種應用都會有所不一樣,可是本質上都是類似的,須要比較單獨個體的類似性。當你須要使用序列時,不妨考慮NGram。


原文:HOW TO WRITE A LANGUAGE DETECTOR IN 50 LINES OF PYTHON
轉載自:伯樂在線 - 人見人愛的土豆

相關文章
相關標籤/搜索