七大天然語言處理領域的世界一流公司

  在天然語言處理(NLP)技術上處於領先地位的公司Teragram 被商業智能和分析軟件供應商SAS收購(08年3月17日),宣稱使用天然語言處理搜索技術的Powerset被微軟收購(08年7月1日),在文本分析方面領先的Inxight被法國商業智能軟件公司Business Objects(BO)收購(07年5月31日),而BO隨後又被德國軟件大鱷SAP收購(07年10月7日),Metaweb被Google收購
  在這個軟件企業兼併潮的年代裏,這些以天然語言處理相關技術起家的企業選擇了「寄人籬下」,可是還有一些與天然語言處理技術相關的企業依然在堅持着,譬如機器翻譯行業老大Systran,基於語義計算技術的並飛速發展的企業搜索廠商Autonomy,以及國內的華建,漢王等公司,讓咱們看到了天然語言處理技術的前景與將來!
  不管從哪一個角度來看,天然語言處理是最能體現「智能」二字的領域,而「智能」又偏偏是技術追求的最高境界!所以我樂觀的相信:將來的應用領域處處都會有天然語言處理相關技術的影子,而如今,僅僅是開始!git

Teragram = Tera + gram

  Teragram是一家美國公司,中文名爲泰碼,是一家領先的天然語言、知識信息、文字處理技術和服務軟件提供商。公司總部設在馬薩諸塞州劍橋市,擁有40名員工,創立於1997年,和不少美國科技公司同樣,創始人是兩位天然語言處理研究方面的博士:Yves Schabes與Emmanuel Roche。
  關於Teragram這個名字,在其中文官方主頁上有這樣的解釋:
  「Teragram」一詞的詞源反映了泰碼公司的使命。
  「Tera」源於古希臘文,意爲「怪物」。「Tera」這個前綴的使用,又迴歸到這個古老的意義上。
  「Tera-」 用於計算機科學中是一個用於計量單位名稱的詞綴,至關於2的40次方,即1,099,511,627,776,也等於10的12次方。
  「-gram」源於拉丁文,法文和古希臘文。除了是一種重量的單位,「-gram」也是有表示所寫的,所畫的,所記載的等意義的名詞的詞綴。
  這裏不得不讓人聯想到了Google公司名字的含義,而事實上Google比Teragram創立的時間還遲,可是當時他們都認識到了海量數據和信息處理的意義!
  Teragram公司所獨有的NLP技術已經很成熟,而且擁有必定的客戶羣,其中包括:CNN、 Forbes.com、NYTimes Digital、Sony、AltaVista、WashingtonPost.com、Wolters Kluwer、the World Bank和Yahoo!等公司。
  Teragram在如下幾個NLP應用領域具備雄厚的技術:
  天然語言處理:Teragram公司的天然語言處理(NLP)技術將把多種語言和多種來源的文本內容轉化爲有用的信息,在文字、語言關係和字意層面上實現更加豐富的數據處理功能。Teragram公司已經開發並維護着含有註解的巨大詞庫,裏面包含了數以億計的詞彙,語種多達30多個。
  自動分類:Teragram公司先進的分類技術可以依據在企業內部普遍採用的客戶標準對文件提供快捷和先進的分類功能,這就使得不論原始文件存放在何處,用戶隨時可以根據特定的主題更加快速和準確地得到須要的文件,知足特定用戶的需求。
  天然語言企業搜索:針對企業級的搜索需求,Teragram的NLP技術能夠對結構性的企業數據以及非結構性的數據源進行掃描,包括基於文本的報表和網頁,以便從這些不一樣的信息源中獲取綜合性的答案。
  移動搜索:Teragram所提供的下一代移動搜索功能,幫助我的實現遠程信息的掃描,更加快速地得到答案。採用Teragram的移動搜索技術,人們可以存儲和檢索信息、鏈接到諸如BI系統的外部應用、來自BlackBerry的搜索數據庫、職能電話或其餘移動設備。
  2008年3月17日,SAS宣佈收購Teragram,以增強SAS公司自身的文本挖掘和分析型BI產品線,並將範圍擴展到企業和移動搜索領域。這對Teragram是福是禍,咱們拭目以待!  web

Powerset:天然語言搜索不是新的「概念股」

  在數學中,Powerset的意思是冪集的意思,一個集合S的冪集指的是S的全部子集。這是Powerset主頁中給出的這個名字的數學解釋,可是這又預示着什麼呢?算法

  不管在Google仍是百度,搜索「Powerset」所獲得的反饋遠比Teragram多得多,但這些信息無非可總結爲幾條吸引人眼球的內容:
  一、 Powerset獨家得到天然語言處理搜索技術使用權將挑戰Google——對於搜索引擎老大Google發起挑戰不管如何都是爆炸性的新聞,無怪乎那麼多網站轉載,也無論裏面的內容是真是假!而這條新聞發佈的時候Powerset仍是一個「概念股」!
  二、 基於天然語言搜索技術的新型搜索引擎Powerset正式啓動——這條信息的發佈是在08年5月12號,這說明Powerset還不是「概念股」,仍是實實在在作了些東西,不管是騾子是馬,終於拉出來溜了!
  三、 微軟1億美圓收購Powerset——在Powerset推出不到兩個月,微軟來了,「狼子野心,路人皆知」,用Powerset的技術來與Google對抗,不過這也從另外一個方面說明天然語言處理搜索引擎的是被看重的!
  我比較關注Powerset到底真正使用了哪些天然語言處理技術,拋去網絡上真真假假的消息,在Powerset的官方網站上,能夠看到關於Powerset的目標介紹:
  
  Powerset’s goal is to change the way people interact with technology by enabling computers to understand our language. While this is a difficult challenge, we believe that now is the right time to begin the journey. Powerset is first applying its natural language processing to search, aiming to improve the way we find information by unlocking the meaning encoded in ordinary human language.
  Powerset的目標是經過使計算機理解人類語言的技術(天然語言理解?)改變人機交互的方式。雖然這是一個困難的挑戰,可是是開啓這個旅程的時候了!Powerset首先將天然語言處理應用到搜索之中,目標是在咱們尋找信息的過程當中將人類語言中隱藏的意義展示出來!
 
  「Powerset is first applying its natural language processing to search」,這裏是Powerset在宣稱本身是第一個天然語言處理搜索引擎的公司嗎?我對這句話的翻譯把握不許,可是若是從「Powerset獨家得到天然語言處理搜索技術使用權將挑戰Google」這條新聞來看,這裏翻譯爲第一應該能夠接受。
  但果然如此嗎?由於在衆多的搜索結果中,我也看到了把Powerset稱爲語義搜索引擎的消息,而語義搜索彷佛已經做爲下一代搜索技術的代名詞炒做了一段時間了。而關於語義搜索引擎,在Powerset以前,已經有Hakia,Cognition等的存在了,最近也有一個來自印度的語義搜索引擎Sagoon剛剛發佈!另外Hakia在不少文章也被稱爲天然語言搜索引擎。更有甚者,寫了一段這樣的文字:
  「上個世紀 90 年代初,在不少用戶爲繁雜的不相關信息而頭痛時,AskJeeves 誕生了。然而度過了慘淡的網絡泡沫,該公司轉而使用關鍵詞搜索而且放棄了名爲 Jeeves 的卡通吉祥物,來區別它曾經依賴天然語言算法的時代,這就是如今的Ask網站。」
  可見,「天然語言搜索」並非什麼新的概念股,關鍵問題是如何作出與這個概念股相匹配的搜索引擎。而目前不管是Powerset,亦或Hakia,還僅僅處於起步階段,可是他們所推出的概念股,卻偏偏是咱們所期待的智能搜索引擎,所以沒法輕視!數據庫

Inxight:高貴的出身,一樣的結局

  搜索Inxight,中文信息量較之Powerset很是之小,主要是關於它被BO收購的消息,比較「可憐」的是,Inxight的官方網站已不存在,被指向到了SAP的子站點了。小程序

  Inxight誕生在著名施樂帕洛阿圖研究中心(Xerox PARC research center),這裏一樣是Powerset技術孵化的地方。
  從維基百科上找到Inxight的一些介紹,整理以下:
  Inxight是一家專一於數據可視化,信息檢索及天然語言處理的軟件公司。2007年被BO收購;BO於2008年又被SAP收購。創建於1997年,總部位於加州的薩內維爾。它最初由Xerox PARC分離出來的(注:2005年)。
  Inxight Software, Inc. is a software company specializing in visualization, information retrieval and natural language processing. It was bought by Business Objects in 2007; Business Objects was in turn acquired by SAP AG in 2008. Founded in 1997, Inxight is headquartered in Sunnyvale, California. It was originally spun out of Xerox PARC.
  Inxigh提供的產品包括(Inxight offers a number of products including):
  * The LinguistX text analysis API(文本分析API)
  * StarTree, a hierarchichal visualization/navigation tool(可視化/導航工具)
  * Summarizer, a tool for generating text abstracts and summaries(文本摘要生成及總結)
  * ThingFinder, a natural language entity extractor(天然語言實體抽取)
  * TableLens, trend visualization tool for large data sets(大型數據集的可視化趨勢工具)
  * TimeWall, an event/timeline visualization tool(事件/時間線可視化工具)
  Inxight 從Xerox PARC公司分離出來以後,被公認爲是非結構化信息發現領域中具備創新方案的領先提供商,產品能應用於32種語言。Inxight的客戶包括Air Products、AOL、Merrill Lynch、Morgan Stanley、Novartis和Thomson以及多家美國和他國的政府機構,如:美國國防部、國防情報局、國土安全局以及聯邦祕書署。此外,該公司還與包括IBM、Microsoft、Oracle、SAP和SAS在內的300多家公司簽署了軟件OEM協議。Inxight仍是Business Objects Technology Partner Program的會員。
  與Powerset同樣,Inxight最終沒有逃脫被收購的結局!因爲Powerset與Inxight師出同門,不得不說Powerset與Inxight的血統高貴,結局相同!安全

  關於Xerox PARC:
  1970年10月,美國施樂(Xerox)公司在今天硅谷的帕洛阿託成立了Palo Alto Research Center(PARC)研究中心,更爲重要的是施樂並無爲來到這裏的科學家制定任何的研究計劃,而是讓他們自由得發揮。在此後的幾年中,PARC誕生了以太網、鼠標、面向對象、圖標、菜單、視窗等等一系列改變從此計算機發展方向的全新概念,並間接孵化了Windows、Office、 Macintosh等劃時代的軟件做品,從其間走出的科學家還創立了Adobe、3Com、Novell等等改變IT世界格局的企業。網絡

Systran:機器翻譯行業的拓荒者

  每個行業都有一個或屈指可數的幾個巨頭在引領潮流,好比操做系統領域是微軟,搜索引擎領域是谷歌,視頻領域是Youtube,而機器翻譯領域的老大無疑是Systran!
  做爲機器翻譯行業最先的開發者和軟件提供商,Systran於1968由Dr. Peter Toma創辦。Peter Toma是一位科學家,當時剛好在美國喬治敦大學爲美國政府的一個機器翻譯項目工做,這個項目主要是爲冷戰時期(Cold war)美國空軍將大量俄語的科技文檔翻譯成英語的須要服務的,以後他以美國喬治敦大學機器翻譯系統研發小組爲班底由創辦Systran機器翻譯公司。在「臭名昭著」的ALPAC報告公佈後,來自於政府資助的機器翻譯研究經費銳減,Systran是這個時候存活下來的爲數很少的幾個機器翻譯系統之一!1986年,Systran被出售給法國巴黎的Gachot家族,並於2000年在法國證券交易所上市。
  Systran是目前應用最普遍﹑所開發的語種最豐富的翻譯軟件,可進行英語,繁體中文,簡體中文,日語,韓語,西班牙語,法語,德語,意大利語,葡萄牙語,荷蘭語,俄羅斯語,瑞典語,阿拉伯等13種語言的互譯。它不但提供翻譯技術給Yahoo!、AltaVista等大型搜尋引擎,更提供給美國空軍(US Airforce)及歐洲聯盟委員會(European Commission)使用。
  2002年,Systran在30多年積澱的基礎上發佈了一套徹底從新設計的機器翻譯技術架構。新的Systran技術包括:模塊化(Modularity),有限狀態技術(Finite State Technology),詞典訪問(Dictionary Access),聲明化(Declarativity), 隱式轉換(Implicit Transfer),交換格式(Exchange Format), 天然語言處理組件(NLP Components)。
  Google在07年10月以前也使用Systran的技術,可是07年下半年開始採用本身的技術,這與Google挖來統計機器翻譯領域的天才人物Franz Josef Och不無關係。Systran是老一代基於規則的機器翻譯技術的商業化表明,而Google的機器翻譯技術則將當前主流的語料庫驅動的統計機器翻譯推上前臺,彷佛預示着一個新的時代的開始!架構

Autonomy:企業級搜索的巨無霸

  兩年前我關注Autonomy創始人麥克•林奇這個名字的時候,主要是由於他說了一句「Google不是個人對手」以及「英國的比爾•蓋茨」這個名號!也由於此,我才知道在Google這樣的互聯網搜索以外,還有更龐大的企業級搜索這樣的市場!
  由於看到了Autonomy的搜索技術是基於語義計算技術的,因此我把它算作了一家天然語言處理公司。但仔細看了一下Autonomy官方主頁,發現這稍有點牽強,可是Autonomy所宣稱的採用的貝葉斯機率論和香農信息論卻是統計天然語言處理的核心之一!
  麥克•林奇(Mike Lynch )原是劍橋大學的教授。1991年,林奇教授創立了Autonomy的前身Nurodynamic公司,後者是林奇從一個樂隊老闆融資3000多英鎊建立的,該公司主要致力於劍橋大學模式識別研究成果的產業化工做。到1996年時,林奇教授已經積累了足夠多的客戶資源。因而,他向風險投資商借貸了1500萬美圓,創立了Autonomy。同年,Autonomy推出了世界上第一套智能個性化信息系統,同時發佈了它的拳頭產品DRE(Dynamic Reasoning Engine,動態推理引擎)和Portal產品系列。
  Autonomy產品的核心算法是兩種數學理論的獨特結合:貝葉斯機率理論和香農信息論。
  貝葉斯機率論是中世紀一位叫托馬斯•貝葉斯的牧師所創立的,這位古怪的牧師試圖經過本身的數學推理來驗證上帝之存在。這個理論在他去世後才被髮表,沉寂了百年以後才被麥克•林奇發掘出來再利用,後者認爲,貝葉斯的理論更加接近人的大腦思惟邏輯。
  香農信息論則認爲,出現頻率越小的信息單元,表明的信息量越大。這也能夠解釋這樣的現象:在一個嘈雜的房子中,咱們儘管不能徹底聽清楚對方全部的話,但咱們仍是能聽懂對方說話的意思。也就是說,每一個信息載體會包含大量重複的冗餘信息,在對這些信息的處理過程當中,冗餘信息的權重要低得多,甚至能夠忽略。而在關鍵詞搜索中,則相反,一個單詞出現的頻率越高,則該詞的重要程度越高。
  正是基於這兩個基本理論,Autonomy在海量信息處理中取得了巨大成功。
  Autonomy是名副其實的企業級搜索巨無霸!尤爲是在2005年收購緊隨其後的Verity以後,企業級搜索市場老大的地位進一步增強!Autonomy這幾年發展的勢頭之猛,讓人刮目想看,09年2月,Autonomy便得到國內最大的企業級搜索引擎項目國家電網SG186工程,其競爭對手包括IBM,Oracle, Fast, TRS等國內外企業,這進一步證明了其在當今企業級搜索領域數一數二的業內地位。Autonomy的客戶羣包括17000多家全球性公司和機構,包括荷蘭銀行、美國在線、BAE系統公司、英國廣播公司、美國彭博公司 (Bloomberg)、波音公司、花旗集團、可口可樂公司、德國戴姆勒-克萊斯勒公司等知名企業!
  目前第三代搜索引擎的概念衆說紛紜,但真正實實在在賺錢的是企業級搜索,而且這個市場對於互聯網搜索老大Google彷佛也很難撼動!不少人認爲企業級搜索是會竄出第二個Google,那麼最可能的也許就是Autonomy!app

Metaweb:建立最大的語義知識庫Freebase

  在天然語言處理公司Powerset的介紹中,Powerset使用的知識來源除了維基百科外,另外一個主要來源就是Freebase,而Freebase的幕後則是「野心勃勃」的Metaweb.
  Metaweb是從事語義網(Semantic Web)技術開發的風險企業,目標是開發用於Web的語義數據存儲的基礎結構,是曾就任於原美國網景(Netscape)、英特爾以及AlexaInternet等公司的人才彙集在一塊兒,於2005年7月成立,總部設在美國舊金山。Metaweb分別在06年3月和08年1月分別得到1500萬美圓和4250萬美圓的融資。
  目前所開發和維護的第一個產品是Freebase,Freebase被描述爲「開放、共享的世界知識數據庫」,07年3月發佈。Freebase是一個巨大的,合做編輯的交聯(cross-linked)數據知識庫。其背後的想法是爲語義網建造一個像維基百科系統的產品。Freebase容許任何人提供,組織,查詢,複製及利用其數據。這聽起來很像維基百科,可是不一樣與維基按做品安排結構,它的結構更像一我的和軟件均能讀取的數據庫。
  Freebase目前包含數百個類別及數百萬個主題的結構化信息。這些信息主要從公開的數據集(如維基百科,MusicBrainz,美國證券交易委員會和美國中央,美國中央情報局資料)採集及社區用戶的貢獻。Freebase與其餘數據庫的主要不一樣是它容許一個主題屬於多個信息類別,也稱爲域。在一個典型的電影數據庫中,例如,你想尋找有關施瓦辛格做爲電影演員的主題。若是你還想找他做爲健美運動員的信息,你不得不建立一個新主題或者一個全新的數據庫。
  而Freebase使用了一種不一樣的底層結構(從技術上講Freebase是一種圖結構數據庫),這樣在同一主題下施瓦辛格能夠被「貼」上演員、政治家、奧地利公民及健美運動員的「標籤」。因爲Freebase主題的做用是做爲信息傳輸的中樞,而不是其餘數據庫中做爲信息收集的容器,所以用戶能夠輕易的將多樣的信息放在同一個主題下。
  08年7月,Freebase 宣佈其文章總數即將超過400萬篇,比英文維基百科的 240萬篇超過60%,接近全語種(250種語言)維基百科1000萬篇的一半。
  不少 Web2.0 公司使用 Freebase 的數據庫,對某個領域的知識進行概括,得到有價值的資料,如:
  * Taught or Not – 一個很是可愛的小遊戲,用來測試你對歷史上那些思想家之間的相互影響關係的瞭解。
  * Shot or Not – 另外一個有趣的遊戲,測試你對有些歷史著名人物死因的瞭解。
  * Random Walk Through Influences – 一個小程序,輸入某個藝術家的名字,你就能夠知道他受哪一個流派影響。
  * Pull Quotes – 若是你對政治感興趣,這個網站值得一看。
  * Powerset – 也使用 Freebase 做知識來源。
  最後,讓咱們來看看Metaweb建立Freebase的遠景目標:經過這種方式重構世界數據,Freebase社區正在創建一個全球資源,總有一天它將容許世界各地的人們和機器比如今更方便和更快捷的獲取信息。
  若是這一天真的來臨,Metaweb所鍾愛的Freebase被稱爲「The Stem Of A Global Brain」也算得上實至名歸了!Metaweb已經被Google收購。dom

Language Weaver:高舉統計機器翻譯大旗

  這裏曾經談過機器翻譯的行業老大Systran,今天再談談機器翻譯行業的後起之秀Language Weaver!這兩家公司類似的地方在於都源自於大學的實驗室,Systran 是Peter Toma以美國喬治敦大學機器翻譯系統研發小組爲班底創辦的,而Language Weaver背後則是統計機器機器翻譯大牛Kevin Knight領導的美國南加州大學信息科學研究所(ISI/USC);不一樣的地方在於Systran的技術以基於規則的機器翻譯方法爲根基,而Language Weaver則在誕生之初就高舉統計機器翻譯大旗。  先來看一下「Language Weaver」這個名字,國內有的翻譯工做者將它譯爲「語言編織公司」,這個翻譯應該是譯者直譯的。不過了解統計機器翻譯歷史的人大概都知道這個「Weaver」應該與1949年最先提出統計機器翻譯思想的Weaver有關:  「早在1949年,美國洛克菲勒基金會天然科學部門的負責人Warren Weaver發表了一份以《翻譯》爲題的備忘錄,建議將機器翻譯的問題用統計方法及信息論的思想解決,這事實上就是基於信源信道思想的統計機器翻譯方法的雛形。可是因爲當時計算機性能的有限以及後來喬姆斯基轉換生成語法爲表明的理性主義方法興起後,統計機器翻譯的思想幾乎再也不被人使用。」  這個名字自己就蘊涵着Language Weaver公司對統計機器翻譯的信仰與執着!  Language Weaver創辦於2002年1月,是世界上第一個把統計機器翻譯軟件商品化的公司,Franz Josef Och,Philipp Koehn等都曾經在這裏工做和學習過。如下是這方面的一點簡介:  Language Weaver, Inc. was incorporated in January 2002 to commercialize a statistical approach to automated language translation and natural language processing. This breakthrough technology overcomes the weaknesses that have limited commercial success for automated translation in the past.  Language Weaver主要提供是企業級的用戶服務,和Google免費的在線翻譯服務有很大區別。翻譯的市場很大,尤爲全球化這個浪潮對翻譯的需求更加旺盛,所以即便在金融危機的大環境下,Language Weaver的發展勢頭仍很迅猛,在其官方博客上,有一篇文章宣佈其08年的收入增加了70%。

相關文章
相關標籤/搜索