AI產品經理的入門必修課(4)——知識圖譜

做者介紹算法

@毛毛數據庫

產品經理框架

集顏值和才華於一身。機器學習

對AI瞭解深刻,經驗豐富。ide

1 爲何要了解知識圖譜工具

AI核心要研究的是如何讓計算機去完成以往須要人的智力才能勝任的工做,而人的智能性核心體如今對不一樣事物的感知能力、推理能力、決策能力。所以要想作出AI產品就離不開對感知的研究,推理機制的研究以及智能決策方向的研究。對感知智能而言,AI已經作了不少突破,例如機器對聽覺、視覺、觸覺的感知能力,經過攝像頭、麥克風或者其餘的傳感設備,藉助語音識別、圖像識別的一些算法模型,可以進行識別和理解。學習

感知智能的發展可以採集到海量的不一樣來源及不一樣存儲方式的數據,若是想要用這些數據作出具體場景化的應用,目前市面上經常使用的方式有兩種,一種是統計分析,也就是在業務中作的最多的數據理解和分析,包括了語義分析、情感分析,及各類指標分析的數據可視化。另一種是決策,基於收集或者產生的數據去作自動化決策,或者智能推薦、智能問答等。而在作這些內容時依賴的核心技術就是知識圖譜相關的技術。優化

AI產品經理的入門必修課(4)——知識圖譜

2 知識圖譜是什麼搜索引擎

瞭解知識圖譜是什麼以前,先了解數據、信息、知識之間的關係。google

數據是指聲音、圖像、符號,一般指最原始的記錄,數據間彼此孤立,沒有通過加工和解釋。

信息是指數據通過加工處理後,創建了某種聯繫或增長了某些屬性;

信息能夠通過加工和處理轉化爲數據進行存儲,數據是信息的表現形式。

知識是經過實踐得到的認識或經驗的總和,能夠是已經文本化的知識,也能夠是存儲在大腦中的認知。

eg:

「38.5」這是一條數據,不具備任何意義。

「小明測量體溫爲38.5度」這是一條信息,而且38.5是一個關鍵指標。

「正常人體的溫度爲36-37度,當體溫超過基礎體溫1度及以上時,即認爲發熱,而不一樣的溫度範圍又可分爲低熱、高熱...」這是一條知識,是經過許多病例、實驗總結出的公認正確的。

「小明發熱了,由於他體溫爲38.5度」這個結果是由知識推理而來的。

知識圖譜是基於圖模型來描述知識以及構建關聯關係模型的技術手段,現實世界中經常使用到的知識,或者咱們腦海中記住的知識,一般是一段描述性的話,而知識圖譜就是將某段描述知識的話抽象成主體、屬性、關係的三元組,並利用圖譜的形式呈現出來。以下圖便是一個簡單的知識圖譜。「張柏芝」、「謝霆鋒」、「王菲」是人物主體;「出生年月」、「性別」、「年齡」爲主體屬性;「前妻」、「現任女朋友」、「情敵」爲知識抽象出的關係。

AI產品經理的入門必修課(4)——知識圖譜

知識推理過程

「前妻」知識:

男女雙方在法律上曾經成立過婚姻,後經過協議或訴訟的方式解除了婚姻,終止了夫妻間權利和義務,對男方而言稱呼女方爲前妻。

推理過程:

張柏芝和謝霆鋒之間在法律上曾經成立過婚姻,後解除了婚姻,且張柏芝是女性,所以張柏芝是謝霆鋒的前妻。

在知識圖譜技術中,「張柏芝」、「謝霆鋒」、「王菲」被稱爲節點,節點能夠是實體也能夠是抽象出的概念;加粗的黑線稱爲邊,表現實體或概念之間的關係,如「張柏芝」和「謝霆鋒」的關係是「前妻」。圖中每個圓都是一個節點,鏈接圓的直線都是邊,能夠看出知識圖譜是由節點和邊組成。而節點和節點之間的邊,能夠是屬性、也能夠是關係,例如「張柏芝」、「謝霆鋒」之間的邊表明的是關係,「張柏芝」、「性別:女」之間的邊表明的是屬性。

能夠用來作什麼?

最先知識圖譜的應用是用來提高搜索引擎的能力,早期的搜索,是依賴網頁間的超連接、搜索關鍵詞與網頁包含關鍵詞的匹配關係進行精確或模糊搜索。但互聯網終極形態是萬物的互聯,搜索的終極目的也是對萬物的直接搜索,所以僅依靠關鍵詞之間的匹配不足以知足日益豐富的搜索需求。在傳統的搜索模式下,當咱們搜索「謝霆鋒的前妻是誰?」,檢索結果多是某個網頁中包含了「謝霆鋒的前妻是張柏芝」這句話,咱們才能找到網頁,在從網頁中的信息中得知謝霆鋒的前妻是張柏芝這個結論。
AI產品經理的入門必修課(4)——知識圖譜

而上圖知識圖譜的創建,當搜索需求產生時會快速的返回「張柏芝」及我的信息。

AI產品經理的入門必修課(4)——知識圖譜

知識圖譜的構建原理及流程?

知識圖譜的構建一般分爲兩類,一類是開放域的知識圖譜、一類是垂直領域的知識圖譜,像google、百度搜索等搜索引擎創建的知識圖譜屬於開放域的,像某個領域,電商、金融、圖情、生活娛樂等基於具體領域和場景構建的知識圖譜爲垂直領域的知識圖譜。兩種圖譜的場景應用不太同樣,但涉及的底層邏輯和構建流程是類似的。

知識圖譜的構建涉及了知識表示、知識獲取、知識處理和知識利用等多方面。

知識表示:

簡單理解就是設計者把獲得的知識,針對各類問題的類型和場景,設計成多種表現形式,而使用者能夠直接使用這種設計好的表示方法來表明這類知識信息。

例如我做爲系統設計者,我定義了「V」爲「或」的意思,其它使用者都可用「V」表明「或」。

知識獲取:

指人經過設計、程序編碼、人機交互使機器獲取知識,例如人爲創建知識庫,讓專家系統來獲取知識,大部分都是經過人工的方式將人類的知識存儲到機器中,這個過程就是知識獲取的過程。

*知識庫是相互關聯的事實及數據的集合,常被用來支持專家系統,是專業領域內規則的集合,包含了規則所聯繫的全部關係和數據。

*專家系統是人工智能研究方向之一,是指利用人類某個領域專家解決問題的知識或者方法來進行程序化,依賴知識庫中的知識體系來進行決策。

知識處理:

包含了知識的加工、邏輯判斷、推理、知識輸出的過程。

nlp天然語言處理是知識處理的核心。

知識利用:

將規範的知識結構應用到具體的場景之中,創造價值。

在構建技術上,數據和算法是知識圖譜的底層支持,包含了信息表示、信息抽取、信息融合、信息推理和信息決策等多個階段。

信息來源:

一般能夠經過多個渠道或者來源來獲取知識圖譜的數據,包含了文本、結構化數據庫、多媒體數據、傳感器數據、人工衆包數據等。

信息表示:

利用計算機語言來描述人腦或者文本中的知識,來幫助進行下一步推理。

應用到的技術手段,例如文本數據,一般會使用nlp天然語言處理技術,進行實體識別、實體連接、關係抽取、事件抽取等從文本中抽取出知識,在利用RDF把三元組做爲基本的數據模型。

基本邏輯包含了實體、實體屬性、實體之間的關係。

信息抽取:

結構化和文本化的數據是目前主要使用的數據形式,從結構化數據中抽取信息通常使用現有的D2R工具,如D2RServer。

從文本中抽取信息主要經歷實體識別和關係抽取兩部分,關係抽取通常可使用基於特徵模版的方法(人工打標籤),或者機器學習的方式進行抽取。

信息融合:

一般本身的數據源或者知識庫不足以構建解決實際問題時,會去從第三方的知識庫或者收集其餘渠道的結構化數據進行融合,主要包含了模式層的融合和數據層的融合,核心解決的問題是避免實體與關係的衝突,或者相同實體含義但使用的不一樣的數據標識符,形成了沒必要要冗餘。

知識圖譜補全與推理:

此環節核心是依賴於補全算法去實現,一種方法是基於本體推理的補全方法,另外一種是基於圖結構和關係路徑進行補全。

一般推理和補全是一個相互協做的過程,經過推理髮現有問題的地方,進行補全。

應用與決策:

語義檢索、智能問答、智能決策系統、推薦系統。

下面經過具體示例來理解知識圖譜的構建流程。

3 應用實例:電商知識圖譜的構建

在目前電商的交易場景中,交易規模巨大,不只涉及了線上、線下交易場景,還有各類新零售、多語言平臺、線上線下相結合的各類複雜的購物場景,企業對數據的聯通需求愈來愈強烈,所以電商的知識圖譜對於行業而言變得很重要。

電商的知識圖譜主要是圍繞商品構建的,基於人、貨、場的主要框架進行拆解。

在電商這個領域下進行知識表示時,首先須要確認共涉及多少個一級本體、二級本體,電商知識主要的獲取來源是知識衆包,核心涉及了本體的設計,圍繞商品自己的屬性、消費者的需求、平臺運營管理的機制。在不一樣平臺和渠道的數據採集工具不同,採集上來的數據的存儲形式也會略有差別,例如電商的賣點、詳情、圖片、評價,輿情信息中的品牌和口碑,涉及了大量的文本數據、圖像數據。在進行知識表示時涉及了各類NLP、CNN技術。要求知識命名識別系統具備大規模實體類型識別的能力。而且把識別出的主體與知識圖譜進行連接。以阿里電商認知圖譜的示例主要包括:

商品域:

型號、尺碼、大小、顏色、口感、材質..

用戶域:

性別、年齡、風格、品牌、購買力...

LBS域:購物場景、羣體、泛品類……

AI產品經理的入門必修課(4)——知識圖譜

而後須要對實體進行描述,除了基礎的屬性及屬性值之外,須要經過實體標籤進行實現,大部分實體標籤變化比較快,一般是經過知識推理獲取的。例如商品的標籤中,能夠經過材料的配比或者國家行業標準進行處理。例如:

低糖:

食品每100克或100毫升的糖含量不能超過5克;

無糖:

食品每100克或100毫升糖含量不能超過0.5克

經過知識推理,能夠根據商品配料表中的數據轉化爲「無糖」、「低糖」的知識點,從而將數據轉化爲知識標籤。大部分信息在提取以後會比較零散,須要將已創建好關係的知識庫中或者第三方的知識庫來源的信息作融合,以及實體對齊、實體消歧義的技術操做。

實體對齊:

例如迪奧是一個品牌名,DIOR爲同一個品牌的英文名,雖然是同一個品牌因爲文本不同,會被計算機識別爲兩個實體,所以咱們須要將相似的內容對齊和統一化。

實體消歧:

例如蘋果是一種水果,在某些上下文中它可能表達蘋果手機,這時須要根據上下文進行實體消歧。

完成上述操做後,纔會進行實體的抽取,實體抽取的過程當中會利用算法進行實體間的類似性計算,主要依賴於本體庫中創建的本體之間的關係,進行推理和補齊。例如不一樣人買了同一件商品,或買了類似商品,該以怎樣的節點進行知識圖譜的關聯。能夠採用自動化抽取或者人工抽取的方式進行實現,自動化抽取能夠大批量任務,以及在多源異構的數據處理中具備極大優點。但對於複雜場景的抽取和識別依舊須要人工的介入。

在初步的知識圖譜構建成功以後,須要進行知識庫的質量評估,當部分關係沒法經過知識庫進行抽取時,須要進行知識推理算法及知識圖譜補全算法進行關係鏈路的優化。目前市面上已有部分技術上的解決方案,感興趣童鞋能夠查閱更多資料進行擴展。

數據人交流和學習的社區,關注咱們,掌握專業數據知識、結識更多的數據小夥伴。

帶你探索數據的神奇奧祕

相關文章
相關標籤/搜索