1、前言html
本文是《知識圖譜完整項目實戰(附源碼)》系列博文的第3篇:汽車知識圖譜系統架構設計,主要介紹汽車領域知識圖譜系統的整體架構設計和關鍵技術。python
知識圖譜的學習是一個基礎到實戰,從入門到精通的一個逐漸深刻的、漸進式的過程。在這個過程當中,一個完整的項目,起到的做用每每是對過往所學所有知識的串聯和融合。只有通過一個完整項目的實踐,才能真正把所學的、離散的、點狀的知識點融合到一塊兒,從而造成理論到實戰的轉變。基於這樣的一個緣由考慮,結合自身工程實踐的過程,纔有了這樣一個課程,但願可以對渴望知識圖譜能力進階的人有所裨益。數據庫
2、正文網絡
2.1 汽車知識圖譜整體設計架構
汽車知識圖譜的系統架構能夠劃分爲五個層次:數據源、ETL知識抽取層、數據模型層、業務邏輯層、知識應用層。這裏面層次的劃分實際上是在參考傳統的數據系統建設的思路。app
2.2 汽車知識圖譜關鍵技術python爬蟲
知識圖譜的關鍵技術能夠從知識的來源進行區分,包括知識獲取對應網絡爬蟲,ETL工具;知識存儲對應圖數據庫;知識圖譜可視化對應數據可視化分析工具等。框架
2.2.1 圖數據庫scrapy
Neo4j是圖數據庫領域的王者,連續多年在DB排行中處於第一,具備成熟的文檔和穩定的系統,同時包括開源版本和企業版本,是構建知識圖譜的首選。工具
Apache Jena是RDF和OWL的開發框架,同時提供了Fusike和TDB的數據訪問和存儲支持,是基於本體建模的最佳選擇。
2.2.2 Python爬蟲
python爬蟲框架中,最爲成熟和完整的框架是scrapy,目前爲止是基於pyton構建網絡爬蟲的最佳選擇。其工做流程和運行機制以下圖所示:
3、未完待續
本文是《知識圖譜完整項目實戰(附源碼)》系列博文的第3篇:汽車知識圖譜系統架構設計,主要介紹汽車領域知識圖譜系統的整體架構設計和關鍵技術。配套視頻內容已同步發佈在網易雲課堂《知識圖譜完整項目實戰(附源碼)》,敬請關注。知識圖譜交流羣:149933712。