你們一塊兒討論常見的數據採集技術

時間 2020-01-29

原文原文鏈接

小編總結了幾種常見的數據採集技術供你們參考，主要分爲如下幾類：
CS軟件數據採集技術。
C/S架構軟件屬於比較老的架構，能採集這種軟件數據的產品比較少。
1、常見的是博爲小幫軟件機器人，在不須要軟件廠商配合的狀況下，基於「」所見即所得「的方式採集界面上的數據。輸出的結果是結構化的數據庫或者excel表。若是隻須要業務數據的話，或者廠商倒閉，數據庫分析困難的狀況下，這個工具能夠採集數據，尤爲是詳情頁數據的採集功能比較有特點。
值得一提的是，這個產品的使用門檻很低，沒有 IT背景的業務同窗也能使用，大大拓展了使用的人羣。
2、網絡數據採集API。經過網絡爬蟲和一些網站平臺提供的公共API(如Twitter和新浪微博API)等方式從網站上獲取數據。這樣就能夠將非結構化數據和半結構化數據的網頁數據從網頁中提取出來。
互聯網的網頁大數據採集和處理的總體過程包含四個主要模塊：web爬蟲（Spider）、數據處理（Data Process）、爬取URL隊列（URL Queue）和數據。
數據庫方式
兩個系統分別有各自的數據庫，同類型的數據庫之間是比較方便的：
1）若是兩個數據庫在同一個服務器上，只要用戶名設置的沒有問題，就能夠直接相互訪問，須要在from後將其數據庫名稱及表的架構全部者帶上便可。 select * from DATABASE1.dbo.table1
2）若是兩個系統的數據庫不在一個服務器上，那麼建議採用連接服務器的形式來處理，或者使用openset和opendatasource的方式，這個須要對數據庫的訪問進行外圍服務器的配置。
不一樣類型的數據庫之間的鏈接就比較麻煩，須要作不少設置才能生效，這裏不作詳細說明。
開放數據庫方式須要協調各個軟件廠商開放數據庫，其難度很大；一個平臺若是要同時鏈接不少個軟件廠商的數據庫，而且實時都在獲取數據，這對平臺自己的性能也是個巨大的挑戰。
歡迎你們一塊兒討論。web