Segmentfault的熱門標籤，可視化展現？

時間 2019-12-05

標籤 segmentfault 熱門標籤可視化展現简体版

原文原文鏈接

結論

JavaScript居首位，HTML5緊隨其後，Python位列第三。javascript

注：數據來源於569頁標籤頁面的11,380 條記錄html

涉及知識點

python爬蟲前端
- requests庫
- BeautifulSoup
elasticsearch儲存java
```
- 批量bulk數據
```
kibana可視化python
```
- 作圖展現
```

實現步驟

數據採集
批量入庫
繪製圖表

緣起

瀏覽segmentfault時，看到熱門標籤，我就是思考了一下這個熱門到底有多熱。因而點擊到全部標籤查看，發現只能肉眼一個個對比，F12看了下，中規中矩的html文本，requests+bs4能夠處理，乾脆我爬一下看看吧。。。額，手頭正好有一套elasticsearch+kibana的環境，我導進去看吧 emmmm....mysql

數據採集

使用python爬取標籤信息，包括：tag名稱，tag的解釋說明，tag的url，tag的關注人數
嗯，夠簡單，我喜歡。linux

def get_tag(page_num):
    result = requests.get('http://segmentfault.com/tags/all?page=%s'%page_num)
    return result.content

不得不說，segmentfault對爬蟲是真正的友好啊，headers什麼的都不用填寫，直接簡單粗暴。熟悉python的同窗對這種操做，恐怕就是跟 print "Hello World"差很少吧。。ios

def process_tag(content):
    soup = BeautifulSoup(content,'lxml')
    sections = soup.find_all('section')
    info = {}
    values = []
    for section in sections:
        tag = section.div.h2.a.text
        tag_instruction = section.div.p.text
        follows = section.div.div.strong.text
        url = 'https://segmentfault.com'+section.div.h2.a['href']
        info['url'] = urllib.unquote(url)
        info['tag'] = tag
        info['tag_instruction'] = tag_instruction
        info['follows'] = int(follows)
        deepcopy_info = copy.deepcopy(info)
        values.append({
            "_index": 'segmentfault',
            "_type": 'tag',
            # "_op_type": "create",
            "_source": deepcopy_info
        })
    return values

上面一段代碼仍是有些須要注意的地方。git

BeautifulSoup的使用，tag的獲取，節點屬性等等，認真閱讀文檔我相信你們都沒有問題。
列表和字典copy的問題，這裏面要注意python的copy並不會爲此開闢新的內存，你能夠想象爲windows下的快捷方式，或者linux下的軟連接。因此此處咱們使用deepcopy,使之開闢新的內存存儲這個copy.
bulk數據，這個咱們接下來講明。

批量入庫

由於手頭有elasticsearch因此就導入了進來，關於elasticsearch的安裝和使用，社區裏也有資源，有空我也會整理一篇文章。程序員

python比較友好的地方就是各類包很是的全面，elasticsearch這個庫提供了一套API接口，用來增刪改查。這裏說一下，我有一個夢想，就是但願從業環境更加的純粹，JD上的要求不要這麼過度，當面試官問我問題的時候，我能夠微笑着告訴他，沒看過源碼，對底層架構不熟悉，對原理的瞭解來自於各個博客的東拼西湊，熟練運用各類API接口，可是你不要讓我說出來幾個，由於我須要看文檔。而後面試官微笑着說，我很滿意，給你2K，若是接受明天能夠來擰螺絲。

咳咳咳，言歸正傳。
elasticsearch的插入數據有兩種方式：