Python爬蟲之自制英漢字典

  最近在微信公衆號中看到有人用Python作了一個爬蟲,能夠將輸入的英語單詞翻譯成中文,或者把中文詞語翻譯成英語單詞。筆者看到了,以爲還蠻有意思的,所以,決定本身也寫一個玩玩~~
  首先咱們的爬蟲要能將英語單詞翻譯成中文,所以,咱們就須要一個網站幫助咱們作這件事情。因而,咱們選定有道詞典,網址爲: http://dict.youdao.com/ 。在該網頁中咱們輸入單詞nice,就會出來這個單詞的意思,以下圖:
python


有道詞典

  針對上述過程,對於熟悉爬蟲的讀者來講,是不難完成將輸入的單詞的中文意思從網頁中提取出來的。筆者的代碼以下:

import requests
from bs4 import BeautifulSoup

# get word from Command line
word = input("Enter a word (enter 'q' to exit): ")

# main body
while word != 'q': # 'q' to exit
    try:
        # 利用GET獲取輸入單詞的網頁信息
        r = requests.get(url='http://dict.youdao.com/w/%s/#keyfrom=dict2.top'%word)
        # 利用BeautifulSoup將獲取到的文本解析成HTML
        soup = BeautifulSoup(r.text, "lxml")
        # 獲取字典的標籤內容
        s = soup.find(class_='trans-container')('ul')[0]('li')
        # 輸出字典的具體內容
        for item in s:
            if item.text:
                print(item.text)
        print('='*40+'\n')
    except Exception:
        print("Sorry, there is a error!\n")
    finally:
        word = input( "Enter a word (enter 'q' to exit): ")

運行上述Python代碼,結果以下:
web


簡單功能的實現

  上述過程無疑是簡單的,下面,咱們增長一些新的功能,以下:

  1. 將Python代碼打包成exe文件;
  2. 在CMD中輸出單詞的中文意思時,輸出爲彩色文字。

  利用ctypes模塊,咱們能夠對Windows系統進行簡單操做,而利用pyinstaller模塊,咱們能夠將本身的Python代碼打包成exe文件。
  改修的Python代碼以下:微信

import requests
from bs4 import BeautifulSoup
import random
import ctypes

STD_INPUT_HANDLE = -10
STD_OUTPUT_HANDLE = -11
STD_ERROR_HANDLE = -12

FOREGROUND_DARKBLUE = 0x01  # 暗藍色
FOREGROUND_DARKGREEN = 0x02  # 暗綠色
FOREGROUND_DARKSKYBLUE = 0x03  # 暗天藍色
FOREGROUND_DARKRED = 0x04  # 暗紅色
FOREGROUND_DARKPINK = 0x05  # 暗粉紅色
FOREGROUND_DARKYELLOW = 0x06  # 暗黃色
FOREGROUND_DARKWHITE = 0x07  # 暗白色
FOREGROUND_DARKGRAY = 0x08  # 暗灰色
FOREGROUND_BLUE = 0x09  # 藍色
FOREGROUND_GREEN = 0x0a  # 綠色
FOREGROUND_SKYBLUE = 0x0b  # 天藍色
FOREGROUND_RED = 0x0c  # 紅色
FOREGROUND_PINK = 0x0d  # 粉紅色
FOREGROUND_YELLOW = 0x0e  # 黃色
FOREGROUND_WHITE = 0x0f  # 白色

std_out_handle = ctypes.windll.kernel32.GetStdHandle(STD_OUTPUT_HANDLE)

# 設置文字顏色
def set_cmd_text_color(color, handle=std_out_handle):
    Bool = ctypes.windll.kernel32.SetConsoleTextAttribute(handle, color)
    return Bool

# 重置文字顏色爲白色
def resetColor():
    set_cmd_text_color(FOREGROUND_DARKWHITE)

# 以指定顏色輸出文字
def cprint(mess, color):
    color_dict = {'暗藍色': FOREGROUND_DARKBLUE,
                  '暗綠色': FOREGROUND_DARKGREEN,
                  '暗天藍色': FOREGROUND_DARKSKYBLUE,
                  '暗紅色': FOREGROUND_DARKRED,
                  '暗粉紅色': FOREGROUND_DARKPINK,
                  '暗黃色': FOREGROUND_DARKYELLOW,
                  '暗白色': FOREGROUND_DARKWHITE,
                  '暗灰色': FOREGROUND_DARKGRAY,
                  '藍色': FOREGROUND_BLUE,
                  '綠色': FOREGROUND_GREEN,
                  '天藍色': FOREGROUND_SKYBLUE,
                  '紅色': FOREGROUND_RED,
                  '粉紅色': FOREGROUND_PINK,
                  '黃色': FOREGROUND_YELLOW,
                  '白色': FOREGROUND_WHITE
                 }
    set_cmd_text_color(color_dict[color])
    print(mess)
    resetColor()

# 顏色列表
color_list = ['暗藍色','暗綠色','暗天藍色','暗紅色','暗粉紅色','暗黃色','暗白色','暗灰色',\
              '藍色','綠色','天藍色','紅色','粉紅色','黃色','白色']

# print information of this application
print('#'*60)
print('This app is used for translating English word to Chineses!')
print('#'*60+'\n')

# get word from Command line
word = input("Enter a word (enter 'q' to exit): ")

# main body
while word != 'q': # 'q' to exit
    try:
        # 利用GET獲取輸入單詞的網頁信息
        r = requests.get(url='http://dict.youdao.com/w/%s/#keyfrom=dict2.top'%word)
        # 利用BeautifulSoup將獲取到的文本解析成HTML
        soup = BeautifulSoup(r.text, "lxml")
        # 獲取字典的標籤內容
        s = soup.find(class_='trans-container')('ul')[0]('li')
        # 隨機選擇輸出的顏色
        random.shuffle(color_list)
        # 輸出字典的具體內容
        for item in s:
            if item.text:
                cprint(item.text, color_list[0])
        print('='*40+'\n')
    except Exception:
        print("Sorry, there is a error!\n")
    finally:
        word = input( "Enter a word (enter 'q' to exit): ")

利用pyinstaller模塊,將上述程序打包爲exe文件。好比咱們剛纔的Python代碼的文件名爲English_2_Chinese_dict.py,位於E盤下的eng_2_chn文件夾下,咱們能夠在CMD中先切換到E盤下eng_2_chn文件夾,再輸入如下命令:app

pyinstaller -F English_2_Chinese_dict.py

這樣就會生成一些文件,以下圖:
dom


生成exe文件

咱們想要的生成的exe文件位於dist文件夾下,運行該exe文件,並測試,以下:

exe文件測試

  這樣咱們也就實現了上述新增的功能,可以更加方便地運行咱們的程序。怎麼樣,是否是以爲Python爬蟲酷酷的?不知做爲新手的你,有沒有一點心動呢?趕忙學起來吧,哈哈~~
  本次分享到此結束,若有任何問題,請在下面評論哦~~

注意:本人現已開通兩個微信公衆號: 由於Python(微信號爲:python_math)以及輕鬆學會Python爬蟲(微信號爲:easy_web_scrape), 歡迎你們關注哦~~測試

相關文章
相關標籤/搜索