閒扯皮
昨晚給高中的妹妹微信講題,函數題,小姑娘都十二點了還迷迷糊糊。今天凌晨三點多,被連續的警報聲給驚醒了,覺得上海拉了防空警報,難不成地震,空襲?難道是樓下那個車主車子被堵了,長按喇叭?開窗看看,好像都不是。好鬼畜的警報聲,家裏也沒裝報警器啊,莫不成家裏煤氣漏了?起牀循聲而查,報警聲的確在廚房,聽起來也像屋外,開門也沒發現啥異樣,莫不成真的是煤氣表?下面開始排查,開水,斷水,發現沒啥異樣。打開煤氣竈,關閉煤氣,也沒啥。全屋斷電也沒啥,全屋都斷電了只能說報警聲的確來自煤氣表。翻出燃氣公司的客服電話,那頭真的是個妹子,電話裏報了下狀況和地址,燃氣公司說四個小時內給回訪。半個小時後警報聲自動消失了,一個小時後門鈴聲響,維修工拿着測氣表一通測試,反饋結果說煤氣表是新的,也沒有明處漏氣,讓我簽了字,就撤了。打開窗,埋頭繼續睡了。覆盤發現本身犯了個大錯,當時不該該打開煤氣竈和熱水器測試的燃氣的,萬一煤氣真的泄露,後果,今天估計醫院涼涼了,不對應該是焦焦了。家庭安全不可大意,仍是太年輕了。早上6點多樓上裝修的工人拆牆砸牆的聲音,不勝其擾,早點去公司敲代碼吧。先是覆盤了一下昨天爬豆瓣的一些小問題,順帶簡單解決了。不閒扯了,代碼覆盤Python爬豆瓣Top250 的信息入庫。
案例一嘗試了爬圖以後的快感,案例二嘗試了白傻呆的數據庫操做,案例三就二者整合一下。原由是昨天剛在博客園看到 一篇爬豆瓣的文章 想着恰好能把文章中爬到的信息入數據庫,若是在用java操做數據庫html
豈不美哉,原諒我習慣於javaWeb開發,由於目前只會java啊。昨天用的Python2.7着實不爽,裝了3.7版本。java
效果預覽:python
效果一:項目結構mysql
效果二:數據庫信息git
效果三:本地存儲github
思路:第一步:爬取信息 第二步:信息解析 第三步:讀寫文件 第四步:解析數據入庫正則表達式
準備工做sql
根據解析字段創建對應的數據庫,這點由於 博客:一塊兒學爬蟲——經過爬取豆瓣電影top250學習requests庫的使用 中已經能夠看到爬取後解析相關字段,可能有些字段顆粒度不夠,在原有基礎上再切割切割就ok啦。數據庫
數據庫鏈接配置json
dbMysqlConfig.cnf
[dbMysql]
host = localhost
port = 3306
user = root
password = root
db_name = dou_film
封裝的DBUtils,中間有些小白的錯,在裏面栽了幾個坑:事務,提交,主鍵自增啥的。其實就用了一個insert()方法,其餘方法的正確性可忽略。
mysqlDBUtils.py
#!/usr/bin/python3 # -*- coding:utf-8 -*- import pymysql, os, configparser from pymysql.cursors import DictCursor from DBUtils.PooledDB import PooledDB class Config(object): """ # Config().get_content("user_information") 配置文件裏面的參數 [dbMysql] host = 192.168.1.101 port = 3306 user = root password = python123 """ def __init__(self, config_filename="dbMysqlConfig.cnf"): file_path = os.path.join(os.path.dirname(__file__), config_filename) self.cf = configparser.ConfigParser() self.cf.read(file_path) def get_sections(self): return self.cf.sections() def get_options(self, section): return self.cf.options(section) def get_content(self, section): result = {} for option in self.get_options(section): value = self.cf.get(section, option) result[option] = int(value) if value.isdigit() else value return result class BasePymysqlPool(object): def __init__(self, host, port, user, password, db_name): self.db_host = host self.db_port = int(port) self.user = user self.password = str(password) self.db = db_name self.conn = None self.cursor = None class MyPymysqlPool(BasePymysqlPool): """ MYSQL數據庫對象,負責產生數據庫鏈接 , 此類中的鏈接採用鏈接池實現 獲取鏈接對象:conn = Mysql.getConn() 釋放鏈接對象;conn.close()或del conn """ # 鏈接池對象 __pool = None def __init__(self, conf_name=None): self.conf = Config().get_content(conf_name) super(MyPymysqlPool, self).__init__(**self.conf) # 數據庫構造函數,從鏈接池中取出鏈接,並生成操做遊標 self._conn = self.__getConn() self._cursor = self._conn.cursor() def __getConn(self): """ @summary: 靜態方法,從鏈接池中取出鏈接 @return MySQLdb.connection """ if MyPymysqlPool.__pool is None: __pool = PooledDB(creator=pymysql, mincached=1, maxcached=20, host=self.db_host, port=self.db_port, user=self.user, passwd=self.password, db=self.db, use_unicode=False, charset="utf8", cursorclass=DictCursor) return __pool.connection() def getAll(self, sql, param=None): """ @summary: 執行查詢,並取出全部結果集 @param sql:查詢SQL,若是有查詢條件,請只指定條件列表,並將條件值使用參數[param]傳遞進來 @param param: 可選參數,條件列表值(元組/列表) @return: result list(字典對象)/boolean 查詢到的結果集 """ if param is None: count = self._cursor.execute(sql) else: count = self._cursor.execute(sql, param) if count > 0: result = self._cursor.fetchall() else: result = False return result def getOne(self, sql, param=None): """ @summary: 執行查詢,並取出第一條 @param sql:查詢SQL,若是有查詢條件,請只指定條件列表,並將條件值使用參數[param]傳遞進來 @param param: 可選參數,條件列表值(元組/列表) @return: result list/boolean 查詢到的結果集 """ if param is None: count = self._cursor.execute(sql) else: count = self._cursor.execute(sql, param) if count > 0: result = self._cursor.fetchone() else: result = False return result def getMany(self, sql, num, param=None): """ @summary: 執行查詢,並取出num條結果 @param sql:查詢SQL,若是有查詢條件,請只指定條件列表,並將條件值使用參數[param]傳遞進來 @param num:取得的結果條數 @param param: 可選參數,條件列表值(元組/列表) @return: result list/boolean 查詢到的結果集 """ if param is None: count = self._cursor.execute(sql) else: count = self._cursor.execute(sql, param) if count > 0: result = self._cursor.fetchmany(num) else: result = False return result def insertMany(self, sql, values): """ @summary: 向數據表插入多條記錄 @param sql:要插入的SQL格式 @param values:要插入的記錄數據tuple(tuple)/list[list] @return: count 受影響的行數 """ count = self._cursor.executemany(sql, values) return count def __query(self, sql, param=None): if param is None: count = self._cursor.execute(sql) else: count = self._cursor.execute(sql, param) return count def update(self, sql, param=None): """ @summary: 更新數據表記錄 @param sql: SQL格式及條件,使用(%s,%s) @param param: 要更新的 值 tuple/list @return: count 受影響的行數 """ return self.__query(sql, param) def insert(self, sql, param=None): """ @summary: 更新數據表記錄 @param sql: SQL格式及條件,使用(%s,%s) @param param: 要更新的 值 tuple/list @return: count 受影響的行數 """ num = self._cursor.execute(sql) self._conn.commit() return num def delete(self, sql, param=None): """ @summary: 刪除數據表記錄 @param sql: SQL格式及條件,使用(%s,%s) @param param: 要刪除的條件 值 tuple/list @return: count 受影響的行數 """ return self.__query(sql, param) def begin(self): """ @summary: 開啓事務 """ self._conn.autocommit(0) def end(self, option='commit'): """ @summary: 結束事務 """ if option == 'commit': self._conn.commit() else: self._conn.rollback() def dispose(self, isEnd=1): """ @summary: 釋放鏈接池資源 """ if isEnd == 1: self.end('commit') else: self.end('rollback') self._cursor.close() self._conn.close() if __name__ == '__main__': mysql = MyPymysqlPool("dbMysql") sqlAll = "select * from seckill;" result = mysql.getAll(sqlAll) print(result) # 釋放資源 mysql.dispose()
爬豆瓣頁面數據解析,比較佩服的是裏面爬取用的是正則表達式去匹配的,這點只能看個門道,平時用正則表達式都是百度匹配的,測試ok就用了。對原有豆瓣作了一些改動,使其合乎個人想法,雖然想法之後回頭看也會諸多問題,先搞出來再說吧。
其實導包,類引入,爲難了本身一下下。其餘都還算順利。
douFilm.py
#coding=utf-8 import requests import re import json import importlib import os dbUtils = importlib.import_module('mysqlDBUtils') # 定義圖片存儲位置 global save_path save_path = 'D:/doubanfilm' # 建立文件夾 def createFile(file_path): if os.path.exists(file_path) is False: os.makedirs(file_path) # 切換路徑至上面建立的文件夾 os.chdir(file_path) def parse_html(url): headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"} response = requests.get(url, headers=headers) text = response.text regix = '<div class="pic">.*?<em class="">(.*?)</em>.*?<img.*?src="(.*?)" class="">.*?div class="info.*?class="hd".*?class="title">(.*?)</span>.*?class="other">' \ '(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?)<br>(.*?)</p>.*?class="star.*?<span class="(.*?)"></span>.*?' \ 'span class="rating_num".*?average">(.*?)</span>' results = re.findall(regix, text, re.S) mysql = dbUtils.MyPymysqlPool("dbMysql") for item in results: filepath = down_image(item[1],headers = headers) print("文件路徑"+filepath) print(item) # item[2] 電影主流名字 item[3] 電影別名 film_name = item[2] + ' ' + re.sub(' ','',item[3]) info = re.sub(' ','',item[4].strip()).split(":") # 導演 director = info[1].split('主')[0] # 主演 print(len(info)) if len(info) > 2: actor = info[2] else: actor = "..." score_mark = star_transfor(item[6].strip()) + '/' + item[7] + '分' rank_num = item[0] print(film_name) # 寫sql 語句 sql = 'insert into film (film_name,director,actor,score_mark,rank_num,filepath) value("' + film_name + '","' + director + '","' + actor + '","' + score_mark + '","' + rank_num + '","'+filepath+'")' # 執行插入 result = mysql.insert(sql) yield { '電影名稱' : film_name, '導演和演員' : director, '評分': score_mark, '排名' : rank_num } mysql.dispose() def main(): for offset in range(0, 250, 25): url = 'https://movie.douban.com/top250?start=' + str(offset) +'&filter=' for item in parse_html(url): # 將每一個條目寫入txt write_movies_file(item) def write_movies_file(str): with open('douban_film.txt','a',encoding='utf-8') as f: f.write(json.dumps(str,ensure_ascii=False) + '\n') def down_image(url,headers): r = requests.get(url,headers = headers) createFile(save_path) filepath = save_path +'/'+ re.search('/public/(.*?)$', url, re.S).group(1) print("下載的海報名字"+filepath) with open(filepath,'wb') as f: f.write(r.content) return filepath def star_transfor(str): if str == 'rating5-t': return '五星' elif str == 'rating45-t' : return '四星半' elif str == 'rating4-t': return '四星' elif str == 'rating35-t' : return '三星半' elif str == 'rating3-t': return '三星' elif str == 'rating25-t': return '兩星半' elif str == 'rating2-t': return '兩星' elif str == 'rating15-t': return '一星半' elif str == 'rating1-t': return '一星' else: return '無星' if __name__ == '__main__': main()
一切還算順利,註釋都在代碼裏寫明瞭,應該比較好理解。運行的時候,直接運行douFilm.py就ok了。項目很簡單 gitHub地址:https://github.com/islowcity/doufilm.git