本人業餘寫python爬蟲、python小工具已有兩年有餘了,在這裏推薦一些學習時以爲比較好的視頻教程、文章教程等,純屬我的建議,不喜勿噴css
自學最好的仍是動手操做,想用什麼找什麼,語法文章推薦Python3菜鳥教程 視頻教學中國大學MOOC,我的比較偏好嵩天老師的課程,有不少課程涉及到了Python語言程序設計、Python網絡爬蟲與信息提取、Python數據分析與展現、Python科學計算三維可視化等,能夠說很全嵩天老師全部課程 ,其次視頻推薦莫煩Python,裏面有文章介紹和視頻介紹,別人偏向與文章介紹,這樣更快更節省時間html
介紹一下爬蟲涉及到的第三方庫及其相關文檔python
數據分析的第三方庫介紹mysql
附上github上python不一樣用途的第三方庫的總價awesome-pythongit
表達式 說明
* 選擇全部節點
#container 選擇id爲container的節點
.container 選取全部class包含container的節點
li a 選取全部li下的全部a節點
ul + p 選擇ul後面的第一個p元素
div#container > ul 選取id爲container的div的第一個ul子元素
ul ~ p 選取與ul相鄰的全部p元素
a[title] 選取全部有title屬性的a元素
a[href="http://baidu.com"] 選取全部href屬性爲http://baidu.com值的a元素
a[href*="baidu"] 選取全部href屬性包含baidu的a元素
a[href^="http"] 選取全部href屬性值以http開頭的a元素
a[href$=".jpg"] 選取全部href屬性值以.jpg結尾的a元素
input[type=radio]:checked 選擇選中的radio的元素
div:not(#container) 選取全部id非container的div屬性
li:nth-child(3) 選取第三個li元素
tr:nth-child(2n) 第偶數個tr
[css視頻介紹](http://www.w3school.com.cn/css/css_selector_type.asp)
複製代碼
字符 匹配
. 任意字符(除了\n)
[...] 字符集
\d/\D 數字/非數字
\s/\S 空白/非空白
\w/\W 單詞字符[a-zA-Z0-9]/非單詞字符
* 前一個字符0次或者無限次
+ 前一個字符1次或者無限次
? 前一個字符0次或者一次
{m}/{m,n} 前一個字符m次或者n次
*?/+?/?? 非貪婪(儘量少匹配字符)
^ 字符串開頭
$ 字符串結尾
\A/\Z 指定的字符串必須出如今開頭/結尾
| 匹配左右任意一個表達式
(ab) 括號中表達式做爲一個分組
\<number> 引用編號爲num的分組匹配到的字符串
(?P<name>) 分組起一個別名
(?P=name) 引用別名爲name的分組匹配字符串
[\u4E00-\u9FA5] 一個漢字
複製代碼
表達式 說明
article 選取全部article元素的全部子節點
/article 選取跟元素article
article/a 選取全部屬於article的子元素的a元素
//div 選取全部div子元素(不論出如今文檔任何地方)
article//div 選取全部輸入article元素的後代的div元素,無論它出如今article之下的任何位置
//@class 選取全部名爲class的屬性
/article/div[1] 選取屬於article子元素的第一個div元素
/article/div[last()] 選取輸入article子元素的最後一個div元素
/article/div[last()-1] 選取屬於article子元素的倒數第二個div元素
//div[@lang] 選取全部擁有lang屬性的div元素
//div[@lang='eng] 選取全部lang屬性爲eng的div元素 /div/* 選取屬於div元素的全部子節點 //* 選取全部元素 //div[@*] 選取全部帶屬性的title元素 //div/a|//div/p 選取全部div元素的a和p元素 //span|//ul 選取文檔中的span和ul元素 article/div/p|//span 選取全部屬於article元素的div元素的p元素以及文檔中全部的span元素 複製代碼