BeautifulSoup相關概念總結
:http://www.javashuo.com/article/p-dvrxkzjp-hs.htmlcss
css基礎以及選擇器基礎
:http://www.javashuo.com/article/p-fgbqhffs-eu.htmlhtml
css選擇器進階
:http://www.javashuo.com/article/p-tocyicjc-er.htmlpython
解析頁面code
提取元素xml
主要有4大元素htm
元素操做對象
使用
re_lxml.find('css選擇器')blog
重點
只選擇第一個出現的文檔
使用
re_lxml.select('css選擇器')字符串
重點
會把知足CSS選擇器全部內容都顯示出來,輸出爲列表的形式
使用
re_lxml.標籤名.標籤名而不是用css選擇器
重點
只選擇第一個出現的
會把知足CSS選擇器全部內容都顯示出來,輸出爲列表的形式
可是有幾個優勢
使用多個指定名字的參數能夠同時過濾tag的多個屬性
rp_lxml.find_all('屬性1','屬性2')
要某個標籤不要其中某個屬性
rp_lxml.find_all('標籤名',class_='屬性')
定義一個字典參數來搜索包含特殊屬性的tag
rp_lxml.find_all(attrs={'屬性名':'屬性值'})
tap.標籤p.['屬性名']:標籤內標籤p的指定屬性屬性
tap.get('屬性名'):標籤的指定屬性對應的內容
tap.標籤p.get('屬性名'):標籤內標籤p的指定屬性屬性
NavigableString.string便可獲取標籤內部的文字
他是一種特殊的Tap全部tap能夠的操做他均可以
rp_lxml.attrs爲{}
rp_lxml.name爲[document]
剩下的能夠去嘗試不過我的感受沒啥意義
我以爲吧一個能夠用用就是判斷他是否是這個數據類型
print(type(未知對象.string))看他是否是comment對象