python學習第十五章——python和萬維網

1.屏幕抓取:可以使用urllib獲取網頁的HTML源代碼,然後使用正則表達式提取信息即可。下面是一個例子: 這種方法有至少3個缺點:如果HTML代碼比較複雜,則表達式會亂七八糟不可維護。程序對於CDATA部分和字符實體(比如&)之類的HTML特性是無法處理的。正則表達式被HTML源代碼約束,而不是取決於更抽象的結構,這就意味着網頁結構中很小的改變就會導致程序中斷。接下來會有兩種方案解決這
相關文章
相關標籤/搜索