xpath獲取標籤屬性亂碼解決

時間 2019-11-11

標籤 xpath 獲取標籤屬性亂碼解決简体版

原文原文鏈接

問題在於解碼和編碼
修改前的代碼安全

#-*- coding: utf-8 -*-

import requests
from lxml import etree

url = 'http://top.baidu.com/buzz?b=1&fr=20811'
response = requests.get(url)
r = etree.HTML(response.text)
item_list = r.xpath("//table[@class='list-table']//tr")
# print(item_list)
for i in item_list[1:]:
    first_name = i.xpath("./td[@class='first']/span")
    keyword_name = i.xpath("./td[@class='keyword']/a[@class='list-title']")
    try:
        print(first_name[0].text)
        print(keyword_name[0].text)
    except:
        pass
    print('***************************************************************')

打印輸出中文字所有爲亂碼編碼

1
ÂêÉ¯Ä¸Ç×ÀÏ¹«³ö¹ì

2
É±ÓãµÜ¸¸×Ó´òÈËurl

3
·ÉÐÐÔ±Íü´øÔ¿³×spa

4
¿ìÂ¹¸ß¹Ü±»ÅÐÎÞÆÚcode

5
¶«º£º½¿ÕÔÙÏÖÎ¥¹æxml

6
ÏÈ·æ´´Ê¼ÈËÈ¥ÊÀutf-8

7
öª·æ·ñÈÏÇúÆæÖÂ°©get

8
¹Â´æ6É±³Ô¼¦requests

9
IG 2:0 OMGit

10
Ð¡S°®Çé±£ÏÊÊõ

11
ÖÐ¹ú0-2º«¹ú

12
Û¬ÁÖ¼¤¶¯Å³â²ÃÅÐ

13
µÇ±´À³ÓëÕÅÁ¦ºÏÓ°

14
¼ÃÄÏÎ¥½¨±ðÊû±»²ð

15
ÎÞÏÞ¼« ÐÄ¼¡Ëðº¦

16
Ã¢¹û»ØÓ¦Áõ»¶ÍÂ²Û

17
ÎâÒà·² 100Íò

18
Àî³ÐîçÎªÅ®¶ùÇìÉú

19
Ä§µÀ×æÊ¦±»Ëø

20
ÇÐ¶ûÎ÷×â½èÒÁ¹ÏÒò

21
±´¿ËººÄ·°®È®

22
Æ»¹ûÊÐÖµ´óËõË®

23
×ßÂ·¿´ÊÖ»ú·£10Ôª

24
¹ú¼ÊÓÍ¼Û×òÈÕÊÕÕÇ

25
¹ú×ãÂäºóº«¹ú

26
shadowÌæ²¹

27
ÉòÃÎ³½»ØÓ¦Âô¼Ù»õ

28
Ì¨ÄÏÅ®Í¯ÔâÄ¸Å°ËÀ

29
ÖÐº«´óÕ½Ê×·¢

30
ÖÐÑ§ÎªÀÏÊ¦ÉèÁµ°®¼Ù

31
ºú¾²ÆØ¹âºÀÃÅÉú»î

32
¹ËÍ¢ìÇÒªÈ¢ÈçÀ¼

33
Ó¢¹úÒé»á·ñ¾öÍÑÅ·

34
¿ÏÄáÑÇ¾Æµê±¬Õ¨

35
µÎµÎ°²È«ÔÙÉý¼¶

36
ÖÜÐÇ³ÛÕÅ°ØÖ¥ÖØ¾Û

37
Õã½ÑØº£¸ßËÙ¿ªÍ¨

38
°×ÓîÐøÔ¼Ò¼ÐÄ

39
Ê®´ó×î¶Â»¥ÁªÍø¹«Ë¾

40
ÖÜ½ÜÂ×É¹ÂèÂè½üÕÕ

41
º®¼ÙÌìÊýÅÅÐÐ°ñ

42
°ëÊý·ÉÐÐÔ±ÍËÐÝ

43
ºã´óÂò¶Ï±£ÀûÄá°Â

44
ÐÂ»ª±£ÏÕÍò·åÀëÖ°

45
ÐðÀûÑÇ±¬Õ¨

46
º«¾ç¹¬½«ÅÄÖÐ¹ú°æ

47
½ûÖ¹Î´³ÉÄêÈËÕûÈÝ

48
³ÂÒâºÏëÂèÂè

49
Ê×¸ÖÄÐÀº»÷°ÜÉÏº£

50
Ñî×Ï¹ØÏþÍ® ÍÈ

處理方式：

先查看 response的編碼
print(response.encoding)
而後對中文部分 encode('ISO-8859-1').decode('gbk')
附上修改事後的代碼和輸出

#-*- coding: utf-8 -*-

import requests
from lxml import etree

url = 'http://top.baidu.com/buzz?b=1&fr=20811'
response = requests.get(url)
print(response.encoding)
r = etree.HTML(response.text)
item_list = r.xpath("//table[@class='list-table']//tr")
# print(item_list)
for i in item_list[1:]:
    first_name = i.xpath("./td[@class='first']/span")
    keyword_name = i.xpath("./td[@class='keyword']/a[@class='list-title']")
    try:
        print(first_name[0].text.encode('ISO-8859-1').decode('gbk'))
        print(keyword_name[0].text.encode('ISO-8859-1').decode('gbk'))
    except:
        pass
    print('***************************************************************')