編寫代碼完成如下任務:html
① 將地址"http://www.cbooo.cn/year?year=2019"源代碼使用任意方法保存到指定文件中(文件類型不限)。python
② 使用文件流讀取該頁面內容到程序中函數
③ 使用Python以任意方法提取出頁面中的電影排名與電影名,並以以下形式打印輸出this
輸出格式爲:第*名-《***》
url
import urllib.request from bs4 import BeautifulSoup import os # 一、獲取詳細的頁面數據 def get_html_link(link,outHtml): #若是超連接非空 if link is not None: #請求超連接頁面HTML link_list=urllib.request.urlopen(link).read() # 將內容寫到文件中去 with open(outHtml,"w") as f: f.write(link_list.decode('utf-8')) # 從文件中讀取內容 fullPath = "file:///"+os.getcwd()+"/"+outHtml link_list2 = urllib.request.urlopen(fullPath).read() # 格式化HTML soup=BeautifulSoup(link_list2,'lxml') # 獲取class='one'的標籤 content=soup.find_all('td',class_='one') for tag in content: tdlist = tag.find_all('a') # 經過字符串支持的查找操做對目標進行查找。目標字符串以下圖所示。 """ [<a class="active" href="http://www.cbooo.cn/m/642412" title="流浪地球"> <img alt="流浪地球" onerror="this.src='../../Content/images/nopic.jpg'" src="http://images.entgroup.cn/group1/M00/00/AB/wKgASVzny4uAEWvcAABfH3c7ZxA728.jpg"/> <p><span>1.</span>流浪地球</p></a>] """ pos = str(tdlist).find('title') posEnd = str(tdlist).find('"',pos+8) tmp = str(tdlist)[pos+7:posEnd] yield tmp else: print("網頁連接有問題,請重試") # 二、數據保存 def save_suject(title_content): # 將輸出輸出到文件中 with open('output.txt','w+',encoding='utf-8') as f: cnt = 1 for tile in title_content: f.write(tile+'\n') print("第%d名-《%s》" % (cnt,tile)) cnt += 1 # 三、函數回調 def fun_call(url,out): title_content=get_html_link(url,out) save_suject(title_content) if __name__=='__main__': url='http://www.cbooo.cn/year?year=2019' outHtml = "out.html" fun_call(url,outHtml)