基於beautifulSoup進行電影網站排名的獲取與格式化輸出

要求

編寫代碼完成如下任務:html

① 將地址"http://www.cbooo.cn/year?year=2019"源代碼使用任意方法保存到指定文件中(文件類型不限)。python

② 使用文件流讀取該頁面內容到程序中函數

③ 使用Python以任意方法提取出頁面中的電影排名與電影名,並以以下形式打印輸出this

輸出格式爲:第*名-《***》url

代碼

import urllib.request
from bs4 import BeautifulSoup
import os

# 一、獲取詳細的頁面數據
def get_html_link(link,outHtml):
    #若是超連接非空
    if link is not None:
        #請求超連接頁面HTML
        link_list=urllib.request.urlopen(link).read()
        # 將內容寫到文件中去
        with open(outHtml,"w") as f:
            f.write(link_list.decode('utf-8'))
        # 從文件中讀取內容
        fullPath = "file:///"+os.getcwd()+"/"+outHtml
        link_list2 = urllib.request.urlopen(fullPath).read()
        # 格式化HTML
        soup=BeautifulSoup(link_list2,'lxml')
        # 獲取class='one'的標籤
        content=soup.find_all('td',class_='one')
        for tag in content:
            tdlist = tag.find_all('a')
            # 經過字符串支持的查找操做對目標進行查找。目標字符串以下圖所示。
            """
             [<a class="active" href="http://www.cbooo.cn/m/642412" title="流浪地球">
             <img alt="流浪地球" onerror="this.src='../../Content/images/nopic.jpg'" 
             src="http://images.entgroup.cn/group1/M00/00/AB/wKgASVzny4uAEWvcAABfH3c7ZxA728.jpg"/>
             <p><span>1.</span>流浪地球</p></a>]
            """
            pos = str(tdlist).find('title')
            posEnd = str(tdlist).find('"',pos+8)
            tmp = str(tdlist)[pos+7:posEnd]
            yield tmp
    else:
        print("網頁連接有問題,請重試")

# 二、數據保存
def save_suject(title_content):
    # 將輸出輸出到文件中
    with open('output.txt','w+',encoding='utf-8') as f:
        cnt = 1
        for tile in title_content:
            f.write(tile+'\n')
            print("第%d名-《%s》" % (cnt,tile))
            cnt += 1

# 三、函數回調
def fun_call(url,out):
    title_content=get_html_link(url,out)
    save_suject(title_content)
    
if __name__=='__main__':
    url='http://www.cbooo.cn/year?year=2019'
    outHtml = "out.html"
    fun_call(url,outHtml)
相關文章
相關標籤/搜索