一,知識點
1.寫完第一個腳本以後,執行的方法?
find / -name mongo
cd /usr/local/mongodb/bin
ls
./mongohtml
2.執行不了mongo,怎麼解決?
都在bin下執行
ps aux | grep mongo
pgrep mongo|xargs kill -9
ps aux | grep mongo
ls
./mongod &
./mongopython
二,安裝mongo
(1)先在瀏覽器上找到mongo的安裝包,用wget下載https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz
(2)在用tar解壓這個下載完成的安裝包
(3)而後把這個包剪切到/usr/local/mongodb下 mv mongodb-linux-x86_64-rhel70-3.2.5 /usr/local/mongodb
(4)而後cd /usr/local/mongodb/bin下
(5)而後在後臺運行Mongod
./mongod &
(6)用pip安裝Python mongo
補:安裝python
(1)先在瀏覽器上找python的安裝包,找到以後而後用wget下載這個安裝包
(2)下載完成以後用echo $?查一下是否爲0,若是不爲0就表明錯誤
(3)用tar解壓這個安裝包linux
3.第三方模塊的安裝 :
pip ×××tall requests
4.查數據:
cd /usr/local/mongodb/bin
ls
show dbs
use iaaf
show tables
db.athletes.find()
5.查看數據庫內容:
./mongo show dbs
數據庫 : iaaf
use iaaf
show tables ---- athletes mongodb
db.athletes.find() ++++++++++++++++++++++++++++++++++++++++++++++++ pymongo db = pymongo.MongoClient().iaaf for i in db.athletes.find(): print i
6.刪除數據庫
use iaaf
db.athletes.drop()數據庫
7.什麼是爬蟲?
爬蟲的意思就是用代碼去訪問這個網站
python爬蟲即網絡爬蟲,網絡爬蟲是一種程序,主要用於搜索引擎,它將一個網站的全部內容與連接進行閱讀,並創建相關的全文索引到數據庫中,而後跳到另外一個網站.樣子好像一隻大蜘蛛.編程
8.腳本
1導包——訪問網站——(找到headers【User-Agent】)——將訪問到的信息在BeautifulSoup庫裏進行解析——按標籤查找(最後找到recordtable[2]第三項,遍歷tr td_ )——定位到咱們想要的信息——將全部信息放在js數據(字典)裏——將數據存放在數據庫裏。json
2. 導包——訪問網址——(找到headers【User-Agent】)——調取腳本1裏存的數據——獲得每一個運動員的href——將基礎網址和獲得的運動員herf拼在一塊兒——獲得目標網址——將outdoor和indoor的信息分紅兩個列表分別存放——將全部信息都存放在數據庫裏。數組
3導包——訪問網址——(找到headers【User-Agent】)——將訪問到的信息在BeautifulSoup庫裏進行解析——找到(div)標籤——找到目標標籤的相關標籤(h2_l),按標題定位——經過上級目錄找到指定的(table)標籤——將所獲得的信息放在(tbody列表中)——在(tbody列表)中按outdoor和indoor分類,整合信息——將全部信息放在js數據(字典)裏——設置返回值存放。
4. 導包——將全部標題信息放在(title列表)裏——遍歷(title)裏信息的數量——將title裏標註的信息輸入進去——將運動員分別來自的國家名稱放在(country_l列表裏)——在運動員信息庫裏調取相應的(運動員名稱:國家)鍵值對——將所取到的信息按照outdoor和indoor將信息分類——按照(title)標題裏的信息從第一行開始依次輸入數據——將全部表格信息從數據庫裏提取而且整理好存放在「iaaf.xls」中。瀏覽器
9.模塊
MongoDB
1.MongoDB的概念
MongoDB 是由C++語言編寫的,是一個基於分佈式文件存儲的開源數據庫系統。
在高負載的狀況下,添加更多的節點,能夠保證服務器性能。
MongoDB 旨在爲WEB應用提供可擴展的高性能數據存儲解決方案。
MongoDB 將數據存儲爲一個文檔,數據結構由鍵值(key=>value)對組成。
MongoDB 文檔相似於 JSON 對象。字段值能夠包含其餘文檔,數組及文檔數組。
2.MongoDB的主要特色
MongoDB 是一個面向文檔存儲的數據庫,操做起來比較簡單和容易。
Mongo支持豐富的查詢表達式。查詢指令使用JSON形式的標記,可輕易查詢文檔中內嵌
的對象及數組。
MongoDb 使用update()命令能夠實現替換完成的文檔(數據)或者一些指定的數據字段 。
MongoDB容許在服務端執行腳本,能夠用Javascript編寫某個函數,直接在服務端執行,
也能夠把函數的定義存儲在服務端,下次直接調用便可。
MongoDB支持各類編程語言:RUBY,PYTHON,JAVA,C++,PHP,C#等多種語言。
Requests
1.Requests的概念
Requests 是Python語言編寫,基於urllib,採用Apache2 Licensed開源協議的 HTTP 庫。
它比urllib 更加方便,能夠節約咱們大量的工做,徹底知足HTTP測試需求。
2 .Requests的請求方式
①GET: 請求指定的頁面信息,並返回實體主體。
②HEAD: 只請求頁面的首部。
③POST: 請求服務器接受所指定的文檔做爲對所標識的URI的新的從屬實體。
④PUT: 從客戶端向服務器傳送的數據取代指定的文檔的內容。
⑤DELETE: 請求服務器刪除指定的頁面。
get 和 post比較常見 GET請求將提交的數據放置在HTTP請求協議頭中
POST提交的數據則放在實體數據中
BS4
1.BS4的概念
bs4庫是解析、遍歷、維護、"標籤樹"的功能庫
通俗一點說就是:bs4庫把HTML源代碼從新進行了格式化,
從而方便咱們對其中的節點、標籤、屬性等進行操做
2.BS4的4中對象
①Tag對象:是html中的一個標籤,用BeautifulSoup就能解析出來Tag的具體內容,具體
的格式爲‘soup.name‘,其中name是html下的標籤。
②BeautifulSoup對象:整個html文本對象,可看成Tag對象
③NavigableString對象:標籤內的文本對象
④Comment對象:是一個特殊的NavigableString對象,若是html標籤內存在註釋,那麼它能夠過濾掉註釋符號保留註釋文本
最經常使用的仍是BeautifulSoup對象和Tag對象
Json
1.Json的概念
JSON (JavaScript Object Notation) 是一種輕量級的數據交換格式。Python3 中能夠
使用 json 模塊來對 JSON 數據進行編解碼,它主要提供了四個方法:
dumps、dump、loads、load。
2.格式轉化表
JSON中的數據格式和Python中的數據格式轉化關係以下:服務器
JSON Python
object dict
array list
string str
number (int) int
number (real) float
true True
false False
null None
xlwt
1.xlwt的概念
Python語言中,寫入Excel文件的擴展工具。相應的有xlrd擴展包,專門用於excel讀取。
能夠實現指定表單、指定單元格的寫入。
2.主要功能
Python語言中,寫入Excel的擴展工具。
能夠實現建立表單、寫入指定單元格、指定單元格樣式等人工實現的功能,
一句話就是人使用excel實現的功能,這個擴展包均可以實現。
10.爬蟲的流程先找到要訪問的網站——找到headers的User-Agent——在BeautifulSoup中解析——找到相應標籤——提取想要的內容的src——存到數據庫中——爬蟲完成