文本總結

時間 2020-01-15

標籤文本總結简体版

原文原文鏈接

第一個腳本是把全部運動員信息從網頁裏提取出來
第二個腳本是把全部運動員信息在第一個腳本基礎上挑選出跳遠的成績信息(包括室內，室外)
第三個腳本是把全部遠動員跳遠的信息放入mongod
第四格腳本是把放入mongod的信息放入表格裏
至於怎麼打就不是特別清楚了web

MongoDB是一個基於分佈式文件存儲的數據庫。由C++語言編寫。旨在爲WEB應用提供可擴展的高性能數據存儲解決方案。
MongoDB是一個介於關係數據庫和非關係數據庫之間的產品，是非關係數據庫當中功能最豐富，最像關係數據庫的。它支持的數據結構很是鬆散，是相似json的bson格式，所以能夠存儲比較複雜的數據類型。Mongo最大的特色****是它支持的查詢語言很是強大，其語法有點相似於面向對象的查詢語言，幾乎能夠實現相似關係數據庫單表查詢的絕大部分功能，並且還支持對數據創建索引
特色編輯
它的特色是高性能、易部署、易使用，存儲數據很是方便。主要功能特性有：
面向集合存儲，易存儲對象類型的數據。
模式自由。
支持動態查詢。
支持徹底索引，包含內部對象。
支持查詢。
支持複製和故障恢復。
使用高效的二進制數據存儲，包括大型對象（如視頻等）。
自動處理碎片，以支持雲計算層次的擴展性。
支持RUBY，PYTHON，JAVA，C++，PHP，C#等多種語言。
文件存儲格式爲BSON（一種JSON的擴展）。
可經過網絡訪問。
一、Pillow數據庫

簡介：圖像「無痛」處理庫，易用版的 PIL。編程

亮點：大多數執行過圖像處理的 Pythonist 應該會熟悉 PIL（Python 圖像庫），但 PIL 有很多缺點和限制，而且不多更新。Pillow 的目標是比 PIL 更容易使用，並經過最小的變化與 PIL 代碼兼容。擴展包括用於與本機 Windows 的映像功能和 Python Tcl/Tk-backed Tkinter GUI 包。json

Pillow 在2017年初發布了 4.0 版本，增長了許多變化，主要是針對內部結構，但同時也更新了 Pillow 使用的 FreeType 和 OpenJpeg 等最新版本的依賴庫。
二、Gooey數組

簡介：一條命令，將命令行程序變成一個 GUI 程序。服務器

亮點：Gooey 論證了 argparse 命令行解析庫指望的參數，並把它們做爲 GUI 形式呈現給用戶，全部選項都使用適當的控件（例如多選項參數的下拉列表等）進行標記和顯示。假設你已經在使用 argparse，只須要不多的附加編碼 – 一個單獨的 include 和一個單獨的 decorator ，就能使其工做。
三、Peeweecookie

簡介：一個輕量級的 ORM，支持 SQLite、MySQL 和 PostgreSQL，提供多種擴展。網絡

亮點：ORMs 目前並無什麼很大的聲譽，有些人寧願把圖式模型放在數據庫端作。但一個結構良好的 ORM 對於不想去觸碰數據庫的開發人員來講，是一個十分不錯的選擇。Peewee 模型易於構建、鏈接和操做，而且內置了許多常見的查詢操做函數（如分頁）。還有豐富的功能可做爲加載項，包括其餘數據庫的擴展、測試工具 – 甚至 ORM haters 可能會很愛的一個功能 – 模式遷移系統。
四、Scrapy數據結構

簡介：一個快速、高級的屏幕抓取及 web 爬蟲框架。框架

亮點：Scrapy 保持整個爬取過程簡單。建立一個類，並定義你要刪除的項目的類型，並編寫一些關於如何從頁面中提取數據的規則。結果將以 JSON、XML、CSV 或許多其餘的格式導出。收集的數據能夠保存爲 raw，也能夠在導入時進行清理。此外，Scrapy 能夠擴展容許許多其餘行爲，例如網站登陸處理、會話 cookie 處理。圖像也能夠被 Scrapy 自動提取並與被抓取的內容相關聯。
五、Apache Libcloud

簡介：一個爲各類雲設計的 Python 庫，經過單1、一致和統一的 API 訪問各個雲提供商。

亮點：若是上面關於 Apache Libcloud 的描述沒有讓你有摩拳擦掌想去體驗的衝動，不要緊。雲提供商都喜歡以他們本身的方式作事情 – 有時巧妙，有時不是 – 因此有一個統一的機制來處理幾十個提供商和相關的方法來操縱他們的資源是一個福音。 API 可用於計算、存儲、負載平衡和 DNS，支持 2.x 和 3.x 的 Python 風格。對於那些爲了額外的性能使用 Python 的 PyPy 版本的，也能被很好地支持。

六、Pygame

簡介：一個高可移植性的遊戲開發模塊。

亮點：若是你認爲除了身處遊戲開發世界的，其餘人不會想要這樣的框架，那還請再從新思考一下。 Pygame 提供了一個方便的選項來處理許多面向 GUI 的行爲：繪製畫布和 sprite 圖形、處理多聲道聲音、處理窗口和點擊事件、碰撞檢測等等。不是每一個應用，或者能夠說不是每一個 GUI 應用，在使用 Pygame 構建時都能受益，但仔細看看它提供了什麼，你可能會感到驚訝。
七、NumPy

簡介：科學計算和數學工做基礎包，包括統計學、線性代數、矩陣數學、金融操做等等。

亮點：Quant 和 bean 計數器已經瞭解 NumPy 而且喜歡它，但 NumPy 的數學 ‘n’ 統計的應用範圍比你想象的更廣。例如，它是向多維數組添加對 Python 支持的最簡單、最靈活的方法之一。 NumPy 提供了許多高級的數值編程工具，如：矩陣數據類型、矢量處理，以及精密的運算庫，專爲進行嚴格的數字處理而產生，和稀疏矩陣運算包 Scipy 配合使用更加方便。

八、Sh

簡介：一個完備的 subprocess 替代庫，能調用 subprocess 中的任意外部程序，並將結果返回到 Python 應用。

亮點：在任何兼容 Posix 的系統上，Sh 都是一個神器。這意味着在這些平臺上可用的全部命令行程序均可以使用 Python。你不只再也不須要從新造輪子，還不用再爲如何優雅地添加該功能到你的應用上而努力。值得注意的是：該庫對於經過此庫傳遞的參數沒有清理界限，請確保不要將原始用戶輸入傳遞。

九、Python-docx

簡介：以編程方式建立和操縱 Microsoft Word .docx 文件。

亮點：理論上，編寫用於建立和操縱 XML-style Microsoft Word 文檔的腳本應該很容易。但在實踐中，因爲 .docx 格式的內部複雜性，其實還真沒那麼簡單。 Python-docx 容許經過提供一種高級的、編程的方式來建立 .docx 文件，從而完成全部的相關操做。

文本、圖像、樣式和文檔均可以經過庫的 API 添加和更改。該庫還容許更改現有文檔。不過某些功能仍然不受支持，例如不能添加或更改標題和腳註 – 但 Python-docx 盡最大努力保留了這些東西，即使它們還不能被操縱。

十、PyFilesystem

簡介：一個爲全部文件系統提供的通用 Pythonic 接口。

亮點: PyFilesystem 背後的基本理念很是簡單：「以一樣的方式抽象整個文件系統」。它是文件系統的抽象層。實際上，任何包含文件和目錄的東西（硬盤、壓縮文件、FTP服務器等等）均可以封裝成一個共同的接口，甚至彼此疊加組合。使用這個模塊，你能夠不須要知道文件確切的物理位置。

除了使編寫用於操做文件的跨平臺代碼變得更容易外，PyFilesystem 還省去了未來自標準庫（主要是 os 和 io）的不一樣部分的東西拼湊在一塊兒的步驟。

十一、EbookLib

簡介：一個用於處理 EPUB2 / EPUB3 和 Kindle 格式圖書的電子書庫。

亮點: 建立電子書一般須要使用各類命令行或其它工具， EbookLib 提供了管理工具和 API 來簡化該過程。它適用於 EPUB2 和 EPUB3 文件，與 Kindle 的支持正在開發中。

提供圖像和文本（後者以HTML格式）後，你能夠將這些片斷組裝成一個電子書，包括章節、嵌套目錄條目、圖像、HTML標記等。還支持封面、書脊和樣式表數據。插件系統容許第三方擴展。

若是你不須要像 EbookLib 這樣樣的東西，能夠看看 Mkepub，它提供基本的電子書裝配功能，整個庫只有幾千字節，但也包含添加圖像到文檔的功能。 Mkepub 的一個小缺點是它須要 Jinja2，然後者又須要 MarkupSafe 庫。

十二、Cython

簡介：Python 的 C 語言擴展工具，使用類型混合使 Python 編譯成 C 模塊來得到性能的提高。

亮點：Python 有很好的便利性，但這種方即是以性能爲代價的。 C 是運行時性能的黃金標準（限制程序集），但可能難以處理。 Cython 對着兩者進行挖掘 – 不只提供一個 Python 訪問 C 庫的方便選項，還容許 Python 代碼轉換爲高性能 C 代碼。它在科學計算中普遍使用，但它也能夠用於各類應用的加速。

這個轉換過程當中的最好的部分是你沒必要一次作全部事情。能夠先從 Python 代碼開始，使用 Cython 編譯它，以得到適度的性能提高。爲了進一步加速，再可使用類型註釋來裝飾變量和函數，這個過程不會比使用 Python 的 PEP 484 類型提示系統更復雜（儘管 Cython 的語法不一樣）。

1三、Behold

簡介：一款強大的支持 print-style 的調試工具。

亮點：對於大多數語言來講，有一個很簡單的調試方法：插入 in-line 「print」語句。 Python 也不例外，即便是在大型項目，也有很多人這麼作。但簡單的 print-debugging，很難在大型、多模塊的項目中得到有用的結果。

Behold 提供了一個用於經過 print 語句進行上下文調試的工具包。它容許對輸出施加統一的外觀，對結果進行標記，以即可以經過搜索或過濾器對其進行排序。而且跨模塊提供上下文，以即可以在另外一個模塊中正確調試來自某個模塊的函數。Behold 能夠處理許多常見的 Python 特定場景，如 printing 對象的內部字典、揭露嵌套的屬性、存儲和重用結果、在調試過程當中的其餘點進行比較等等。

requests是一個很實用的Python HTTP客戶端庫，編寫爬蟲和測試服務器響應數據時常常會用到。能夠說，Requests 徹底知足現在網絡的需求

bs4是一個能夠從HTML或XML文件中提取數據而且對於HTML/XML數據的篩選的Python庫. 能夠很好的分析和篩選HTML/XML這樣的標記文檔中的指定規則數據在數據篩選過程當中其基礎技術是經過封裝HTML DOM樹實現的一種DOM操做，經過加載網頁文檔對象的形式，從文檔對象樹模型中獲取目標數據。BeautifulSoup操做簡單易於上手，在不少對於數據篩選性能要求並非特別苛刻的項目中常用，目前市場流行的操做版本是BeautifulSoup4，常常稱BS4

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。