暢銷3年的Python分佈式爬蟲課程 Scrapy打造搜索引擎

download:暢銷3年的Python分佈式爬蟲課程 Scrapy打造搜索引擎

將來是什麼時代?是數據時代!數據分析服務、互聯網金融,數據建模、天然語言處理、醫療病例分析……愈來愈多的工做會基於數據來作,而爬蟲正是快速獲取數據最重要的方式,相比其它語言,Python爬蟲更簡單、高效
適合人羣
適合對爬蟲感興趣、想作大數據開發卻找不到數據
又不知如何搭建一套穩定可靠的分佈式爬蟲的同窗
想搭建搜索引擎可是不知道如何入手的同窗
技術儲備要求
具有必定的原生爬蟲基礎
瞭解前端頁面,面向對象概念,計算機網絡協議和數據庫知識
代碼以下:html

package main
import (
「fmt」
「math/rand」
「time」
)
var (
Web = fakeSearch(「web」)
Image = fakeSearch(「image」)
Video = fakeSearch(「video」)
)
type Result string
type Search func(query string) Result
func fakeSearch(kind string) Search {
return func(query string) Result {
time.Sleep(time.Duration(rand.Intn(100)) * time.Millisecond)
return Result(fmt.Sprintf("%s result for %q\n", kind, query))
}
}
func Google(query string) (results []Result) {
results = append(results, Web(query))
results = append(results, Image(query))
results = append(results, Video(query))
return
}
func main() {
rand.Seed(time.Now().UnixNano())
start := time.Now()
results := Google(「golang」)
elapsed := time.Since(start)
fmt.Println(results)
fmt.Println(elapsed)
}
運轉結果以下:前端

[web result for 「golang」
image result for 「golang」
video result for 「golang」
]
153.365484msgolang

谷歌搜索2.0
同時運轉網頁、圖像和視頻搜索,並等候一切結果。沒有鎖,沒有條件變量,沒有回調。web

代碼以下,關注Google函數。數據庫

package main
import (
「fmt」
「math/rand」
「time」
)
var (
Web = fakeSearch(「web」)
Image = fakeSearch(「image」)
Video = fakeSearch(「video」)
)
type Result string
type Search func(query string) Result
func fakeSearch(kind string) Search {
return func(query string) Result {
time.Sleep(time.Duration(rand.Intn(100)) * time.Millisecond)
return Result(fmt.Sprintf("%s result for %q\n", kind, query))
}
}
func Google(query string) (results []Result) {
c := make(chan Result)
go func() { c <- Web(query) } ()
go func() { c <- Image(query) } ()
go func() { c <- Video(query) } ()
for i := 0; i < 3; i++ {
result := <-c
results = append(results, result)
}
return
}
func main() {
rand.Seed(time.Now().UnixNano())
start := time.Now()
results := Google(「golang」)
elapsed := time.Since(start)
fmt.Println(results)
fmt.Println(elapsed)
}網絡

谷歌搜索2.1 不要等候遲緩的效勞器。沒有鎖,無條件變量,沒有回調。通過select的超時完成,需求把time.After定義的超時通道放在for循環外層。
package main
import (
「fmt」
「math/rand」
「time」
)
var (
Web = fakeSearch(「web」)
Image = fakeSearch(「image」)
Video = fakeSearch(「video」)
)
type Result string
type Search func(query string) Result
func fakeSearch(kind string) Search {
return func(query string) Result {
time.Sleep(time.Duration(rand.Intn(100)) time.Millisecond)
return Result(fmt.Sprintf("%s result for %q\n", kind, query))
}
}
func Google(query string) (results []Result) {
c := make(chan Result)
go func() { c <- Web(query) } ()
go func() { c <- Image(query) } ()
go func() { c <- Video(query) } ()
timeout := time.After(80
time.Millisecond)
for i := 0; i < 3; i++ {
select {
case result := <-c:
results = append(results, result)
case <-timeout:
fmt.Println(「timed out」)
return
}
}
return
}
func main() {
rand.Seed(time.Now().UnixNano())
start := time.Now()
results := Google(「golang」)
elapsed := time.Since(start)
fmt.Println(results)
fmt.Println(elapsed)
}app

谷歌搜索3.0 內容從48頁到51頁。
運用複製的搜索效勞器減小尾部延遲。一樣沒有鎖,沒有條件變量,沒有回調。分佈式

問:咱們如何防止因爲效勞器運轉遲緩而丟棄結果?ide

答: 複製效勞器。 向多個副本發送懇求,並運用第一個響應。函數

代碼以下:

package main
import (
「fmt」
「math/rand」
「time」
)
var (
Web1 = fakeSearch(「web」)
Web2 = fakeSearch(「web」)
Image1 = fakeSearch(「image」)
Image2 = fakeSearch(「image」)
Video1 = fakeSearch(「video」)
Video2 = fakeSearch(「video」)
)
type Result string
type Search func(query string) Result
func fakeSearch(kind string) Search {
return func(query string) Result {
time.Sleep(time.Duration(rand.Intn(100)) time.Millisecond)return Result(fmt.Sprintf("%s result for %q\n", kind, query))}}func Google(query string) (results []Result) {c := make(chan Result)go func() { c <- First(query, Web1, Web2) } ()go func() { c <- First(query, Image1, Image2) } ()go func() { c <- First(query, Video1, Video2) } ()timeout := time.After(80 time.Millisecond)for i := 0; i < 3; i++ {select {case result := <-c:results = append(results, result)case <-timeout:fmt.Println(「timed out」)return}}return}func First(query string, replicas …Search) Result {c := make(chan Result)searchReplica := func(i int) { c <- replicasi }for i := range replicas {go searchReplica(i)}return <-c}

相關文章
相關標籤/搜索