爬蟲到底是合法仍是違法的?

聽說互聯網上 50%以上的流量都是爬蟲創造的,也許你看到不少熱門數據都是爬蟲所創造的,因此能夠說無爬蟲就無互聯網的繁榮。html

前天寫了一篇文章《 只因寫了一段爬蟲,公司200多人被抓!》,講述程序員因寫爬蟲而被刑偵的事件。文章傳播很廣,評論中討論最熱是:爬蟲到底是合法仍是違法的?程序員

這個話題涉及到咱們不少程序員的平常工做,因此有必要和你們細聊一下。安全

01.技術無罪?

不少朋友給我留言:技術是無罪的,技術自己確實是沒有對錯的,但使用技術的人是有對錯的,公司或者程序員若是明知使用其技術是非法的,那麼公司或者人就須要爲之付出代價。服務器

在今年國家頒佈《中華人民共和國網絡安全法》以後,不少之前處於灰色地帶的業務都不能作了。網絡

君不見以前曾經很是火的各類社工庫網站,如今絕大部分都已經消失匿跡了嗎?由於最新的安全法強調:販賣我的信息超過50條屬於「情節嚴重」,須要追求其法律責任。大數據

不少草根站長都紛紛主動關閉了網站;還有不少涉及版權信息的網站,好比書籍、影視劇、課程等後期也會面臨愈來愈嚴格的審查,這就是目前大的形勢。網站

2014年12月20日,人人影視字幕站發佈微博稱,人人影視正式關閉,並表示或將繼續爲正版商提供翻譯服務,也可能轉變爲討論社區的形式。搜索引擎

2019年6月,吾愛破解因版權問題關站整改...
.....編碼

隨着中國經濟的不斷往前走,知識產權問題會愈來愈重視,非法爬蟲是如今一個重要的打擊部分,翻譯

若是有程序員走在灰色的邊緣儘早收手,不要由於一點小的收益致使觸犯法律,從而得不償失。

技術是無罪的,可是用到了錯的地方代價也是很是巨大的。

02.爬蟲崗位人人自危

我在拉鉤上搜索: 爬蟲工程師,顯示有 217 條相關招聘信息,薪資從10-60k 都有,說明市場上對爬蟲的需求是很大的。

前天文章發出去以後有不少程序員給我留言:

  • 咱們領導安排我爬取公司內部的信息,這算不算犯罪呢?
  • 爬取網上公開的信息,這算不算犯罪呢?
  • 寫了一段代碼上傳到 Github,被人用了犯法嗎?

簡單回答一下這些問題:

  • 1.爬取公司內部信息有公司受權固然不算犯罪的,可是公司內部不用接口而用爬蟲不知道是爲何?

  • 2.爬取網上公開信息不犯法,但若是大量開啓爬蟲致使對方服務器崩潰也是違法的,這屬於暴力攻擊的範疇了。

  • 3.寫了一段代碼上傳到 Github 上面,有人利用你的代碼作了其它非法的事情,絕大多數都沒有問題的,但若是你寫的軟件涉及到入侵、暴力破解、病毒等就很差說了。

還有朋友認爲這事責任在企業不在程序員,平常工做中項目初期設計和最後上線須要經過公司的法務批准,全部代碼必須有其餘程序員同事評審經過才能提交。

這位朋友說的挺對的,按道理每一個公司都應該有法務和風控在前面,後面纔是產品設計和程序員開發的事情,但若是一家公司爲了利益,老闆能夠直接讓這兩個部門閉嘴,後面程序員能夠不幹嘛?

更甚至不少公司其實就沒有這兩個部門或者說形同虛設。那麼作爲程序員本身也須要操一份心,凡是涉及到入侵類的程序都不能幹,由於有一個東西叫作:單位犯罪

單位犯罪,是指公司、企業、事業單位、機關、團體爲單位謀取利益,經單位決策機構或者負責人決定實施的,法律規定應當負刑事責任的危害社會的行爲。

我國刑法對單位犯罪原則上採起雙罰制度,即單位犯罪的,對單位判處罰金,並對其直接負責的主管人員和其餘直接責任人員判處刑罰。

03.什麼樣的爬蟲是非法的?

爬蟲不能涉及我的隱私!

若是爬蟲程序採集到公民的姓名、身份證件號碼、通訊通信聯繫方式、住址、帳號密碼、財產情況、行蹤軌跡等我的信息,並將之用於非法途徑的,則確定構成非法獲取公民我的信息的違法行爲。

也就是說你爬蟲爬取信息沒有問題,但不能涉及到我的的隱私問題,若是涉及了而且經過非法途徑收益了,那確定是違法行爲。

另外,還有下列三種狀況,爬蟲有可能違法,嚴重的甚至構成犯罪:

  • 1.爬蟲程序規避網站經營者設置的反爬蟲措施或者破解服務器防抓取措施,非法獲取相關信息,情節嚴重的,有可能構成「非法獲取計算機信息系統數據罪」。

  • 2.爬蟲程序干擾被訪問的網站或系統正常運營,後果嚴重的,觸犯刑法,構成「破壞計算機信息系統罪」

  • 3.爬蟲採集的信息屬於公民我的信息的,有可能構成非法獲取公民我的信息的違法行爲,情節嚴重的,有可能構成「侵犯公民我的信息罪」。

如今網上有不少付費的課程,好比極客時間、Gitchat、慕課網、知識星球等等,這些付費內部信息若是被非法爬取手法出售獲利,一種違法行爲。

以前我就遇到一個網友,把各個知識星球的內容都抓下來,合到一塊兒本身去賣,自做聰明以爲發現了一個大的商機,其實本身不知道這個行爲其實很危險,風險和收益明顯不對等。

我這兩天看的時候,他的一個公衆號都被封了,後來又轉移了一個小號繼續搞,早晚又是被封的命運,真的很不值當。最可憐是那些買他服務的用戶,由於他宣傳時承諾永久,確定永久不了。

04.什麼樣的爬蟲是合法的?

一、 遵照 Robots 協議

Robots 協議也叫 robots.txt(統一小寫)是一種存放於網站根目錄下的 ASCII 編碼的文本文件,它一般告訴網絡搜索引擎的漫遊器(又稱網絡蜘蛛),此網站中的哪些內容是不該被搜索引擎的漫遊器獲取的,哪些是能夠被漫遊器獲取的。

Robots 協議就是告訴爬蟲,哪些信息是能夠爬取,哪些信息不能被爬取,嚴格按照 Robots 協議 爬取網站相關信息通常不會出現太大問題。

二、不能形成對方服務器癱瘓

但不是說只要遵照 Robots 協議的爬蟲就沒有問題,還涉及到兩個因素,第一不能大規模爬蟲致使對方服務器癱瘓,這等於網絡攻擊。

2019年05月28日國家網信辦發佈的《數據安全管理辦法(徵求意見稿)》中,擬經過行政法規的形式,對爬蟲的使用進行限制:

網絡運營者採起自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行爲嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求中止自動化訪問收集時,應當中止。

三、不能非法獲利

惡意利用爬蟲技術抓取數據,攫取不正當競爭的優點,甚至是牟取不法利益的,則可能觸犯法律。實踐中,非法使用爬蟲技術抓取數據而產生的糾紛其實數量並很多,大可能是以不正當競爭爲由提請訴訟。

舉個例子,若是你把大衆點評上的全部公開信息都抓取了下來,本身複製了一個如出一轍的網站,而且還經過這個網站獲取了大量的利潤,這樣也是有問題的。

通常狀況下,爬蟲都是爲了企業獲利的,所以須要爬蟲開發者的道德自持和企業經營者的良知纔是避免觸碰法律底線的根本所在。

05.最後

最近看了不少關於程序員出事的事件,東南亞程序員被打,多個大數據公司被查等等。作爲一名普通的程序員,但願你們也能夠多關注此類事件,從而提醒本身。

有風險的行業謹慎進入,好比現金貸、不合規的P2P、賭博類遊戲、黑五類產品的行業。若是公司安排入侵某個網站數據,或者有同事/朋友邀請泄露公司信息的都須要保持警戒,有時候一個很小的動做都有可能致使出問題。

咱們絕大多數公司和我的使用的爬蟲都是沒有問題的,沒必要人人自危,只要把握住不要爬取我的信息,不要利用爬蟲非法獲利,不要爬取網站的付費內容,基本上不會有問題。

程序員是世界上最單純的一批人,也是一批高智商低情商的人,工做是工做但也須要適當保持謹慎,對於一些遊走在法律邊緣的事情請保持距離。

敬畏法律,遵紀守法,從我作起。

參考:
https://www.zhihu.com/question/291554395

相關文章
相關標籤/搜索