又一家數據公司被查,爬蟲到底作錯了什麼?

9 月 6 日下午,多位業內人士稱,杭州知名大數據服務公司杭州魔蠍數據科技有限公司,疑似被相關執法人員控制,其中一位周姓核心高管人員被警方帶走。html

以上是前幾天技術圈傳播的一則新聞,又一家數據公司被調查,不少數據從業者、爬蟲開發者發出了「感嘆」 —— 「爬蟲用得好,XX進得早;數據玩得溜,XX吃個夠」。編程

魔蠍科技做爲一家數據服務公司,曾在 2017 年一篇『爬蟲兇猛:爬支付寶、爬微信、竊取現金貸放貸數據』的文章中,被指出存在開發使用惡意爬蟲的行爲。安全

固然關於魔蠍科技爲何被查,這個等待執法部門的調查結果便可,我們不在這裏無故猜想。服務器

我今天要說的是關於爬蟲的合法性,我但願經過一些案例來探討:怎樣作一個不觸碰紅線的爬蟲開發者。微信

爬蟲做爲一種計算機技術,具備技術中立性,爬蟲技術在法律上歷來沒有被禁止。爬蟲的發展歷史能夠追溯到 20 年前,搜索引擎、聚合導航、數據分析、人工智能等業務,都須要基於爬蟲技術。cookie

可是爬蟲做爲獲取數據的技術手段之一,因爲部分數據存在敏感性,若是不能甄別哪些數據是能夠爬取,哪些會觸及紅線,可能下一位上新聞的主角就是你。網絡

如何界定爬蟲的合法性,目前沒有明文規定,但我經過翻閱大量文章、事件、分享、司法案例,我總結出界定的三個關鍵點:採集途徑採集行爲使用目的併發

數據的採集途徑

經過什麼途徑爬取數據,這個是最須要重視的一點。整體來講,未公開、未經許可、且帶有敏感信息的數據,不論是經過什麼渠道得到,都是一種不合法的行爲。高併發

因此在採集這類比較敏感的數據時,最好先查詢下相關法律法規,特別是用戶我的信息、其餘商業平臺的信息 等這類信息,尋找一條合適的途徑。工具

我的數據

採集和分析我的信息數據,應該是當下全部互聯網都會作的一件事,可是大部分我的數據都是非公開的,想得到必須經過合法途徑,可參見『網絡安全法』第四十一條:

網絡運營者收集、使用我的信息,應當遵循合法、正當、必要的原則,公開收集、使用規則,明示收集、使用信息的目的、方式和範圍,並經被收集者贊成...

也就是必須在提早告知收集的方式、範圍、目的,並通過用戶受權或贊成後,才能採集使用,也就是咱們常見的各類網站與 App 的用戶協議中關於信息收集的部分。

相關反面案例:

8月20日,澎湃新聞從紹興市越城區公安分局獲悉,該局日前偵破一塊兒特大流量劫持案,涉案的新三板掛牌公司北京瑞智華勝科技股份有限公司,涉嫌非法竊取用戶我的信息30億條,涉及百度、騰訊、阿里、京東等全國96家互聯網公司產品,目前警方已從該公司及其關聯公司抓獲6名犯罪嫌疑人。
......
北京瑞智華勝公司及其關聯公司在與正規運營商合做中,會加入一些非法軟件用於清洗流量、獲取用戶的 cookie。

節選自 澎湃新聞:『新三板掛牌公司涉竊取30億條我的信息,非法牟利超千萬元』

公開數據

從合法公開渠道,而且不明顯違揹我的信息主體意願,都沒有什麼問題。但若是經過破解侵入等「黑客」手段來獲取數據,那有相關法律等着你。

『刑法』第二百八十五條第二款:

違反國家規定,侵入前款規定之外的計算機信息系統或者採用其餘技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據,或者對該計算機信息系統實施非法控制,情節嚴重的,處三年如下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年如下有期徒刑,並處罰金。

違反 Robots 協議

雖然 Robots 協議沒有法規強制遵照,但 Robots 協議做爲行業約定,在遵循之下會給你帶來合法支持。

由於 Robots 協議具備指導意義,若是註明 Disallow 就說明是平臺明顯要保護的頁面數據,想爬取以前應該仔細考慮一下。

數據的採集行爲

使用技術手段應該懂得剋制,一些容易對服務器和業務形成干擾甚至破壞的行爲,應當充分衡量其承受能力,畢竟不是每家都是 BAT 級。

高併發壓力

作技術常常專一於優化,爬蟲開發也是如此,想盡各類辦法增長併發數、請求效率,但高併發帶來的近乎 DDOS 的請求,若是對對方服務器形成壓力,影響了對方正常業務,那就應該警戒了。

若是一旦致使嚴重後果,後果參見『刑法』第二百八十六條:

違反國家規定,對計算機信息系統功能進行刪除、修改、增長、干擾,形成計算機信息系統不能正常運行,後果嚴重的,構成犯罪

因此請爬取的時候,即便沒有反爬限制,也不要肆無忌憚地開啓高併發,掂量一下對方服務器的實力。

影響正常業務

除了高併發請求,還有一些影響業務的狀況,常見的好比搶單,會影響正經常使用戶的體驗。

數據的使用目的

數據使用目的一樣是一大關鍵,就算你經過合法途徑採集的數據,若是對數據沒有正確的使用,一樣會存在不合法的行爲。

超出約定的使用

一種狀況是公開收集的數據,但沒有遵循以前告知的使用目的,好比用戶協議上說只是分析用戶行爲,幫助提升產品體驗,結果變成了出售用戶畫像數據。

還有一種狀況,是有知識產權、著做權的做品,可能會容許你下載或引用,但明顯標註了使用範圍,好比不能轉載、不能用於商業行爲等,更不能去盜用,這些都是有法律明文保護,因此要注意使用。

其餘狀況就不列舉了。

出售我的信息

關於出售我的信息,千萬不要作,是法律特別指出禁止的,參見:

根據《最高人民法院 最高人民檢察院關於辦理侵犯公民我的信息刑事案件適用法律若干問題的解釋》第五條規定,對「情節嚴重」的解釋:
(1)非法獲取、出售或者提供行蹤軌跡信息、通訊內容、徵信信息、財產信息五十條以上的;
(2)非法獲取、出售或者提供住宿信息、通訊記錄、健康生理信息、交易信息等其餘可能影響人身、財產安全的公民我的信息五百條以上的;
(3)非法獲取、出售或者提供第三項、第四項規定之外的公民我的信息五千條以上的便構成「侵犯公民我的信息罪」所要求的「情節嚴重」。
此外,未經被收集者贊成,即便是將合法收集的公民我的信息向他人提供的,也屬於刑法第二百五十三條之一規定的「提供公民我的信息」,可能構成犯罪。

不正當商業行爲

若是將競品公司的數據,做爲本身公司的商業目的,這就可能存在構成不正當商業競爭,或者是違反知識產權保護。

這種狀況在目前涉及爬蟲的商業訴訟案中比較常見,兩年前比較知名的案件,「車來了」 App 抓取其競品 「酷米客」 的公交車數據,並展現在本身的產品上:

雖然公交車做爲公共交通工具,其實時運行路線、運行時間等信息僅系客觀事實,但當此類信息通過人工收集、分析、編輯、整合並配合GPS精肯定位,做爲公交信息查詢軟件的後臺數據後,此類信息便具備了實用性並可以爲權利人帶來現實或潛在、當下或未來的經濟利益,已經具有無形財產的屬性。元光公司利用網絡爬蟲技術大量獲取而且免費使用穀米公司「酷米客」軟件的實時公交信息數據的行爲,實爲一種「坐享其成」、「食人而肥」的行爲,構成不正當競爭。

節選自『深圳市中級人民法院(2017)粵03民初822號民事判決書』

「爬蟲法」即將出臺

好消息是,相關辦法已經在路上了。

5 月 28 日零點,國家互聯網信息辦公室發佈了《數據安全管理辦法》徵求意見稿。

我也查閱了這份意見稿,裏面對數據的獲取、存儲、傳輸、使用等都作了一些規定,包括關於爬蟲行爲的若干規定(還在徵求階段,所以後續可能會有變化)。

好比,第二章第十六條:

網絡運營者採起自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行爲嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求中止自動化訪問收集時,應當中止。

第三章第二十七條:

網絡運營者向他人提供我的信息前,應當評估可能帶來的安全風險,並徵得我的信息主體贊成。下列狀況除外:
(一)從合法公開渠道收集且不明顯違揹我的信息主體意願;
(二)我的信息主體主動公開;
(三)通過匿名化處理;
(四)執法機關依法履行職責所必需;
(五)維護國家安全、社會公共利益、我的信息主體生命安全所必需。

節選自『數據安全管理辦法(徵求意見稿)』

結語

關於爬蟲合法性的研究就到這,有不少案例和角度因爲篇幅沒有提到,也有一些觀點結論可能存在錯誤。

但但願能給各位爬蟲開發者,也包括其餘開發者一些啓示:技術雖中立,使用有善惡,必定要合理合規、嚴格謹慎地使用技術。

本文屬於原創內容,首發於微信公衆號「面向人生編程」,如需轉載請在公衆號後臺留言。

關注後回覆如下信息獲取更多資源 回覆【資料】獲取 Python / Java 等學習資源 回覆【插件】獲取爬蟲經常使用的 Chrome 插件 回覆【知乎】獲取最新知乎模擬登陸
相關文章
相關標籤/搜索