爬虫究竟是合法还是违法的?
随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》在程序猿圈子里被大量转载,甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么,爬虫是什么,它会是悬在程序员头上的达摩克利斯之剑吗?
网络爬虫,也叫网络蜘蛛,是一种用来自动浏览万维网的网络机器人。通俗来讲,爬虫就是一项计算机技术,方便用户自动化、高效率地浏览互联网并从互联网上获取数据。最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的GoogleCrawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。
爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。
详细分析
既然我们说爬取数据是有可能触犯法律的,那么我们就需要拆开分析一下到底什么情况下会被法律所制裁。爬取数据操作分为爬取的行为和爬取获得的数据两方面,我们将分别论述。
1.爬取行为的法律风险
1.1民事风险
爬虫目前能造成的技术上影响在于野蛮爬取,即多线程爬取,从而导致网站瘫痪或不能访问,这也是大多数网络攻击所使用的方法之一。
由于爬虫会批量访问网站,因此许多网站会采取反爬措施。例如:1.IP频率、流量限制;2.请求时间窗口过滤统计;3.识别爬虫等。
但这些手段都无法阻止爬虫开发人员优化代码、使用多IP池等方式规避反爬措施,实现大批量的数据抓取。由于网络爬虫会根据特定的条件访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。在《反不正当竞争法》第十二条第二款中我们可以发现,法律会对爬虫的这种行为进行规制。
即经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
Jack Dorsey回应a16z合伙人:老实做你的风投合伙人:1月4日消息,a16z 合伙人 Chris Dixon 在推特上发布谁拥有 Web2,并贴出包括 Jack Dorsey 的 Block(前 Square)在内的 4 家公司股东信息。数据显示,包括摩根士丹利、富达、高盛在内的 Block 公司前十大股权所有者总计持有超 30% 的股份。
对此,Jack Dorsey 回应 Chris Dixon:老老实实做你的 LP(有限合伙人)去吧。Chris Dixon 则表示:a16z 的 LP 主要是高校和基金会。虽然我们试图找到向公众开放 a16z 资金的途径,但当下的美国法律禁止这样做。[2022/1/4 8:24:04]
虽然上述规定是兜底条款,但其体现了法律禁止通过技术手段进行对他人非法干绕的总体原则。
因此,如果网站运营者已经采取了一定的反扒措施,而爬虫开发人员基于经营的目的、强行突破网站运营者采取的反爬措施,并客观上导致了网站无法正常运行,则很有可能构成上述规定所表述的不正当竞争行为。
但是在此种情况下鉴别爬虫者身份仍然是追责的一大阻碍,很多网站由于反爬机制落后,因而在法院诉讼中无法举证证明爬虫者因而得不到法院的支持。京73民终588号案件)
1.2刑事风险
强行突破某些特定的反爬技术措施,还会构成形式犯罪的行为。
《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。
如上所述规定,爬虫开发者在获取数据过程中,一旦突破某些技术防护措施并且操作不当,造成严重后果的,将会构成犯罪,面临牢狱之灾。
MicroStrategy CEO:让BTC为你的金库供电:MicroStrategy CEO Michael Saylor昨晚发推称:“让BTC为你的金库供电,就像电力给你的家供电一样。”[2021/1/15 16:13:59]
2.爬取特定类型的信息的法律风险
凡是能够被电子化记录的都是数据,数据分为两大类。
第一类:非个人数据即此类数据与个人信息无关。此类数据通常是公开数据,因此不适用个人信息保护方面的法律法规。如企业工商注册信息、裁判文书、天气气象数据、环境监测数据、地理测绘、总体性的人口数据、网站访问记录等。第二类:个人数据。即此类数据与个人信息有关,数据的来源是个人信息,且能够或可能识别到个人。其中又包括两类:1.已识别个人身份数据。此类数据完全适用个人数据保护的相关法律法规。如姓名、家庭住址、电话号码等能够确定识别、关联到特定个人的数据,需符合个人数据保护法全部合规要求,包括知情同意、允许用户访问和更正、数据处理正当合法、目的限制、保障安全等。2.可能识别个人身份的数据。此类数据结合业务场景,灵活适用个人数据保护的相关法律法规。如业务场景中,识别风险较高,可按照第二类数据的合规性要求处理,需满足全部合规要求;如识别风险较低,则可选择部分适用。
2.1个人信息的爬取
对于PII信息,其关键点在于用户授权,用户未授权或者授权不充分带来的法律风险很大。
2.1.1不正当竞争风险
例如新浪微博和脉脉发生的案件,一个因为开放API爬取数据引发的案子。
2014年8月,当时刚刚起步的职场社交软件“脉脉”与新浪微博微博闹掰了。脉脉上线之初,曾与新浪微博合作,脉脉的新用户可以通过微博帐号和个人帐号注册登录脉脉,用户注册时还要想陌陌上传手机通讯录联系人。随后,新浪微博发现,脉脉用户的“一度人脉”中,直接显示大量非脉脉用户的微博头像、名称、职业、教育等个人信息。2015年3月,微博主体公司将脉脉主体公司告上法庭。
原来用户使用微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,而这些信息并不在微博与脉脉开放API协议中,并且微博停止脉脉所有的接口权限后,脉脉依然在抓取相关数据,微博认为脉脉通过非法手段获取信息。最终法院判决脉脉停止不正当竞争行为,并赔偿损失。
《富爸爸,穷爸爸》作者:存好你的黄金、白银和比特币:《富爸爸,穷爸爸》的作者Robert Kiyosaki今日发推称,1971年之后美元成为了负债国。债务让富人更富,让穷人和公司更穷。如果美国债务与GDP之比达到60%就该引起警惕了。如今,美国债务GDP之比已经到了110%,而且还在攀升。美帝正面临破产。债务、美元和贪婪正在摧毁生命和世界经济。存好你的黄金、白银和比特币。[2020/4/2]
这个案件中,法院确立了一个原则,即平台要获取用户信息必须获得授权,平台之间通过开放API获取数据必须经过“用户授权-网站授权-用户授权”的规则。
2.1.2侵犯隐私权风险
例如西民初字第28460号:王刃与北京奇虎科技有限公司隐私权纠纷案件中,原告王刃因个人手机登记为所投资公司联系电话,被奇虎科技360手机卫士标记手机号码功能标记显示为公司号码,导致原告王刃手机被被叫方误认为是电话,因之以侵犯隐私权起诉360手机安全卫士所属公司奇虎科技。
在该案件中,法院提出,“被告出示的证据可以证明原告所使用的号码已经在企业黄页被公开披露,原告在工商行政管理机关登记企业信息时,亦将该手机号码予以登记,以备信息查阅。被告通过大数据比对功能,确定该手机号码与浙江维特网络信息有限公司合肥分公司相对应,并进行标记,其信息并无错误,且软件标记的企业信息,而非公民个人信息。被告已证实其获取手机号码对应的标记信息均来源于公开渠道,因此亦不能认定被告标记号码的行为侵犯了其隐私权”。同时,法院还认为:“对于360手机卫士软件中主动标记企业信息的功能,本院认为仍存在一定改进之处,我国小微企业的业主为工作方便、节约资源,将私人电话作为办公电话使用是普遍情况,这并不意味着手机号码被登记在工商行政管理机关后,就专用于商务。如非号码所有人主动申请标记,建议针对被标记号码采取短信确认的方式,对所有人有所提示,有助于其获得相应知情权”。
因而我们可以知道,本案确立了公开获取数据的合法性,但又要求数据服务方对个人信息标记使用应获得用户同意,也即重申了“默示同意”的许可方式,同时又强调了“用户同意”即用户授权的原则。
声音 | 赵东:比特币靠算法证明保管好私钥你的就是你的:Dfund创始人赵东今日微博回应网友所谈“私产问题”时表示,所以比特币最牛,靠算法数学知道是你的,不需要证明,也不用任何人承认,保管好私钥,你的就是你的。该网友认为,私产本来也是一个幻象,真正区别只在于别人是否承认,没人承认的私产就不是私产。一个国家是不是主权国家一个要素也是国际承认。[2018/10/5]
2.1.3刑事风险
爬取个人信息还有可能会面临牢狱之灾,《中华人民共和国刑法》第二百五十三条之一所涉的“侵犯公民个人信息罪”及第二百八十六条之一所涉的“拒不履行信息网络安全管理义务罪”就是爬虫在个人信息爬取过程中经常触碰到的“红线”。
同时,与《网络安全法》同日实施的最高人民法院、最高人民检察院《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》也明确了情节严重的几种类型:
非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;——高度敏感信息
非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;——敏感信息
非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。
此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。例如浙0602刑初1145号案中,当事人就采用非法手段获取淘宝和支付宝中的个人信息,并提供、转售给他人,非法获利了巨额的财产。
2.1.4行政处罚风险
《网络安全法》第六十四条规定,违反本法第四十四条规定,窃取或者以其他非法方式获取、非法出售或者非法向他人提供个人信息,尚不构成犯罪的,由机关没收违法所得,并处违法所得一倍以上十倍以下罚款,没有违法所得的,处一百万元以下罚款。
即便是非法获取数据的严重性没有达到入罪的标准,但是大概率上也会被行政机关进行处罚的,并且额度还不低,通常都以“万”来计,就算程序员收入高,也受不了这种程度的处罚吧。
火绒团队发出警告 挖矿病或已植入你的电脑之中:12月19日,火绒安全团队发出警报,当用户从某网站下载激活工具KMSpico(简称KMS)时,电脑将被植入挖矿病“Trojan/Miner”。病入侵用户电脑后,会利用电脑疯狂“挖矿”(生产“门罗币”),让这些用户电脑沦为他们牟取利益的“肉鸡”。同时,火绒安全团队发现,该网站在百度、谷歌、必应等多家搜索引擎中,搜索结果位置都极靠前。[2017/12/19]
2.1.5总结
爬取涉及个人信息的数据总体风险较高,如果爬取数据没有获得用户授权则存在侵犯人格权的风险。同时,爬取存在竞争关系平台上的数据时,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌不正当竞争;更严重的是,还可能因非法获取公民个人信息、非法侵入计算机信息系统、非法获取计算机信息系统数据等涉嫌犯罪,招致刑罚。
2.2non-PII的爬取
对于这类数据的爬取,目前市面上通常的做法都是爬取公开数据,例如靠爬虫发家的“聚信立”公司。爬取这类数据的风险系数相对较低,毕竟通常不会涉及个人隐私与个人信息,但也并非毫无风险。可能会有哪些风险呢?
2.2.1著作权侵权风险
就著作权本身而言,无论是文章、图片、视频、用户评论以及网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对这些信息的获取,是否构成著作权侵权需要拆分分析:
1)在访问页面的行为下,由于爬虫是模仿人工访问机制进行页面访问操作的,因而该访问行为不会构成侵权,但如上述分析,如果该访问行为造成被访问页面反爬措施失效或者网站瘫痪,则会构成侵权。2)对于数据保存而言,从著作权的角度上来说,抓取行为是对信息的复制,因此该行为有可能侵犯著作权人的复制权。3)就数据提取和使用行为而言,如果爬取的数据被用于展示在公开的网站或者渠道,则会侵犯著作权人的信息网络传播权。
大众点评网诉爱帮网的诉讼中,大众点评网在前两轮诉讼中就是以爱帮网侵犯原告享有著作权的商户介绍和点评为由,起诉了爱帮网,最终以爱帮网停止使用该作品胜诉。海民初字第4253号
2.2.2不正当竞争风险
同样是大众点评网,在2016年还起诉了百度,原因是百度未经许可,使用爬虫技术从大众点评网上大量获取用户点评信息,用于自家的百度地图及百度知道产品。
最终一审判决认定百度构成不正当竞争行为,停止侵权并赔偿323万元。有图有真相:
也即,如果公司业务中存在可能爬取竞争对手数据的情况,要格外注意这项风险。法院会首先判断双方是否存在竞争关系,进而判断爬取数据的一方是否存在“不劳而获”和“搭便车”的行为。如果是,就是上面的结果。
2.2.3刑事风险
1侵犯著作权罪
根据《中华人民共和国刑法》第二百一十七条规定,侵犯著作权罪是指以营利为目的,未经著作权人许可复制发行其文字、音像、计算机软件等作品,出版他人享有独占出版权的图书,未经制作者许可复制发行其制作的音像制品,制作、展览假冒他人署名的美术作品,违法所得数额较大或者有其他严重情节的行为。
案例:2014年3月,被告人何某设立“车城小说”网站,其通过租赁海外服务器并运行其从互联网上下载的“关关采集”抓取软件,在未获起点中文网许可的情况下,擅自抓取、复制650部文字作品,存储于自己的服务器上,供“车城小说”网站用户免费阅读。
何某通过在“车城小说”网站网页内刊登广告获取广告收益,非法营利数额达人民币19万余元。法院认定,何某抓取并通过信息网络传播作品的数量高于法定追诉标准的500件,且营利数额超过5万元,构成侵犯著作权罪,判处有期徒刑1年,并处罚金10万元。闵刑初字第59号
2非法侵入计算机信息系统罪
根据《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。
案例:在严某犯非法侵入计算机信息系统罪一案中,严某是一位协警,通过侵入警局内网,获取并篡改数据,达到非法获利的目的,触犯了“非法侵入计算机信息系统罪”,锒铛入狱。广利州刑初字第260号
3非法获取计算机信息系统数据罪
《刑法》第二百八十五条还规定,违反规定侵入普通的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据的,情节严重的,构成非法获取计算机信息系统数据罪。
案例:南京同享网络法定代表人张某、副总经理沈某组织员工编写模拟程序,非法获取掌门科技“WIFI万能钥匙”数据库内的WIFI热点密码数据案,最终法院认定构成非法获取计算机信息系统数据罪,上述两人最终被判刑三年并处罚金。杨刑初字第232号
4总结
爬取non-PII数据总体风险较低,但仍不要大意。
轻则可能构成侵犯著作权,如果有竞争关系,还可能因实质替代获取不正当竞争优势、干扰或破坏他人网络服务的正常运行,涉嫌构成不正当竞争;
重则可能因绕开技术措施非法获取数据,涉嫌侵犯商业秘密,涉嫌构成非法侵入计算机信息系统、非法获取计算机信息系统数据罪等罪。
对于广大程序员来说,如何避免爬虫所带来的法律风险?
敲黑板!!重点来了!!!
如前面所述,爬虫所带来的风险主要有:
违反网站意愿,例如网站采取反爬措施后,强行突破其反爬措施;
爬虫干扰了被访问网站的正常运营;
爬虫抓取了受到法律保护的特定类型的数据或信息。
其中,第3类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。
因此,爬虫开发者在使用爬虫时应注意:
严格遵守网站设置的robots协议;
在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;
在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
参考文献
《网络爬虫全解析:技术、原理与实践》,罗刚,电子工业出版社《法说数据|“爬”数据有哪些法律风险?》https://www.sohu.com/a/213059054_455817《数据之争:网络爬虫涉及的法律问题》,瞿淼,http://www.kwm.com/zh/cn/knowledge/insights/legal-issues-concerning-web-crawlers-20180525#ref-id-here《爬虫凶猛:爬支付宝、爬微信、窃取现金贷放贷数据》,戈森,http://36kr.com/p/5102037.html《<网络安全法>背景下大数据业务合规要点》,http://lawgeek.info/https://baike.baidu.com/item/网络爬虫/5162711?fr=aladdin
答谢
大家都知道咸鱼也是一个爬虫爱好者,本文所论述的问题也是咸鱼关心的,对于这个问题,咸鱼在交流群里和群友讨论过也和其他的爬虫大佬交流过,但毕竟不是相关专业的难免害怕触碰红线心里有点虚,正好在咸鱼为数不多的读者中有一位从事法律行业的大佬,于是就有了这篇文章。
本文由群友不二辰投稿,刚刚得知他的职业之后我第一个问的问题就是,爬虫合法吗?之后大佬熬夜整理了资料写下这篇文章,正好解决了咸鱼心中的疑虑,希望对正在学习爬虫或已经入职爬虫工程师的你们有所帮助,再次感谢不二辰的辛苦付出!
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。