爬虫合法吗?
律师看法
今天在看极客时间的专栏:《白话法律42讲》
其中第18讲《 “爬虫”真的合法吗?》讲到了爬虫的问题。
文章中提到了五点:
那么,根据《中华人民共和国网络安全法》和一些相应的案例,在这里简单总结一下我的看法。
第一,如果你爬取信息,严格遵守“Robots 协议”,没有任何越权的行为,搜集的也是公开可以查询的非隐私级的信息。那么,你的行为基本不会违法。其实很多网站也很希望数据被抓取,比如被百度或者 Google 的爬虫采集。
另外,需要强调的是,“Robots 协议”本身并没有法律效力,但在行业内大家基本都会遵守,法院的判案也越发看重这一点。所以这类爬虫不难理解,没有恶意,也并不攫取非公开类的信息,虽然有时会遭到反感,但是并不违法,也是互联网发展必须的技术。
第二,如果你爬取信息,是为了证明被爬公司的数据造假,其获取的数据也都是通过公开渠道可以查询的,那么,在获取信息后公布于众的行为并不违法,也不侵犯被爬公司的民事权益。但是,如果你爬取公开免费的信息,是用来进行违法操作,比如造假、诽谤等,就有隐患了。
第三,如果你利用爬虫获取其他公司的公开信息数据,用于自身公司的经营。而被爬公司的信息是投入了大量人力、财力,经过常年积累获得的,并且被爬公司本身也采取了反爬措施。这种情况下,虽然信息是公开的,但信息本身具有较高的商业价值,能够给使用者带来商业利益,此时的爬虫也是违法的。
第四,如果你未经平台授权,强行突破反爬措施,导致被爬网站的运行受到严重影响,这种行为明显是违法的,这里涉及的就是我们上一个技术篇讲到的破解犯罪了。
第五,如果你是第三方应用,想要通过开放平台获取用户信息时,更要注意授权问题。从用户对平台的授权、平台对第三方的授权、再到用户对第三方的授权,三重关卡都要通过才合法。
上面的这5点是周甲徳律师他自己的个人观点,字体加粗也是他文章中加粗的内容。
我不是很同意律师的看法,如果强行突破反爬措施,导致被爬网站的运行受到严重影响
可以作为判刑标准,那么爬虫工程师可以全抓进去了。毕竟对方公司可以说自己的网站受到了严重影响。
爬虫工程师判刑案例
大数据-爬取个人信息
19年9月份的时候,好几个大数据爬虫风控公司被查处,员工被带走调查,比如这篇文章:整肃爬虫公司_36氪
受此消息冲击,在魔蝎科技的高管被带走当晚,上海大数据风控平台聚信立随即向商户下发通知,表示将暂停对外提供用户授权的运营商爬虫服务。此外,鹏元征信、立木征信、白骑士等多家大数据风控服务商纷纷暂停部分服务。
这些大数据风控平台主要是通过个人授权爬取征信和个人信息相关数据,肯定是违法的。
根据2017年的司法解释:最高人民法院 最高人民检察院 关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释。
“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。
第五条 非法获取、出售或者提供公民个人信息,具有下列情形之一的,应当认定为刑法第二百五十三条之一规定的“情节严重”:
(三)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;
(四)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;
(五)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的;
(七)违法所得五千元以上的;
(八)将在履行职责或者提供服务过程中获得的公民个人信息出售或者提供给他人,数量或者数额达到第三项至第七项规定标准一半以上的;
也就是说50条公民个人信息就可以定罪了,所以不要爬也不要碰个人隐私信息。
我想到了2019年3月份时,Fenng大在知识星球中转了一篇文章:独家:上亿简历大数据公司被警方一锅端,李开复、中信资本均投资
巧达数据曾对外披露,截至2015年6月30日,乔大招的数据库中,以人为计算,收入自然人的简历超过1.6亿人,以版本来计算,简历超过18亿个版本,超过25亿行为轨迹。
另外一篇爆款微信公众号文章:只因写了一段爬虫,公司200多人被抓!
公司曾宣称通过整合多达2.2亿份自然人简历、100亿个用户识别ID组合和1000亿+用户综合数据,绘制出了涉及中国8亿人口的多维度数据。其中,包含个人隐私与非隐私信息。
此外,巧达科技还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。结合简历、通讯录,以及外部获取的超过千亿条其他用户数据,巧达科技自称拥有超过8亿自然人的认知数据。
在中国裁判文书网上还没搜到判决,应该还没判。
简历中存在大量的个人信息,搞简历爬虫自然是违法的。
今日头条,抖音
搞爬虫然后被抓,我印象中最早的新闻是2018年12月在V2EX上看到这个贴:现在公司写爬虫的风险有多大?还能抓吗? - V2EX
当时的判决书:上海晟品网络科技有限公司、侯明强等非法获取计算机信息系统数据罪一审刑事判决书
这份判决书被浏览了3万多次,看来大家真的很关心这件事情。
如果伪造UA及IP绕过服务器的访问频率限制
就可以判非法获取计算机信息系统数据罪,我觉得程序员就不要搞爬虫了,风险太大。
主犯CEO判一年,爬虫工程师作为从犯判9个月。
爬虫工程师真的很冤,只能怪他在小公司搞爬虫,在大公司搞爬虫就只是不当竞争😂
其他案例
里面提到了几点。
1.如果你提供的爬虫或者爬虫接口被用来做坏事,要判刑。
2.个人隐私抓取和贩卖也不行。
3.利用无版权的商业数据获利。有些数据是允许非商业用途传播的,商业用途很可能就侵权了。
总结
上面说了那么多爬虫不好的案例,可以看这篇文章恢复点信心: 辟谣错误的爬虫说法,使用正确的爬虫姿势
1.个人信息不要碰,不要爬取,提供或使用。
2.请求速度不要太快,防止被爬网站的运行受到严重影响,影响正常业务。
3.黑产不要碰,也要防止自己的爬虫被恶意利用。
4.不允许商业用途的公开数据,不要爬取然后借此盈利。
如果你是刚入门的爬虫工程师,或者还在观望要不要成为爬虫工程师,我建议还是尽早转行比较好,毕竟爬虫还是有风险的。但大公司的爬虫工程师的风险要远小于小公司的爬虫工程师。
最后,如果你不放心,可以到中国裁判文书网上搜索爬虫,看有多少因为爬虫判刑的。
文档信息
- 本文作者:last2win
- 本文链接:https://last2win.com/2020/01/17/spider/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)