Python爬虫的法律边界（一）爬虫有风险，开爬要谨慎！

来交代一下，你抓了多少数据，在哪抓的，干什么用了，看够在里面待几年。

从去年开始我看到好几起因为抓取数据而遭遇诉讼，有的锒铛入狱，有的被处罚金，从案件的模糊描述来看，我看得后背发凉，似乎每个爬虫选手都有被KO的风险。

这几个月也停止了几个抓取工作，把有关的法律和新闻认真看了几遍，写了如下文章。

PS：这里讨论的是网络爬虫技术本身，爬虫技术的手法可以用来抓群数据，还可以做其它事情，比如登录社交账号自动发帖，比如刷搜索排名等等。

《刑法》对网络爬虫的定罪依据

《刑法》第 285 条，非法获取计算机信息系统数据罪。

获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，

处三年以下有期徒刑或者拘役，并处或者单处罚金; 最高处七年有期徒刑并处罚金。

《刑法》第285条是对爬取数据的主要定罪依据，有兴趣可以去查下×××刑法。

定罪的几个案例：

从已有案例来看有以下几种情况：
1.数据拥有者有证据能够举证你的数据是抓取来的。如下，今日头条对起诉上海晟品法院宣判结果。

图片文字来自中国判决文书网。

从文书描述来看，修改UA，修改device id，绕开网站访问频率控制这是写爬虫的基本，这些手法反而成为了获罪的依据。

2.用户社交数据，尤其是用户隐私相关。

图片文字来自新浪网

3.扰乱对方网站经营规则，且牟利。比如这个：

图片文字来自中国永嘉公号

图上描述做搜索引擎排名的技术，其实就是利用爬虫技术规模化的访问网页。

在我们通常的认知里，因为互联网推崇分享精神，所以认为只要是网络公开数据就可以抓取，但是通过上面的案例来看，

有几个禁忌，抓取的数据最好不要直接商用，涉及社交信息/用户信息要谨慎，老板交代你抓取敏感任务时，让老板先看下刑法第285条。

这不代表个人行为就没事，只是还没入他们的法眼。

在数据抓取这方面，美国也有一个判决案例，美国一家小公司向法院起诉Linkedin，理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据，
而且法院判定这家公司胜诉，裁定Linkedin不准屏蔽这家公司的抓取行为。

目前我国法律是偏向数据拥有者的，如果数据拥有着者有证据向法院起诉的话，抓取数据的一方多半会败诉。

另外在抓取过程中，如果破解/反编译对方客户端、软件，破解加密算法，

比如你抓某APP数据，去反编译他的客户端，这绝对是犯法，这是破坏计算机信息系统罪。

爬虫有风险，开爬要谨慎。

如果你依然在编程的世界里迷茫，不知道自己的未来规划，可以加入我们的Python学习扣qun：784758214，看看前辈们是如何学习的！交流经验！
自己是一名高级python开发工程师，从基础的python脚本到web开发、爬虫、django、人工智能、数据挖掘等，零基础到项目实战的资料都有整理。
送给每一位python的小伙伴！分享一些学习的方法和需要注意的小细节，这里是python学习者聚集地

点击：python技术分享

原文地址：https://blog.51cto.com/14304496/2386923

时间： 2024-11-01 15:30:18

Python爬虫的法律边界（一）爬虫有风险，开爬要谨慎！的相关文章

Python爬虫的法律边界（二）小爬怡情，大爬over！

数据抓取的门槛越来越低,会点程序,或使用网络工具都可以薅点数据,新入行了不少爬虫选手,但是对抓取使用数据的法律风险可能缺少认识.尤其是从去年的<网络安全法>实施开始,被新闻公开报道的相关法律诉讼已有好几起. 有人会争议互联网本质是鼓励分享,很多UGC的网站内容还是用户贡献的,网络公开数据应该都可以使用. 我也希望是这样,但现实不是这样. 所以抓取数据前你最好看下被抓对象的知识产权申明,如果你是公司职员也关心下公司让你抓取数据的用途,多少了解下潜在风险. 以下是几个典型的爬虫选手爱光顾的网站知识

币小站日志2--我的“币小站”是否违法？爬虫的法律边界在哪里？

币小站日志2--我的"币小站"是否违法?爬虫的法律边界在哪里? 案例分享我在github上找到了一个项目,10日前才更新过,汇总了一些和爬虫相关的按键(https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China)10天前是最后一次提交.读取之后发现爬虫的法律边界到底在哪里? 软件在现实生活中是在太重要了,而现在又是个数据为王的时代.法律可能事无巨细的面面俱到但是法律没规定不代表什么软件就真的可以为所欲为,我

python学习（二）百度爬虫0.1

参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握. 我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警. 因此,基于需求,分如下步骤: 第一:基于Scrapy创建爬虫项目: 第二:新建TieBaSpider爬虫: 第三:新建外部关键字库dictionary.txt文件,贴吧地址配置url.txt文件: 第一步参考晚上案例. 从第二步开始,编写爬虫,同时创建实例对象以及创

python&php数据抓取、爬虫分析与中介，有网址案例

最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示网站是:http://se.dianfenxiang.com python&php数据抓取.爬虫分析与中介,有网址案例,布布扣,bubuko.com

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

Python爬虫的法律边界（一）爬虫有风险，开爬要谨慎！

《刑法》对网络爬虫的定罪依据

定罪的几个案例：

Python爬虫的法律边界（一）爬虫有风险，开爬要谨慎！的相关文章

Python爬虫的法律边界（二）小爬怡情，大爬over！

币小站日志2--我的“币小站”是否违法？爬虫的法律边界在哪里？

python学习（二）百度爬虫0.1

python&php数据抓取、爬虫分析与中介，有网址案例

python速成第二篇（小爬虫+文件操作+socket网络通信小例子+oop编程）

[python]南邮OJ代码备份爬虫

Python爬虫学习：三、爬虫的基本操作流程

python写的简单有效的爬虫代码