Python爬虫的法律边界(二)小爬怡情,大爬over!

数据抓取的门槛越来越低,会点程序,或使用网络工具都可以薅点数据,新入行了不少爬虫选手,但是对抓取使用数据的法律风险可能缺少认识。尤其是从去年的《网络安全法》实施开始,被新闻公开报道的相关法律诉讼已有好几起。

有人会争议互联网本质是鼓励分享,很多UGC的网站内容还是用户贡献的,网络公开数据应该都可以使用。

我也希望是这样,但现实不是这样。

所以抓取数据前你最好看下被抓对象的知识产权申明,如果你是公司职员也关心下公司让你抓取数据的用途,多少了解下潜在风险。

以下是几个典型的爬虫选手爱光顾的网站知识产权申明。

经常抓点评数据的小哥们看下,上述是点评网的知识产权申明:用户发布的商店点评,评论,图片知识产权属于大众点评,未经许可,任何使用都是非法。

上述是微博的申明,未经书面许可,任何抓取微博内容都是非法抓取。爬虫老哥们有哪一个没抓过微博的?

上述是穷游网的知识产品申明,用户发布的旅游攻略所有权是穷游网的。

上述是比较典型的几个UGC网站,做点评的,做社交的,做攻略的。创业公司数据冷启动时,有几个没有抓过他们家的数据?

这个潜在风险是存在的,就看你有没被对方顶上。

以下是几个法院判决案例:

大众点评诉讼百度地图非法使用点评数据,百度败诉,赔钱。

来自网易新闻

酷米客状告车来了非法抓取他家的公交信息,车来了败诉,车来了老板被三年刑期缓刑。

来自金融界百家号

新三板上市公司“数据堂”,公司业务是数据标注和数据交易,他家也是大量抓取数据。后涉嫌倒卖用户数据,公司高管被起诉。

从上面可以看出:

大公司斗法输了赔钱,小公司输了是人身自由。

还是那句,爬虫有风险,开爬要谨慎。

什么样的行为容易踩雷:

  • 双方业务是竞争关系,比如:上述酷米客和车来了都是提供公交信息查询。
  • 有商业利益关系。比如:上述点评网和百度地图。
  • 涉及用户隐私。
  • 你的爬虫扰乱了对方的业务,遭对方狠,比如前一篇所讲的刷搜索引擎排名。

法院的定罪依据条例有哪些:

  • 《刑法》第285条,非法获取计算机信息系统数据罪。
    最高处七年有期徒刑。比如 上述车来了案例。
  • 《刑法》第286条,破坏计算机信息系统罪。
    最高处五年以上。比如为了抓取数据,破解登陆密码,反编译APP。
  • 《网络安全法》,倒卖隐私数据链条上的一环。
    你把抓取的数据倒卖给坏人,坏人拿数据做了坏事,你就是这其中一环。

以下是一些引起争议的话题,我以问答对的形式展开。

问:百度,谷歌是世界最大的爬虫工厂,他们为什么没遭殃呢?

答:这涉及商业利益,用户在搜索引擎点击链接后,流量会引回被抓取网站,某方面来说是一个双赢。对方没被必要去搞百度。

谷歌在欧洲其实遇到了一些问题,欧洲一些新闻媒体认为谷歌抓取他们的内容,谷歌应该向他们支付费用。

今日头条之前把抓取的新闻内容留在自己网站上,而不是跳转回对方网站,这其实是违法的,所以也遭遇了十几起的诉讼,这主要还是商业利益问题。现在内容创业你抓取的内容,最好只提供摘要,全文链接要跳回对方网站。

问:公司让我抓的,跟我没关系?

答:错!上图。

《刑法》第285条解释,对公司处罚金,直接主管和直接人员也game over。

所以公司的损失是钱,你和项目主管的损失可能是人身自由。

问:互联网是公开的,UGC内容为什么不能用?

答:上面说UGC网站的知识产权已经申明清楚了,而我们在注册这些网站账号时,你也就默认认可了这个协议,这是受法律认可的。

问:robots.txt能限制爬虫吗?

答:不能。那只是一个不成文的约定,一没有法律效应,二也没有强制作用。道德感强点的也许会遵守robots.txt规定。就算你在robots.txt里写明了不允许搜索引擎爬虫抓取,搜索公司照样若如无人之地来光顾你的网站。

而且,现在一些搜索公司的爬虫已经不会把user-agent都写成Spider字样了,有的user-agent都是正常浏览器的头信息,有兴趣的,可以看下你家网站web服务器的访问日志IP记录。

问:提供爬虫工具的有风险吗?

答:有!上图。

还是《刑法》第285条,提供工具的,一样有上述风险。比如网络上某某爬虫软件,可以直接帮助抓取很多网站数据,万一使用数据的人干出惊天大案,这有连带责任。

但上述都是商业公司的商业竞争行为,相互斗法,个人爬虫爱好者的风险较小。但随着数据安全,网络安全,用户隐私方面的法律越来越健全,很容易踩雷。

但你要遵守一个规则:小爬怡情,大爬over。

还是那句:不要直接商用抓取的数据,不要涉及用户隐私数据,

在老板让你抓数据前,先把这篇文章留给他看下。

注:所写文章的初衷是希望爬虫选手们了解抓取和运用数据的潜在风险。

注:若你涉及相关上述法律问题,请咨询专业的知识产权律师,上文不是专业建议。

如果你依然在编程的世界里迷茫,不知道自己的未来规划,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!
自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、人工智能、数据挖掘等,零基础到项目实战的资料都有整理。
送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,这里是python学习者聚集地

点击:python技术分享

原文地址:https://blog.51cto.com/14304496/2386925

时间: 2024-08-28 18:04:15

Python爬虫的法律边界(二)小爬怡情,大爬over!的相关文章

Python爬虫的法律边界(一)爬虫有风险,开爬要谨慎!

来交代一下,你抓了多少数据,在哪抓的,干什么用了,看够在里面待几年. 从去年开始我看到好几起因为抓取数据而遭遇诉讼,有的锒铛入狱,有的被处罚金,从案件的模糊描述来看,我看得后背发凉,似乎每个爬虫选手都有被KO的风险. 这几个月也停止了几个抓取工作,把有关的法律和新闻认真看了几遍,写了如下文章. PS:这里讨论的是网络爬虫技术本身,爬虫技术的手法可以用来抓群数据,还可以做其它事情,比如登录社交账号自动发帖,比如刷搜索排名等等. <刑法>对网络爬虫的定罪依据 <刑法>第 285 条,非

币小站日志2--我的“币小站”是否违法?爬虫的法律边界在哪里?

币小站日志2--我的"币小站"是否违法?爬虫的法律边界在哪里? 案例分享 我在github上找到了一个项目,10日前才更新过,汇总了一些和爬虫相关的按键(https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China)10天前是最后一次提交.读取之后发现 爬虫的法律边界到底在哪里? 软件在现实生活中是在太重要了,而现在又是个数据为王的时代.法律可能事无巨细的面面俱到 但是法律没规定不代表什么软件就真的可以为所欲为,我

python爬虫框架scrapy初试(二)

将该导航网站搜索出结果的页面http://www.dmoz.org/Computers/Programming/Languages/Python/Books/里面标题,及标题的超链接和描述爬下来. 使用scrapy抓取一个网站一共需要四个步骤. ---创建一个scrapy项目 ---定义item容器 ---编写爬虫 ---储存内容 1.新建一个项目 scrapy startproject demoscrapy 2.定义item容器(定义要爬取的内容) 3.编写爬虫(这里以官网的教程为例子) im

Python爬虫入门【2】:妹子图网站爬取

妹子图网站爬取---前言 从今天开始就要撸起袖子,直接写Python爬虫了,学习语言最好的办法就是有目的的进行,所以,接下来我将用10+篇的博客,写爬图片这一件事情.希望可以做好. 为了写好爬虫,我们需要准备一个火狐浏览器,还需要准备抓包工具,抓包工具,我使用的是CentOS自带的tcpdump,加上wireshark ,这两款软件的安装和使用,建议你还是学习一下,后面我们应该会用到. 妹子图网站爬取---网络请求模块requests 妹子图网站爬取---安装requests 打开终端:使用命令

Python爬虫|深入请求(四)常见的反爬机制以及应对方法

作者:David Qian 链接:https://zhuanlan.zhihu.com/p/21558661 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 大家好!我是厦门大学王亚南经济研究院的大一学生,今天将由我来为大家介绍一下常见的反爬机制以及应对方法. 注:非商业转载注明作者即可,商业转载请联系作者授权并支付稿费.本人已授权"维权骑士"网站(http://rightknights.com)对我在知乎发布文章的版权侵权行为进行追究与维权. ---

Python爬虫常用之登录(二) 浏览器模拟登录

浏览器模拟登录的主要技术点在于: 1.如何使用python的浏览器操作工具selenium 2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些 一.使用selenium打开网页 from selenium import webdriver url = 'https://passport.cnblogs.com/user/signin' driver = webdriver.Firefox() driver.get(url) 以上几句执行便可以打开博客园的登录

Python爬虫实践 —— 7.秘密网鬼故事大全故事爬取(lxml xpath+requests)

因为教程的demo网站糗事百科已经gg(好像是涉及用户私人信息什么的原因),所以我就只好随便找了个网站练手. 前几天学习了部分lxml的用法,主要是etree,因为4.4.2版本的更新,etree现在在ElementInclude包内,直接引用是不行了,并且etree添加了新的parser,调用parse方法时要先实例化HTMLparse方法,当然我这个垃圾爬虫没有用爬取html和数据清洗两个步骤分离,而且demo么没有用多线程,导致爬200个鬼故事,几mb的txt,爬取写入时间真的不是很理想啊

python爬虫框架scrapy初试(二点一)

功能:爬取某网站部分新闻列表和对应的详细内容. 列表页面http://www.zaobao.com/special/report/politic/fincrisis 实现代码: import scrapy class ZaobaoSpider(scrapy.Spider): name = 'zaobao' start_urls=["http://www.zaobao.com/special/report/politic/fincrisis"] def parse(self,respon

Python爬虫入门教程 15-100 石家庄政民互动数据爬取

1. 石家庄政民互动数据爬取-写在前面 今天,咱抓取一个网站,这个网站呢,涉及的内容就是 网友留言和回复,特别简单,但是网站是gov的.网址为http://www.sjz.gov.cn/col/1490066682000/index.html 首先声明,为了学习,绝无恶意抓取信息,不管你信不信,数据我没有长期存储,预计存储到重装操作系统就删除. 2. 石家庄政民互动数据爬取-网页分析 点击更多回复 ,可以查看到相应的数据. 数据量很大14万条,,数据爬完,还可以用来学习数据分析,真是nice 经