我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

2015-08-06 猿圈

　　　　　　　　　　　　　　　　　　　　

我用爬虫一天时间“偷了”知乎一百万用户

只为证明PHP是世界上最好的语言

看了不少朋友圈里推荐的Python爬虫文章，都觉得太小儿科，处理内容本来就是PHP的强项，Python唯一的好处估计也就天生的Linux自带，和Perl一样，这点觉得挺不够意思的 Linux，还是Mac厚道，天生就自带了Python、Perl、PHP、Ruby，当然我也很讨厌讨论一门语言的好坏，每门语言存在就一定有它的道理，反正PHP是全世界最好用的语言，大家都懂的！

前几天比较火的是一个人，用C#写了一个多线程爬虫程序，抓取了QQ空间3000万QQ用户，其中有300万用户是有QQ号、昵称、空间名称等信息的，也就是说，有详情也就300万，跑了两周，这没什么，为了证明PHP是全世界最好的语言，虽然大家都懂的^_^，我用PHP写了一个多进程爬虫程序，只用了一天时间，就抓了知乎100万用户，目前跑到第8圈(depth=8)互相有关联(关注了和关注者)的用户。

　　　　　　　　　　　　　　　　　

爬虫程序设计

因为知乎需要登录才能获取到关注者页面，所以从chrome登录之后把cookie拷贝下来给curl程序模拟登录。

使用两大独立循环进程组(用户索引进程组、用户详情进程组)，用的是php的pcntl扩展，封装了一个非常好用的类，使用起来和golang的携程也差不多了。

下面是用户详情的截图，用户索引代码类似

　　　　　　　　　　　　　　

这里插个题外话，经过测试，我的8核的Macbook，跑16进程的速度最快，而16核的Linux服务器，居然是跑8进程最快，这点有点让我莫名其妙了，不过既然测试出最后进程数，就按照最后设置就好啦。

1、用户索引进程组先以一个用户为起点，抓取这个用户的关注了和关注者，然后合并入库，因为是多进程，所以当有两个进程在处理同一个用户入库的时候就会出现重复的用户，所以数据库用户名字段一定要建立唯一索引，当然也可以用redis这些第三方缓存来保证原子性，这个就见仁见智了。

通过步骤一之后，我们就得到下面的用户列表：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

2、用户详情进程组按照时间正序，拿到最先入库的用户抓取详情，并且把更新时间更新为当前时间，这样就可以变成一个死循环，程序可以无休止的跑，不断的循环更新用户信息。

程序稳定运行到第二天，突然没有新数据了，检查了一下发现知乎改规则了，不知是为了防我，还是碰巧，反正给我返回的数据是这样的

　　　　　　　　　　　　　　　

第一感觉就是胡乱给我输出数据让我采集不到，换了IP、模拟伪装了些数据，都没用，突然感觉这个很熟悉，会不会是gzip？抱着怀疑的态度，试了试gzip，首先当然是告诉知乎不要给我gzip压缩过的数据

把 ”Accept-Encoding: gzip,deflate\r\n”; 改成 ”Accept-Encoding:deflate\r\n”; 去掉了 gzip，然并卵！

看来知乎是强制要给我gzip压缩数据了，既然如此，那我就解压呗，查了一下php解压gzip，发现就一个函数gzinflate，于是把获取到得内容加上：

$content = substr($content, 10);

$content = gzinflate($content));

这里我真想说，PHP真的是全世界最好的语言，就两个函数，就彻底解决了问题，程序又欢快的跑起来了。

在匹配内容的时候，知乎的细心也是给了我无数的帮助，例如我要分清用户性别：

　　　　　　　　　　　　　　　　　　　　　　

　　　　　　　　　　　　　　　　　　　　　　

哈哈开玩笑的拉，其实是样式里面有 icon-profile-female 和 icon-profile-male ^_^

我蛋疼的抓了它那么多用户，到底有什么用呢？

其实没什么用，我就是闲的蛋疼 ^_^

有了这些信息，其实就可以做一些别人开头闭口就乱吹一通的大数据分析拉。最常见的当然是：性别分布、地域分布、职业分布、每个职业的男女比例。

当然，按照关注人数、浏览人数、提问数、回答数等排序，看看人民都在关注什么，民生、社会、地理、政治，整个互联网都尽收眼底拉。

也许，你还可以把头像拿来分析，用开源的验黄程序，把色情的筛选出来，然后去拯救东莞？ ^_^然后，你还可以看看那些大学出来的人，最后都干了什么。

有了这些数据，是不是可以打开脑洞 ^_^

下面是利用这些数据做出来的一些有趣的图表，实时图表数据可以去 http://www.epooll.com/zhihu/ 上看

　　　　　　　　　　　　

来源：杨泽涛

java学习 (ID: java4fun)(←长按复制)

专注于 Java 技术分享。

（复制微信号，搜索公众号即可关注）

如何关注

1、将微信升级到最新版本，长按二维码，选择“识别图中二维码”即可关注。

2、若无法识别二维码，在微信界面“添加朋友”项进入“查找公众号”，输入“java学习”，亦可关注。

3、为了大家可以更好的交流java技术，可以加入qq群：432784980 “java学习”。

推荐文章：

《招聘一个靠谱的iOS》—参考答案（上）

点击阅读原文查看

时间： 2024-08-27 23:01:58

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言的相关文章

Python爬虫入门【21】：知乎网全站用户爬虫 scrapy

全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎.继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟这个系列到这个阶段需要不断使用scrapy进行过度,so,我写了一会就写完了. 你第一步找一个爬取种子,算作爬虫入口 https://www.zhihu.com/people/zhang-jia-wei/following 我们需要的信息如下,所有的框图都是我们需要的信息. 获取用户关注名单通过如下代码获取网页返

Java 爬虫入门(网易云音乐和知乎实例)

最近公司赶项目,过上了996的生活,周日还要陪老婆,实在没时间静下来写点东西,于是导致了swift编写2048的第三篇迟迟没有开工,在此说声抱歉,尽量抽时间在这周末补出来. 首先来介绍下爬虫的作用,爬虫主要用于大批量抓取网站中我们所需数据,其实就是模拟出http请求,之后解析分析所得的数据获取我们需要的信息的这么一个过程. 由于网上已经有很多现成的爬虫框架了,这里就不重复造轮子了,先给大家说一下原理,大家可以自己尝试写一个,至于具体实现这篇只带来一个框架的使用实例,让大家可以根据例子快速写出所需

坚果云的成长烦恼：互联网巨头乌云笼罩(1年多时间, 坚果云已经拥有接近百万注册用户)

来源:新闻媒体编辑:武陵门户网更新时间:2013-05-18 特约记者赵凤玲上海报道自从用上了坚果云,李俊(化名)再也没有专门为了某个文件而跑一趟公司.而李俊所在的五个人的市场团队再也不用频繁地相互转发最新的市场策划文本,只要有人在坚果云团队版中更新文档,就可以保证团队中所有人手上的文档总是最新的.这不仅减少了每个人邮件转发文本的麻烦,还可以确保每个人对外发送文本的一致,避免了错误地使用“过期”文本给客户带来的困扰. 从去年3月份上线至今,坚果云已经拥有接近百万注册用户,用户日活跃率达

折腾了一个晚上的业余时间，终于把一块廉价的tftlcd连到了我的树莓派上

网上搜索了下型号,果然有老外用同样液晶屏在树莓派上,而且提供了内核驱动参数,在命令行modprobe一点问题都没有可以成功加载,这个过程半个小时就ok了,大部分时间都浪费了在启动时候加载内核的调试上在/etc/modules添加内核后如果带参数肯定加载是被说找不到内核不带参数,fbtft的液晶屏幕内核驱动因为缺少参数不能加载. 在/etc/modprobe.d/创建conf后 ,复制加载内核驱动的那几行仍然失败.翻来覆去的调试终于tmd想明白了,man modprobe.d里面有介绍手动调试

如何设置IIS程序池的回收时间，才能最大程度的减少对用户的影响?

作为.Net开发人员,其实对IIS的应用程序池知之甚少,前段时间被问到一个问题: 对于互联网web应用,如何在用户毫无感知的情况下回收程序池?(对用户产生最小的影响) 简单理解IIS应用程序池应用程序池可以看成是装载计算机分配给Web应用程序的内存的容器. 网络上有人这样比喻:如果内存是水,那么应用程序池就是鱼缸,Web应用程序就是鱼缸里的金鱼.多个Web应用程序可以放在同一个应用程序池里面,也就是说一个鱼缸可以养多条金鱼.如果金鱼多了,鱼缸的的空间有限,那么金鱼之间就会争抢生存空间,不是很坚

python爬虫beta版之抓取知乎单页面回答（low 逼版）

闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品牌以及分类,这次也是用python来搞简单的抓取单页面版,后期再补充哈. #-*- coding: UTF-8 -*- import requests import sys from bs4 import BeautifulSoup #------知乎答案收集---------- #获取网页body

python scrapy简单爬虫记录(实现简单爬取知乎)

之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子使用的环境是python2.7, scrapy1.2.0 首先创建项目在要建立项目的目录下执行命令scrapy startproject tutorial scrapy会帮你建立好项目,接着创建蜘蛛scrapy genspider zhuhuSpider zhihu.com 当前的文件结构是 --tutorial --spiders --__init__.py --zhihuSpid

时间空间效率的平衡：第一个只出现一次的字符位置

在一个字符串(1<=字符串长度<=10000,全部由大小写字母组成)中找到第一个只出现一次的字符,并返回它的位置 import java.util.LinkedHashMap; public class Solution { public int FirstNotRepeatingChar(String str) { LinkedHashMap<Character, Integer> map = new LinkedHashMap<Character, Integer>

关于php网络爬虫phpspider。

前几天,被老板拉去说要我去抓取大众点评某家店的数据,当然被我义正言辞的拒绝了,理由是我不会...但我的反抗并没有什么卵用,所以还是乖乖去查资料,因为我是从事php工作的,首先找的就是php的网络爬虫源码,在我的不懈努力下,终于找到phpspider,打开phpspider开发文档首页我就被震惊了,标题<我用爬虫一天时间"偷了"知乎一百万用户,只为证明PHP是世界上最好的语言 >,果然和我预料的一样,php就是世界上最好的语言.废话少说,下面开始学习使用. 首先看的是提供的一

猜你喜欢

HQL和SQL的区别

1.hql与sql的区别 sql 面向数据库表查询 hql 面向对象查询 hql : from 后面跟的类名+类对象 where 后用对象的属性做条件 sql: from 后面跟的是表名 ...

C#自定义异常

继承自System.ApplicationException类,并使用Exception作为自定义异常类名的结尾三个构造函数:一个无参构造函数:一个字符串参数的构造函数:一个字符串参数,一个内部异常 ...

centos7.2下搭建CDH5.8.3

1.基本环境: 操作系统: Centos 7.2.1511 jdk环境版本:jdk-8u45-linux-x64.rpm mysql环境: rpm包:http://ftp.ntu.edu.tw/My ...

PHPstorm配置xdebug

1.安装xdebug.我使用的是wampserver集成开发环境.直接启用xdebug就Ok了.三个选项不知道什么意思,我就都开启了. 2.添加PHP路径配置完成.

后端程序员之路 12、K最近邻(k-Nearest Neighbour，KNN)分类算法

K最近邻(k-Nearest Neighbour,KNN)分类算法,是最简单的机器学习算法之一.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重 ...

死磕Tomcat7源码之一:解析web.xml

熟悉java web开发的同学都清楚,tomcat作为一款非常流行的servlet容器,开源,流行,配置简单,不需要赘述.个人认为,web.xml作为webapp的入口,弄清楚该文件的底层解析过程,进 ...

内存管理---内存释放

Linux内存释放函数之间的调用关系如下图所示 hi /*用虚拟地址进行释放*/ void free_pages(unsigned long addr, unsigned int order) { i ...

poj1011Sticks 经典搜索

//给n个小木棒,拼成任意个长度相等的长木棒 //求长木棒的最短长度 #include<cstdio> #include<cstring> #include<iostre ...

zipimport.ZipImportError: can't decompress data; zlib not available 解决办法

第一步,下载python-pip的tar包 # wget https://pypi.python.org/packages/source/p/pip/pip-1.3.1.tar.gz --no-che ...

Lintcode9 Fizz Buzz solution 题解

[题目描述] Given number n. Print number from 1 to n. But: when number is divided by 3, print "fizz& ...

daemon方式创建rsync

(1)服务端 vi /etc/rsyncd.conf //创建配置文件,输入以下内容 #rsync_config_______________start #created by oldboy 15: ...

Leetcode#24Swap Nodes in Pairs

Swap Nodes in Pairs Total Accepted: 47624 Total Submissions: 146226My Submissions Question Solution ...

甲午秋实录

今天阳光明媚, 我和父亲一起去了景山公园, 于百忙中领略一下大自然的一角风采. 心情轻松愉悦. 秋啊, 你很美.

python3.3 user.login方法获取zabbix server的认证结果

# user.login方法获取zabbix server的认证结果#!/usr/bin/env python2.7#coding=utf-8import jsonimport urllib.requ ...

java基础回顾（2）

java中只有两种类型:基础类型.引用类型 8中基本类型:byte short int long float double char boolean,其中byte类型取值范围[-2^7~2^7-1] ...

在Mac OSX 10.10 上安装opencv

http://blog.csdn.net/wdkirchhoff/article/details/41910553 在Mac OSX上如果想使用OpenCV,可以通过自己手动编译源码的方式,但比较繁琐 ...

61 dfa 实现敏感词过滤

基本的概念 Class class=null [只是在栈内存中有了指向,堆内存并没有分配内存] Class class=new Class()[栈内存中有了指向(引用),堆内存也分配了内存] map ...

Android的webview加载本地html、本apk内html和远程URL

1. [代码][Java]代码 ? 1 2 3 4 5 6 7 8 9 10 11 //打开本包内asset目录下的index.html文件 wView.loadUrl(" file:/// ...

九. 常用类库、向量与哈希5.向量及其应用

Vector(向量)是 java.util 包中的一个类,该类实现了类似动态数组的功能. 向量和数组相似,都可以保存一组数据(数据列表).但是数组的大小是固定的,一旦指定,就不能改变,而向量却提供了一 ...

正三角形的外接圆面积

描述给你正三角形的边长,pi=3.1415926 ,求正三角形的外接圆面积. 输入只有一组测试数据第一行输入一个整数n(1<n<1000)表示接下来要输入n个边长m(1.0<= ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.