抓取百万知乎用户数据之爬取思路

一.如何获取到用户的信息

前往用户主页,以轮子哥为例

从中可以看到用户的详细信息,教育经历主页,主修。所在行业,公司,关注量,回答数,居住地等等。打开开发者工具栏查看网络,即可找到,一般是html或者json这个数据在Html页面里。

URL为https://www.zhihu.com/people/excited-vczh/answers,excited-vczh是轮子哥的id,我们只要拿到某个人的Id就可以获取详细信息了。

二.信息藏在哪

对这个json数据进行解析,即可找到用户信息

根据URL下载Html页面,解析json就可以获取用户信息了

三.如何获取更多的用户Id

每个人都有自己的关注列表,关注的人和被关注的人,抓取这些人再到这些人主页去抓关注列表,这样就不抽找不到用户了

这里还有nexturl,这个链接可以保存下来。如果isend为true的化就是列表翻到头了,url就不必保存下来

时间: 2024-10-18 04:24:22

抓取百万知乎用户数据之爬取思路的相关文章

PHP开发:使用PHP抓取百万知乎用户以及知识点札记

代码托管地址:https://github.com/hhqcontinue/zhihuSpider 开发前的准备 安装Linux系统(Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu: 安装PHP5.6或以上版本: 安装curl.pcntl扩展. 使用PHP的curl扩展抓取页面数据 PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库. 本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问.当我们在浏览器的页面中点击

药大贴吧用户数据资料爬取与简单分析

使用python爬虫连接到药大贴吧的首页,然后爬取每个话题的链接.将链接记录到一个列表中.打开列表中的链接,读取第一页页的用户的主页链接和话题下的帖子页数.将用户的主页连接记录到一个集合中.如果发现有多页,就记录每一页的连接,再从这些连接中读取用户的主页连接记录到集合中.这样可爬取首页下所有用户的主页url. 依次从集合中取出URL,打开主页,记录用户名称,性别,粉丝数,关注者的信息,发帖量等资料. #coding:utf-8 import urllib2 import re from bs4

抓取百万知乎用户设计之实体设计

一.实体的关系 实体是根据返回的Json数据来设计的 教育经历方面 用户可以有很多教育经理,USER和education是一对多的关系,一个education对应一个education 一个用户可以有多个工作,当然很多人可以从事同一份工作,每份工作对应一家公司,对应一个岗位 每个用户可以有多个居住地,同一个居住地有多个用户,每个用户有一个行业,同一个行业有多个用户 代码实现就不列举了,创建一个Model类库项目 二.数据库上下文 public class ZhihuEntity : DbCont

抓取百万知乎用户信息之HttpHelper的迭代之路

什么是Httphelper? httpelpers是一个封装好拿来获取网络上资源的工具类.因为是用http协议,故取名httphelper. httphelper出现的背景 使用WebClient可以很方便获取网络上的资源,例如 WebClient client = new WebClient(); string html= client.DownloadString("https://www.baidu.com/"); 这样就可以拿到百度首页的的源代码,由于WebClient封装性太

Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)

在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 class UserItem(scrapy.Item): id = Field() name = Field() account_status = Field() allow_message= Field() answer_count = Field() articles_count = Field()

使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取

本文标签: WebScraper Chrome浏览器插件 网页数据的爬取 使用Chrome 浏览器插件 Web Scraper 可以轻松实现网页数据的爬取,不写代码,鼠标操作,点哪爬哪,还不用考虑爬虫中的登陆.验证码.异步加载等复杂问题. Web Scraper插件 Web Scraper 官网中的简介: Web Scraper Extension (Free!)Using our extension you can create a plan (sitemap) how a web site

python爬虫入门 之 移动端数据的爬取

第七章 移动端数据的爬取 基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 7.1 fiddler 基本配置 7.1.1fiddler简介和安装 什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 . 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据.设置断点.调试web应用.修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器. Fiddler

爬虫入门五(移动端数据的爬取)

常用的抓包工具 常用的抓包工具:本质就是一款服务器,适用于实现请求和响应的拦截 fiddler 默认只可以抓起http协议的请求和响应 https: tools - options - https - detrypt https traffic 含义:将fiddler的证书安装到本地 青花瓷(charles) miteproxy 移动端数据的爬取 配置相关的环境 fiddler的配置: tools->options->connections->allow remote conxxx 查看

知乎高颜值图片爬取

.katex { display: block; text-align: center; white-space: nowrap; } .katex-display > .katex > .katex-html { display: block; } .katex-display > .katex > .katex-html > .tag { position: absolute; right: 0px; } .katex { font-style: normal; font