爬取知乎Python中文社区信息

爬取知乎Python中文社区信息，https://zhuanlan.zhihu.com/zimei

 1 import requests
 2 from urllib.parse import urlencode
 3 from pyquery import PyQuery as pq
 4 from pymongo import MongoClient
 5 import json
 6 import time
 7
 8 base_url = ‘https://www.zhihu.com/api/v4/columns/zimei/articles?limit=10&‘
 9 headers = {
10     ‘authority‘: ‘www.zhihu.com‘,
11     ‘referer‘: ‘https://zhuanlan.zhihu.com/zimei‘,
12     ‘origin‘: ‘https://zhuanlan.zhihu.com‘,
13     ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36‘,
14 }
15
16 client = MongoClient()
17 db = client[‘zhihu‘]
18 collection = db[‘zhihu‘]
19 max_page = 100
20
21
22 def get_page(page):
23     params = {
24         ‘offset‘: page*10
25     }
26     url = base_url + urlencode(params)
27     try:
28         response = requests.get(url, headers=headers)
29         if response.status_code == 200:
30
31             return response.json()
32     except requests.ConnectionError as e:
33         print(‘Error‘, e.args)
34
35
36 def parse_page(json_1):
37     if json_1:
38         items = json_1.get(‘data‘)
39         for item in items:
40             if page == 1 :
41                 continue
42             else:
43
44                 zhihu = {}
45                 zhihu[‘name‘] = item.get(‘author‘).get(‘name‘)
46                 zhihu[‘title‘] = item.get(‘title‘)
47                 zhihu[‘text‘] = pq(item.get(‘excerpt‘)).text()
48                 zhihu[‘comments‘] = item.get(‘comment_count‘)
49                 zhihu[‘reposts‘] = item.get(‘voteup_count‘)
50                 zhihu[‘data‘] = time.strftime(‘%Y-%m-%d %H%:%M‘,time.localtime(item.get(‘updated‘)))
51                 yield zhihu
52
53 def write_to_file(content):
54     with open(‘zhihu.json‘,‘a‘,encoding=‘utf-8‘) as f:
55         f.write(json.dumps(content,ensure_ascii=False)+‘\n‘)
56         f.close()
57
58 def save_to_mongo(result):
59     if collection.insert(result):
60         print(‘Saved to Mongo‘)
61
62
63 if __name__ == ‘__main__‘:
64     for page in range(1, max_page + 1):
65         json_1 = get_page(page)
66
67         results = parse_page(json_1)
68         for result in results:
69             print(result)
70             write_to_file(result)
71             save_to_mongo(result)

原文地址：https://www.cnblogs.com/wanglinjie/p/9226691.html

时间： 2024-10-13 20:26:50

爬取知乎Python中文社区信息的相关文章

python爬虫爬取知乎用户的用户信息

我用python爬虫找到了不想告诉我她知乎ID的妹纸的ID--. 在我做了这件事情之后 , 她觉得我越来越懂她了 , 嘻嘻有一天 , 我发现我心仪已久的妹纸在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能作为谈资 , 简直太赞了 (*^^)v . 但是输入她的名字-- 在知乎上根本找不到好吗 (?`灬′?) 我们两个聊天的时候 , 刚好说到了她分享的那篇文章 , 我很自然的说:

Python爬虫爬取知乎小结

博客首发至Marcovaldo's blog (http://marcovaldong.github.io/) 最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧. python有很多开源工具包供我们使用,我这里使用了requests.Be

利用 Scrapy 爬取知乎用户信息

思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一.新建一个scrapy项目 scrapy startproject zhihuuser 移动到新建目录下: cd zhihuuser 新建spider项目: scrapy genspider zhihu 二.这里以爬取知乎大V轮子哥的用户信息来实现爬取知乎大量用户信息. a) 定义 spdier.p

爬取知乎热榜标题和连接（python，requests，xpath）

用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agent 3.上代码 1 import requests 2 from lxml import etree 3 4 def get_html(url): 5 headers={ 6 'Cookie':'', 7 #'Host':'www.zhihu.com', 8 'User-Agent':'Mozill

scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）

python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www.zhihu.com/signup?next=%2F)这个页面, 爬取知乎,首先要完成登录操作,登陆的时候观察往那个页面发送了post或者get请求.可以利用抓包工具来获取登录时密码表单等数据的提交地址. 1.利用抓包工具,查看用户名密码数据的提交地址页就是post请求,将表单数据提交的网址,经过查看

爬取拉钩全站的职位信息

爬虫学习到今天也告一段落了,利用一个项目把自己这几个月的所学的知识来做一次总结项目所需要的知识比较全面,很适合练手, 一程序目的爬取拉钩全站的职位信息存入mysql和mongodb中二所用到的方法一利用selenium登录拉钩取得cookies 二利用redis保存selenium登录拉钩取得cookies信息,维护一个cookie池三爬取西刺等免费IP网站,并用redis维护一个IP池四利用flask把cookies和ip分别映射到网页中,用requsets得到. 五

爬虫---Beautiful Soup 爬取知乎热榜

前两章简单的讲了Beautiful Soup的用法,在爬虫的过程中相信都遇到过一些反爬虫,如何跳过这些反爬虫呢?今天通过豆瓣网写一个简单的反爬中什么是反爬虫简单的说就是使用任何技术手段,阻止别人批量获取自己网站信息的一种方式.关键也在于批量. 反反爬虫机制增加请求头---headers为了模拟更真实的用户场景更改IP地址---网站会根据你的IP对网站访问频密,判断你是否属于爬虫 ua限制---UA是用户访问网站时候的浏览器标识,其反爬机制与ip限制类似模拟帐号登录----通过reque

爬取豆瓣网图书TOP250的信息

爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.douban.com/top250 注意:使用正则表达式时,不要在Elements选项卡中直接查看源代码,因为那的源码可能经过Javascript渲染而与原始请求不同,而是需要从Network选项卡中查看源码. import re import json import time import request

基于webmagic的爬虫小应用--爬取知乎用户信息

听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Java要30行. 这里推荐大家一个大牛做的java爬虫框架 [WebMagic] 文档简单易懂!java爬虫开发的福利啊! 一起来动手做一个小应用吧! 爬虫小应用–知乎用户信息爬虫思想有3步 1. 抽取目标链接 2. 抽取需要的信息 3. 处理数据一. 抽取目标链接 (确定入口地址,这里的入口是ht