[Python]爬取首都之窗百姓信件网址id python 2020.2.13

经人提醒忘记发网址id的爬取过程了,

http://www.beijing.gov.cn/hudong/hdjl/com.web.consult.consultDetail.flow?originalId=AH20021300174

AH20021300174为要爬取的内容

现代码如下:

 1 import json
 2 import requests
 3 import io
 4
 5 url="http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.mailList.biz.ext"
 6
 7 kv = {
 8     ‘Host‘: ‘www.beijing.gov.cn‘,
 9     ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0‘,
10     ‘Accept‘: ‘application/json, text/javascript, */*; q=0.01‘,
11     ‘Accept-Language‘: ‘zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2‘,
12     ‘Accept-Encoding‘: ‘gzip, deflate‘,
13     ‘Content-Type‘: ‘text/json‘,
14     ‘X-Requested-With‘: ‘XMLHttpRequest‘,
15     ‘Content-Length‘: ‘155‘,
16     ‘Origin‘: ‘http://www.beijing.gov.cn‘,
17     ‘Connection‘: ‘keep-alive‘,
18     ‘Referer‘: ‘http://www.beijing.gov.cn/hudong/hdjl/‘}
19
20 def page(begin):
21     query={
22     ‘PageCond/begin‘: begin,
23     ‘PageCond/isCount‘:‘true‘,
24     ‘PageCond/length‘:6,
25     }
26     datas=json.dumps(query)
27     r=requests.post(url,data=datas,headers=kv)
28     print(r.status_code)
29     print(r.text)
30     js=json.loads(r.text)
31     for j in js["mailList"]:
32         print(j)
33         print(j.get("original_id"))
34
35
36 def href():
37     begin=0
38     for i in range(0,5584):
39         if i%6==0:
40             page(i)
41             #print(begin)
42
43 if __name__=="__main__":
44     href()

原文地址:https://www.cnblogs.com/zlc364624/p/12303490.html

时间: 2024-11-09 14:24:57

[Python]爬取首都之窗百姓信件网址id python 2020.2.13的相关文章

假期学习【八】首都之窗百姓信件爬虫(完整版)2020.2.6 Python

时间:2020.2.6 今天把昨天做到一半的首都之窗百姓信件爬取完成了. 源码如下: 1 import requests 2 import io 3 from bs4 import BeautifulSoup 4 #信1705-1 赵路仓 5 kv = {'user-agent': 'Mozilla/5.0'} 6 id='AH20010700179' 7 8 def read(): 9 f=open('E://list.txt','r') 10 for line in f: 11 id=f.r

Python 爬取 北京市政府首都之窗信件列表-[Scrapy框架](2020年寒假小目标04)

日期:2020.01.22 博客期:130 星期三 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] 今天来说一说爬取的工作进展,我们的要求是爬取首都之窗的信件类型,那么我们就开始吧! 首先,先找到网页:http://www.beijing.gov.cn/hudong/hdjl/com.web.search.mailList.flow 然后找到网页的结构,发现是简单的HTML结构,那我们就可以启动Scrapy框架了. 前边说了,之前是一直报403 Forbidden的错,原因我已

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧 作者:vpoet 日期:大约在冬季 注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

使用python爬取MedSci上的影响因子排名靠前的文献

使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn/sci的交互过程.可以使用谷歌或火狐浏览器的“审查元素-->Network”,然后就可以看到操作页面就可以看到网站的交互信息.当在网页上点击“我要查询”时,网页会发送一个POST消息给服务器,然后,服务器返回查询结果 然后,将查询到的结果使用正则表达式提取出需要的数据. 最后将提取出的数据输出到文

Python爬取网页的三种方法

# Python爬取网页的三种方法之一:  使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些

selenium+python 爬取网络图片(1) -- soso、谷歌、好搜

做图像处理的朋友,都时常需要收集整理大量的图像数据集.做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务.为了用python完成这个任务,需要解决如下两个问题: 1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片. 2. 动态网站的内容往往是通过ajax异步加载,直接用python中urllib库read到的内容不完整,且需要的内容基本都是异步加载进来的,直接

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","