http协议请求实战——get请求示例之抓取百度搜索关键词对应网页信息

1通过分析搜索关键词对应的网址发现字段名和内容均在网址中网址可简化为www.baidu.com/s?wd=搜索的关键词

根据分析出的规律可通过构造get请求用爬虫实现在百度上自动查询某个关键词

代码如下:

import urllib.request   导入urllib.requestkeywd = ‘高同同‘         指定关键词keywd_cod = urllib.request.quote(keywd)将关键词进行编码url = ‘https://www.baidu.com/s?wd=‘输入网址url_all = url +keywd_cod构造出最终抓取网址req =urllib.request.Request(url)使用urllib.request.Request构造一个Request对象并赋给变量req
data = urllib.request.urlopen(req).read()通过url.request.urlopen()打开对应的Request对象fandle = open(‘D:/siq/part4/10.html‘,‘wb‘)fandle.write(data)将爬去的内容写到一个html文件中fandle.close()结束

思路总结:1构建对应的url地址,该url包含get请求的字段名称及字段内容等信息并且url地址满足get请求格式“http://网址?字段名1=字段内容1&字段名2=字段内容2”2以对应的url为参数,构建request对象3通过urlopen()打开构建的request对象4读取内容并保存
时间: 2024-10-26 02:32:20

http协议请求实战——get请求示例之抓取百度搜索关键词对应网页信息的相关文章

Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接

前言:这是Java爬虫实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 注:文末有我抓取到的整个列表的下载链接(包括:电影名称和迅雷下载链接) 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,

Java爬虫实战(一):抓取一个网站上的全部链接

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测试用例就是自动抓取我的博客网站(http://www.zifangsky.cn)的所有链接. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<

pycharm利用request请求百度搜索关键词并读取源码下载到本地

import requests params = { 'wd' : 'seo' } headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36' } response = requests.get("http://www.baidu.com/s",params=p

Python实现百度搜索并保存到本地示例,Python实现百度搜索

实现百度搜索并保存到本地 User_Agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36' import urllib2 import urllib url = "https://www.baidu.com/s?wd=" key = "博客园" key_code = urllib.quo

爬虫实战--使用Selenium模拟浏览器抓取淘宝商品美食信息

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.common.exceptions import TimeoutException from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as E

python,网络爬虫完整示例代码--抓取中国最好大学排名网站信息,并进行输出显示

import requests,bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: print("request failed") def getObjectData(soup): li=[] for tr in soup.find

fiddler抓取HTTPS请求

Https即 Http over ssl,使用ssl加密传输数据,Http是明文传输数据的,所以Https必然比Http更安全.即使传输数据被劫持,劫持者也无法获取传输明文.从而保证了系统的安全性,尤其对于交易支付类业务来说,https的安全性尤为重要. 作为测试免不了会使用工具抓取请求,但是fiddler默认置灰抓取http请求,那么如何抓取HTTPS请求呢,下面根据自己的使用总结一下如何使用fiddler抓取HTTPS请求: 前置:fiddler可以抓取http请求 一.fiddler如何抓

浅谈HTTPS以及Fiddler抓取HTTPS协议

最近想尝试基于Fiddler的录制功能做一些接口的获取和处理工作,碰到的一个问题就是简单连接Fiddler只能抓取HTTP协议,关键的登录请求等HTTPS协议都没有捕捉到,所以想让Fiddler能够同时抓取到HTTPS和HTTP协议,设置只是很小的一步,关键是了解HTTPS协议的原理.Fiddler抓取HTTPS协议的原理,然后才能更好的理解如何进行设置.本文主要由三部分组成,第一部分用比较通俗形象的方式简述了HTTPS的原理,第二部分则是在第一部分的基础上介绍Fiddler抓取HTTPS协议的

浅谈HTTPS以及Fiddler抓取HTTPS协议(摘抄)

一.浅谈HTTPS 我们都知道HTTP并非是安全传输,在HTTPS基础上使用SSL协议进行加密构成的HTTPS协议是相对安全的.目前越来越多的企业选择使用HTTPS协议与用户进行通信,如百度.谷歌等.HTTPS在传输数据之前需要客户端(浏览器)与服务端(网站)之间进行一次握手,在握手过程中将确立双方加密传输数据的密码信息.网上有诸多资料,有些写得过于晦涩难懂,尤其是需要密码学的一些知识.我做了一下简单的整理,刨除复杂的底层实现,单从理解SSL协议的角度宏观上认识一下HTTPS.一言以弊之,HTT