爬虫的一些工具(二)

1. 常有的工具

   (1). python

   (2). pycharm

  (3).浏览器

  i.chrome

     ii.火狐

   (4).fiddler的使用

2 fiddler的使用

(1).操作界面

  

  (2)界面含义

       请求(Request)部分详解


名称

含义

Headers

显示客户端发送到服务器的 HTTP 请求的,header 显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等

Textview

显示 POST 请求的 body 部分为文本

WebForms

显示请求的 GET 参数 和 POST body 内容

HexView

用十六进制数据显示请求

Auth

显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息

Raw

将整个请求显示为纯文本

JSON

显示JSON格式文件

XML

如果请求的 body 是 XML格式,就是用分级的 XML 树来显示它

     

     响应(Response)部分详解


名称

含义

Transformer

显示响应的编码信息

Headers

用分级视图显示响应的 header

TextView

使用文本显示相应的 body

ImageVies

如果请求是图片资源,显示响应的图片

HexView

用十六进制数据显示响应

WebView

响应在 Web 浏览器中的预览效果

Auth

显示响应 header 中的 Proxy-Authorization(代理身份验证) 和 Authorization(授权) 信息

Caching

显示此请求的缓存信息

Privacy

显示此请求的私密 (P3P) 信息

Raw

将整个响应显示为纯文本

JSON

显示JSON格式文件

XML

如果响应的 body 是 XML 格式,就是用分级的 XML 树来显示它

  (3)设置

  3.1- 启动Fiddler,打开菜单栏中的Tools>Options,打开"Fiddler Options"对话框

    

    3.2.-设置

  • Capture HTTPS CONNECTs 捕捉HTTPS连接
  • Decrypt HTTPS traffic 解密HTTPS通信
  • Ignore server certificate errors 忽略服务器证书错误
  • all processes 所有进程
  • browsers onlye 仅浏览器
  • nono- browsers only 仅非浏览器
  • remote clients only 仅远程链接

.Trust Root Certificate(受信任的根证书) 配置Windows信任这个根证书解决安全警告

  • Allow remote computers to connect 允许远程连接
  • Act as system proxy on startup 作为系统启动代理
  • resuse client connections 重用客户端链接

  (4)捕获链接(抓包)

    4.1安装SwitchyOmega 代理管理 Chrome 浏览器插件

  4.2设置代理

原文地址:https://www.cnblogs.com/mingqian/p/9266600.html

时间: 2024-10-15 04:39:34

爬虫的一些工具(二)的相关文章

Golang 网络爬虫框架gocolly/colly 二 jQuery selector

Golang 网络爬虫框架gocolly/colly 二 jQuery selector colly框架依赖goquery库,goquery将jQuery的语法和特性引入到了go语言中.如果要灵活自如地采集数据,首先要了解jQuery选择器.以下内容是翻译jQuery官方网站 <Category: Selectors>章节内容: Category: Selectors Borrowing from CSS 1–3, and then adding its own, jQuery offers

Android-LogCat日志工具(二)

既然是Java语言,那么对于很多人来说,用System.out.println() 方法来打印日志是最熟悉.最简单不过了.不过在真正的项目开发中,是极度不建议使用 System.out.println()方法的! 为什么 System.out.println()方法会这么遭大家唾弃呢?经过老师和同学极度鄙视之后,发现这个方法除了使用方便一点之外,其他就一无是处了.方便在哪儿呢?在 Eclipse中你只需要输入 syso,然后按下代码提示键,这个方法就会自动出来了,相信这也是很多 Java新手对它

爬虫推荐的工具

爬虫推荐的工具:pyspider,BeautifulSouprequestsscrapymongodbrediskafka.repyV8:python执行js的插件phatomjs:一个无界面的,可脚本编程的WebKit浏览器引擎.它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVGselenium:是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样. 一开始推荐学习框架,比如scrapy或者Pyspider

神箭手爬虫学习笔记(二)

一,可以使用神剑手已经做好的爬虫市场直接跑,不需要自己定义爬取规则 二,爬虫市场里没有的网站,需要自己去定义规则来爬数据. 三,爬取的数据可以先存放在神剑手,也可以放到七牛暂存.(提醒下,网站需要数据备份如果数量不大可以到七牛做备份,有免费版) 四,爬取的数据可以直接发布到数据库,也可以发布到具有支持神剑插件的网站.可以手动发布,也可以自动发布. 五,可以使用代理IP,防封 六:常用的几个辅助工具:http://docs.shenjianshou.cn/develop/tools/tools.h

python爬虫scrapy命令工具学习之篇三

命令行工具(Command line tools) 全局命令 startproject settings runspider shell fetch view version 项目命令 crawl check list edit parse genspider deploy bench 1.创建爬虫工程的命令 scrapy startproject myproject 2.控制项目创建一个spider scrapy genspider mydomain mydomain.com 3.使用爬虫进行

基于Java的简易表达式解析工具(二)

之前简单的介绍了这个基于Java表达式解析工具,现在把代码分享给大家,希望帮助到有需要的人们,这个分享代码中依赖了一些其他的类,这些类大家可以根据自己的情况进行导入,无非就是写字符串处理工具类,日期处理的工具类什么的. 这个Java的表达式解析的工具只用了5个类,而且写得也很简单明了,相信有一些编程经验的可以看懂这些处理的逻辑代码. 1.第一个类:ExpressionNodeType(表达式各个字符节点的类型枚举类) public enum ExpressionNodeType { Unknow

关于爬虫的一些工具。

网络 通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络库(绑定libcurl). urllib3 – Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 – 网络库. RoboBrowser – 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup -一个与网站自动交互Python库. mechanize -有

HTTP小爬虫 ,nodejs学习(二)

使用nodejs抓取网页数据,这里用到cheerio,解析html十分好用,和jquery用法完全一致. 首先安装cheerio,在命令行中输入 npm install cheerio;(在nodejs根目录下输入该命令) 安装完成以后,我们来解析慕课网上http://www.imooc.com/learn/348,获取其上的课程信息. 代码如下: var http = require('http'); var cheerio = require('cheerio'); var url = 'h

Excel通用类工具(二)

前言 上一篇中写到了用反射来处理类中的不用的属性,但是Excel的列名还得手动输入,这样还是比较麻烦的,今天这篇就利用自定义注解来解决手动传入列名的问题:其实很简单的,只需要在上一篇的基础上加一个类就可以了: 本篇所涉及的项目是在上一篇 Excel通用类工具(一) 的项目代码上进行的二次添加: 正文 新添加一个类 新添加一个注解类 ExcelName ,完整代码如下: import java.lang.annotation.ElementType; import java.lang.annota