爬虫，可用于增加访问量和抓取网站全页内容

爬虫道德规范：
- 1.不让爬的咱不爬
- 2.让爬的咱不能一直爬

使用爬虫提高文章访客说明：

1.本爬虫使用代理IP
2.伪装浏览器
3.粘贴地址即可使用
4.原文件 github 地址：https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py
5.下载原文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py

# coding:utf-8
'''
使用爬虫提高文章访客说明：
1.本爬虫使用代理IP
2.伪装浏览器
3.粘贴地址即可使用
'''
from urllib import request,error

if __name__ == '__main__':

    # 将需要访问的地址替换下面地址
    url = "https://www.cnblogs.com/xpwi/"

    # 设置代理地址，代理IP一般20天左右会失效
    # 获取最新代理IP，参考文章：https://www.cnblogs.com/xpwi/p/9600727.html
    # 1.日本
    # proxy = {'http': '140.227.65.196:3128'}
    # 2.俄罗斯
    proxy = {'http': '94.242.59.135:1448'}

    # 2.创建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3.创建Opener
    opener = request.build_opener(proxy_handler)
    # 4.安装Opener
    request.install_opener(opener)

    # 下面再进行访问url就会使用代理服务器
    # 更换浏览器型号，参照：https://www.cnblogs.com/xpwi/p/9600719.html
    try:
        req = request.Request(url)
        req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163")

        rsp = request.urlopen(req)

        html = rsp.read().decode()
        print("访问成功访客+1，以下是该网页的HTML：\n",html,"\n访问成功访客+1，以上是该网页的HTML\n")

    except error.HTTPError as e:
        print(e)

    except Exception as e:
        print(e)

更多文章链接：Python 爬虫随笔

本笔记不允许任何个人和组织转载

原文地址：https://www.cnblogs.com/xpwi/p/9609701.html

时间： 2024-12-13 08:57:42

爬虫，可用于增加访问量和抓取网站全页内容的相关文章

python实现爬虫（一）--- Scrapy框架抓取豆瓣书籍信息

Scrapy是一个用python实现都爬虫框架,简单易用,功能强大,只需要在框架的基础上自定义自己的分析规则即可,具体如何新建工程等待都在官方文档上面讲解得非常清楚,官方文档tutorial(http://doc.scrapy.org/en/latest/intro/tutorial.html)请保证下载较新版本的Scrapy(我的是0.24.2,scrapy -v)旧版本会出现一些问题. 下面我使用Scrapy抓取豆瓣上面编程书籍的一些简单信息一.准备爬取的页面如下,新建一个douban工程

Python 爬虫工程师必学 App数据抓取实战

第1章课程介绍介绍课程目标.通过课程能学习到的内容.学会这些技能能做什么,对公司业务有哪些帮助,对个人有哪些帮助.介绍目前app数据抓取有哪些困难,面临的挑战,本实战课程会利用哪些工具来解决这些问题,以及本实战课程的特点 ... 1-1 python爬虫工程师必备技能--App数据抓取实战课程导学第2章 windows下搭建开发环境介绍项目开发需要安装的开发软件,讲解了安卓模拟器对比以及夜神安卓模拟器安装.介绍.简单使用和Genymotion安卓模拟器简单分析介绍App应用抓包工具对比以及f

Python爬虫工程师必学——App数据抓取实战

Python爬虫工程师必学 App数据抓取实战爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.主要讲解如何用python实现App数据抓取数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元.数据去重可以有效避免资源的浪费,所以数据去重至关重要数据去重数据去重可以从两个节点入手:一个是URL去重.即直接筛选掉重复的URL:另一个是数据库去重.即利用数据库的一些特性筛选重复的数据. def process_spider_

【Heritrix源代码分析4】开始一个爬虫抓取的全流程代码分析

在创建一个job后,就要开始job的运行,运行的全流程如下: 1.在界面上启动job 2.index.jsp 查看上述页面对应的源代码 <a href='"+request.getContextPath()+"/console/action.jsp?action=start'>Start</a> 3.action.jsp String sAction = request.getParameter("action"); if(sAction !

Java爬虫实战（二）：抓取一个视频网站上2015年所有电影的下载链接

前言:这是Java爬虫实战的第二篇文章,在第一篇文章仅仅只是抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 注:文末有我抓取到的整个列表的下载链接(包括:电影名称和迅雷下载链接) 一原理简介其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │ ├── __init__.py │ ├── __init__.pyc │ ├── items.py │ ├── items.pyc │ ├── msic │ │ ├── __init__.py │ │ └── pad_urls.py │

[Python爬虫] 之三：Selenium 调用IEDriverServer 抓取数据

接着上一遍,在用Selenium+phantomjs 抓取数据过程中发现,有时候抓取不到,所以又测试了用Selenium+浏览器驱动的方式:具体代码如下: #coding=utf-8import osimport refrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysimport timefrom selenium.webdriver.common.action_chains import A

curl只能抓取页面的部分内容的原因

核心提示:先列出 HessianPHP 的错误提示: CURL transport error: transfer closed with outstanding read data remaining 基础知识背景: 1)"Expect: 100-continue"的来龙去脉: HTTP/1.1 协议里设计100 (Continue) HTTP 状态码的的目的是,在客 ... 先列出 HessianPHP 的错误提示: CURL transport error: transfer c

剑走偏锋，robots.txt快速抓取网站的小窍门

在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门. 写爬虫有很多苦恼的事情,比如: 1.访问频次太高被限制: 2.如何大量发现该网站的URL: 3.如何抓取一个网站新产生的URL,等等: 这些问题都困扰着爬虫选手,如果有大量离散IP和账号,这些都不是问题,但是绝大部分公司都不具备这个条件的. 我们在工作中写的爬虫大多是一次性和临时性的任务,需要你快速完成工作就好,当遇到上面情况,试着看下robots.txt文件. 举个栗子: