关于web爬虫的tips

  1. 网站爬虫限制默认在心中
    robots.txt
  2. 爬一个网站怎么预测爬的量

  3. 每个网站都使用各种各样的技术,怎么确定网站使用的技术
    pip install builtwith

    >>> import builtwith

    >>> builtwith.parse(‘http://www.douban.com‘)

    {u‘javascript-frameworks‘: [u‘jQuery‘], u‘tag-managers‘: [u‘Google Tag Manager‘], u‘analytics‘: [u‘Piwik‘]}

  4. #网站的所属者
    pip install python-whois
    >>> print whois.whois(‘cnblogs.com‘)
    {
      "updated_date": [
        "2014-11-12 00:00:00", 
        "2014-11-12 01:07:15"
      ], 
      "status": [
        "clientDeleteProhibited https://icann.org/epp#clientDeleteProhibited", 
        "clientTransferProhibited https://icann.org/epp#clientTransferProhibited"
      ], 
      "name": "du yong", 
      "dnssec": "unsigned", 
      "city": "Shanghai", 
      "expiration_date": [
        "2021-11-12 00:00:00", 
        "2021-11-11 04:00:00"
      ], 
      "zipcode": "201203", 
      "domain_name": [
        "CNBLOGS.COM", 
        "cnblogs.com"
      ], 
      "country": "CN", 
      "whois_server": "whois.35.com", 
      "state": "Shanghai", 
      "registrar": "35 Technology Co., Ltd.", 
      "referral_url": "http://www.35.com", 
      "address": "Room 312, No.22 BOXIA Rd, Pudong New District", 
      "name_servers": [
        "NS3.DNSV4.COM", 
        "NS4.DNSV4.COM", 
        "ns3.dnsv4.com", 
        "ns4.dnsv4.com"
      ], 
      "org": "Shanghai Yucheng Information Technology Co. Ltd.", 
      "creation_date": [
        "2003-11-12 00:00:00", 
        "2003-11-11 04:00:00"
      ], 
      "emails": [
        "[email protected]", 
        "[email protected]"
      ]
    }
时间: 2024-10-08 07:33:22

关于web爬虫的tips的相关文章

第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装

第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装 当前环境python3.5 ,windows10系统 Linux系统安装 在线安装,会自动安装scrapy模块以及相关依赖模块 pip install Scrapy 手动源码安装,比较麻烦要自己手动安装scrapy模块以及依赖模块 安装以下模块 1.lxml-3.8.0.tar.gz (XML处理库) 2.Twisted-17.5.0.tar.bz2 (用Python编写的异步网络框架) 3.Scrapy-1.4.0.tar.gz

第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号

第三百三十节,web爬虫讲解2-urllib库爬虫-实战爬取搜狗微信公众号 封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json import random import re import urllib.error def hq_html(hq_url): """ hq_html()封装的爬虫函数,自动启用了用户代理和ip

第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+

第三百三十七节,web爬虫讲解2-PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异步加载的信息 下载网址:http://phantomjs.org/download.html  下载对应系统版本 下载后解压PhantomJS文件,将解压文件夹,剪切到python安装文件夹 然后将P

第三百二十四节,web爬虫,scrapy模块介绍与使用

第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy 使用了 Twisted异步网络库来处理网络通讯.

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

第三百二十二节,web爬虫,requests请求

第三百二十二节,web爬虫,requests请求 requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求 一.不需要用户登录或者验证的请求 这种比较简单,直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- coding:utf8 -*- import requests #导入模拟浏览器请求模块 http

Web爬虫入门

1.0示例学习:Web爬虫 public class WebCrawler { // 种子url private static String url = "http://www.cnblogs.com/"; public static void main(String[] args) { ArrayList<String> list = crawler(url); System.out.println("Length of listOfPendingURLs: &

第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

第三百三十三节,web爬虫讲解2-Scrapy框架爬虫-Scrapy模拟浏览器登录 模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求 Request()get请求,可以设置,url.cookie.回调函数 FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其

web爬虫

第一.爬虫及其行为方式 1.根集 2.连接的提取和相对链接的标准化 从页面提取出链接,然后把相对链接转化为绝对链接 3.避免环路的出现 4.循环和复制 5.记录爬过得链接 树和散列表 有损的存在位图 集群和索引 6.规范URL 7.避免循环和重复 规范URL 广度优先的爬行 节流:限制一段时间内机器人可以从一个WEB站点获取的页面的数量 限制URL的大小 URL/站点黑白名单 内容识别 模式检测 人工监视 8.机器人的HTTP http1.1加host首部 9.web站点和robots.txt文