关于web爬虫的tips

网站爬虫限制默认在心中
robots.txt
爬一个网站怎么预测爬的量
每个网站都使用各种各样的技术，怎么确定网站使用的技术
pip install builtwith
>>> import builtwith

>>> builtwith.parse(‘http://www.douban.com‘)

{u‘javascript-frameworks‘: [u‘jQuery‘], u‘tag-managers‘: [u‘Google Tag Manager‘], u‘analytics‘: [u‘Piwik‘]}

#网站的所属者
pip install python-whois
>>> print whois.whois(‘cnblogs.com‘)
{
  "updated_date": [
    "2014-11-12 00:00:00", 
    "2014-11-12 01:07:15"
  ], 
  "status": [
    "clientDeleteProhibited https://icann.org/epp#clientDeleteProhibited", 
    "clientTransferProhibited https://icann.org/epp#clientTransferProhibited"
  ], 
  "name": "du yong", 
  "dnssec": "unsigned", 
  "city": "Shanghai", 
  "expiration_date": [
    "2021-11-12 00:00:00", 
    "2021-11-11 04:00:00"
  ], 
  "zipcode": "201203", 
  "domain_name": [
    "CNBLOGS.COM", 
    "cnblogs.com"
  ], 
  "country": "CN", 
  "whois_server": "whois.35.com", 
  "state": "Shanghai", 
  "registrar": "35 Technology Co., Ltd.", 
  "referral_url": "http://www.35.com", 
  "address": "Room 312, No.22 BOXIA Rd, Pudong New District", 
  "name_servers": [
    "NS3.DNSV4.COM", 
    "NS4.DNSV4.COM", 
    "ns3.dnsv4.com", 
    "ns4.dnsv4.com"
  ], 
  "org": "Shanghai Yucheng Information Technology Co. Ltd.", 
  "creation_date": [
    "2003-11-12 00:00:00", 
    "2003-11-11 04:00:00"
  ], 
  "emails": [
    "[email protected]", 
    "[email protected]"
  ]
}

时间： 2024-10-08 07:33:22

关于web爬虫的tips的相关文章

第三百二十三节，web爬虫，scrapy模块以及相关依赖模块安装

第三百二十三节,web爬虫,scrapy模块以及相关依赖模块安装当前环境python3.5 ,windows10系统 Linux系统安装在线安装,会自动安装scrapy模块以及相关依赖模块 pip install Scrapy 手动源码安装,比较麻烦要自己手动安装scrapy模块以及依赖模块安装以下模块 1.lxml-3.8.0.tar.gz (XML处理库) 2.Twisted-17.5.0.tar.bz2 (用Python编写的异步网络框架) 3.Scrapy-1.4.0.tar.gz

第三百三十节，web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号

第三百三十节,web爬虫讲解2-urllib库爬虫-实战爬取搜狗微信公众号封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json import random import re import urllib.error def hq_html(hq_url): """ hq_html()封装的爬虫函数,自动启用了用户代理和ip

第三百三十七节，web爬虫讲解2—PhantomJS虚拟浏览器+

第三百三十七节,web爬虫讲解2-PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异步加载的信息下载网址:http://phantomjs.org/download.html 下载对应系统版本下载后解压PhantomJS文件,将解压文件夹,剪切到python安装文件夹然后将P

第三百二十四节，web爬虫，scrapy模块介绍与使用

第三百二十四节,web爬虫,scrapy模块介绍与使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy 使用了 Twisted异步网络库来处理网络通讯.

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

第三百二十二节，web爬虫，requests请求

第三百二十二节,web爬虫,requests请求 requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求一.不需要用户登录或者验证的请求这种比较简单,直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- coding:utf8 -*- import requests #导入模拟浏览器请求模块 http

Web爬虫入门

1.0示例学习:Web爬虫 public class WebCrawler { // 种子url private static String url = "http://www.cnblogs.com/"; public static void main(String[] args) { ArrayList<String> list = crawler(url); System.out.println("Length of listOfPendingURLs: &

第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies

第三百三十三节,web爬虫讲解2-Scrapy框架爬虫-Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里的请求 Request()get请求,可以设置,url.cookie.回调函数 FormRequest.from_response()表单post提交,第一个必须参数,上一次响应cookie的response对象,其

web爬虫

第一.爬虫及其行为方式 1.根集 2.连接的提取和相对链接的标准化从页面提取出链接,然后把相对链接转化为绝对链接 3.避免环路的出现 4.循环和复制 5.记录爬过得链接树和散列表有损的存在位图集群和索引 6.规范URL 7.避免循环和重复规范URL 广度优先的爬行节流:限制一段时间内机器人可以从一个WEB站点获取的页面的数量限制URL的大小 URL/站点黑白名单内容识别模式检测人工监视 8.机器人的HTTP http1.1加host首部 9.web站点和robots.txt文