【转载】从网站内因分析影响爬虫抓取

一个网站只有爬虫抓取了，才能被收录、有快照、有排名。所以搜索引擎爬虫对网站的抓取情况直接决定了一个网站seo的成败。今天笔者就从网站内部本身来分析一下那些因素将影响到搜索引擎爬虫的爬取：
　　1、网站速度影响爬虫访问
　　机房—DNS服务器—CDN—出口带宽--硬件—操作系统—服务器软件—程序
　　机房的位置：最好选择靠近爬虫的线路
　　Dns服务器：热门、稳定(推荐dnspod)
　　CDN：在做网站日志分析时候记得算进去
　　出口带宽：避免与大流量的网站同机房
　　硬件：在经济允许下使用配置高的
　　操作系统：推荐linux，稳定安全
　　程序：安全、效率高、符合w3c标准
　　2、nofollow标签的使用控制爬虫抓取
　　Nofollow是告诉搜索引擎不追踪不传递权重此链接。
　　Nofollow掉每个页面重复出现的链接和对seo无价值的页面，减少爬虫重复抓取每个页面的多余链接，提高爬虫抓取率，增加对重要页面的抓取。
　　使用方法：rel=“nofollow”
　　3、其他影响爬虫抓取的因素
　　防火墙规则、防攻击设置、防采集规则设置。部分网站为了网站安全，在频频的多次访问后自动断开，可能造成爬虫被拒。
　　硬盘转速：很多情况下有的朋友会分割服务器硬盘，分出来的盘做为其他测试之用。如此一来回造成硬盘转速慢，影响爬虫访问速度。

时间： 2024-10-02 01:26:06

【转载】从网站内因分析影响爬虫抓取的相关文章

盘点网站优化过程中影响蜘蛛抓取的因素

一个网站的优化效果好不好,最直接了当最明显的因素就是看网站的收录情况.通常情况下网站收录的内容越多,网站的排名和权重就会越高,其网站的运营就越成功,优化效果就好.要想让网站更多页面被收录,就要想方设法的吸引搜索引擎蜘蛛来抓取页面,那么哪些因素影响蜘蛛抓取页面呢?根据最近的学习,为大家总结了以下几点常见因素.首先.网站和页面权重.站长们都知道,一般网站质量高.时间久的网站,权重都比较高,搜索引擎蜘蛛过来抓取的次数就比较频繁.这种网站上的页面被爬行的深度也会比较高,收录也会很多. 第二.网站的更新频

【Heritrix源代码分析4】开始一个爬虫抓取的全流程代码分析

在创建一个job后,就要开始job的运行,运行的全流程如下: 1.在界面上启动job 2.index.jsp 查看上述页面对应的源代码 <a href='"+request.getContextPath()+"/console/action.jsp?action=start'>Start</a> 3.action.jsp String sAction = request.getParameter("action"); if(sAction !

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

python 爬虫抓取心得分享

/** author: insun title:python 爬虫抓取心得分享 blog:http://yxmhero1989.blog.163.com/blog/static/112157956201311821444664/ **/ 0x1.urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'h

爬虫抓取网页相似度判断

爬虫抓取网页过程中,会产生很多的问题,当然最重要的一个问题就是重复问题,网页的重复抓取.最简单的方式就是对url去重.已经抓取过的url不再抓取.但是其实在实际业务中是需要对于已经抓取过的URL进行再次抓取的.例如 BBS .bbs存在大量的更新回复,但是url不会发生改变. 一般情况下的url去重方式,就是判断url是否抓取过,如果抓取过就不再抓取,或者是在一定时间内不再抓取.. 我的需求也是这样的, 所以首先做的就是url去重. 在爬虫发现链接,加入待抓取队列的时候,会对url进行验证,是否

php爬虫抓取信息及反爬虫相关

58爬虫了百姓,赶集和58互爬,最后各种信息相同,都是爬虫后的数据库调用,潜规则啊,几家独大还暗中各种攻击,赶驴网的幽默事例我不想多评价.这个时代是砸.钱*养.钱的时代,各种姚晨杨幂葛优,各种地铁公车广告,各种卫视广告,铺天盖地~~~ 来谈php爬虫抓取信息~~ php爬虫首推Curl函数了,先来认识下它. 0x01.curl扩展的安装: 1.确保php子文件夹ext里面有php_curl.dll(一般都有的,一般配置时候会设置环境变量的) 2.将php.ini里面的;extension=php

简单爬虫-抓取博客园文章列表

原文:简单爬虫-抓取博客园文章列表如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了.爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方. 大部分使用httpRequst就能完成,不管是否添加了口令.随即码.请求参数.提交方式get或者post.地址来源.多次响应等等.但是有些网站使用ajax如果是返回json或固定格式的也好处理,如果是很复杂的,可以使用webbrower控件进行抓取,最后正则解析,获取所需要的数据即

Python3简单爬虫抓取网页图片

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正. 1 import urllib.request 2 import re 3 import os 4 import urllib 5 #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 6 def getHtml(url): 7 page = urllib.r

C#网页爬虫抓取行政区划

借鉴C#网页爬虫抓取行政区划,从国家统计局获取了最新行政区域数据. 以下为代码贴片: 数据库类: public class City { public decimal ID { get; set; } public string Name { get; set; } public string Code { get; set; } public string Org_Level { get; set; } public string ParentCode { get; set; } public

猜你喜欢

MVC 5 第三章 HTML Helper

position:static(静态定位) 当position属性定义为static时,可以将元素定义为静态位置,所谓静态位置就是各个元素在HTML文档流中应有的位置 podisition定位问题.所 ...

ios NSFileManager和NSFileHandle（附：获取文件大小）

转自 http://blog.csdn.net/zhibudefeng/article/details/7795946 //file 文件操作 NSFileManager 常见的NSFileManag ...

通过Servlet实现汉字验证码

package com; import java.awt.Color;import java.awt.Font;import java.awt.Graphics;import java.awt.Gra ...

FAT32学习笔记（二）——spec

1,如何区别FAT12 FAT16和FAT32 区分FAT12,FAT16,FAT32的主要依据是该分区上cluster的个数(注意:第一个cluster是以cluster2开始计数的).FAT32的 ...

artdialog关闭弹出窗口

打开 function opentree(){ var dialog = art.dialog({ title: '选择提交部门', content:jQuery("#my ...

Appium是个什么？

Appium是一个APP的自动化框架,可用于测试APP.网页(web).混合型应用,而且是跨平台(可以针对不同平台用一套api来编写测试用例)的, Appium的特点: 1.使用自动化来测试一个app ...

基于Debug模式windows应用程序app.config设置

介绍当我们开发Windows窗体应用程序,我们肯定会利用App.config的.我们可以添加,修改和删除键/值对管理用户首选项.在这里,将会节省你的时间. 演示这里有一个简单的Windows窗体应 ...

【WMware】关于VMware服务器虚拟化管理之服务器容量扩充

将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,我们不再受限于物理上的界限,而是让CPU.内存.磁盘.I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率 ...

【USACO 3.1.6】邮票

[描述] 已知一个N枚邮票的面值集合(如,{1分,3分})和一个上限K ——表示信封上能够贴K张邮票.计算从1到M的最大连续可贴出的邮资. 例如,假设有1分和3分的邮票:你最多可以贴5张邮票.很容易贴 ...

Linux 配置YUM

标签:MYSQL/linux 概述文章主要介绍配置yum源,虽然网上有很多方法,但是每个多多少少都有点问题,所以就把自己的配置过程写出来. 目录概述步骤下载安装包卸载自带的yum 安装yum ...

android 视频通话开启呼叫等待后，来第三方的视频通话，接通后通话时间一直显示为0，过几秒之后视频通话自己主动挂断

开启通话设置视频通话的"来电等待"; 步骤1:測试机和配合机A处于视频通话过程中; 步骤2:配合机B向測试机呼出视频电话; 步骤3:測试机接听配合机B的视频来电; 现象:视频通话过 ...

安装Yii框架时init.bat闪退的处理方法

已经开启了php_openssl扩展还是会闪退 1.右击'计算机'-'属性'-'高级系统属性'-'环境变量(最下边)': 2.在'系统变量'里找到'path',双击,出现'编辑系统变量',在'变量值' ...

android 5.X Toolbar+DrawerLayout实现抽屉菜单

前言 ?android5.X新增的一个控件Toolbar,这个控件比ActionBar更加自由,可控,因为曾经的ActionBar的灵活性比較差,所以google逐渐使用Toolbar替代Action ...

service 和 Controller 差别

service 层能够看做是还有一个 DAO 层,仅仅是在里面封装了还有一些逻辑. 而 Controller 和 service 差别就大了.Controller 要处理请求映射, service ...

IOS8 开发之Swift - 自学之路(第二天)

1.1Converting value Swift 不会自动类型转换,要想类型转换必须用Int(),Double,String() etc. var quantity = 42 var unitPri ...

HTML 头部标签

常用的 HTML 头部标签 https://github.com/yisibl/blog/issues/1 HTML head 头标签 http://blog.jobbole.com/78592/ 模 ...

JSP2.0

JSP 2.0的一个主要特点是它支持表达语言(expression language).JSTL表达式语言可以使用标记格式方便地访问JSP的隐含对象和JavaBeans组件,JSTL的核心标记提供了流 ...

CSS实现居中的7种方法

实现HTML元素的居中看似简单,实则不然水平居中比如容易,垂直居中比较难搞定,水平垂直都居中更不容易.在这个响应式布局的年代,很难固定元素的宽高,俺统计了一下,目前的几种方法.本文由浅入深逐个介绍 ...

Android中MalformedURLException的解决

当我们需要创建一个URL对象的时候,可以通过以下方法: URL url = new URL(urlString); 其中的urlString表示的是我们的链接地址,当我们出现MalformedURLE ...

Win7下npm命令Error: ENOENT问题解决

Win7下在执行npm命令,比如npm list时出现下面错误: 解决办法: 在搜索框中输入%appdata%,进入C:\Users\aaron\AppData\Roaming,然后在Roaming下 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.