spider

#!/bin/bash -

#===============================================================================

#

#          FILE: ./baidu_spider_scripts.sh

#

#         USAGE: ./baidu_spider_scripts.sh

#

#   DESCRIPTION:

#

#       OPTIONS: ---

#  REQUIREMENTS: ---

#          BUGS: ---

#         NOTES: ---

#        AUTHOR: Hsuing Han

#        E-MAIL: hxopensource.163.com

#  ORGANIZATION:

#       CREATED: 2015年04月20日 15:07

#      REVISION:  ---

#===============================================================================

m="$(date +%m)"

case $m in

"01") m=‘Jan‘;;

"02") m=‘Feb‘;;

"03") m=‘Mar‘;;

"04") m=‘Apr‘;;

"05") m=‘May‘;;

"06") m=‘June‘;;

"07") m=‘July‘;;

"08") m=‘Aug‘;;

"09") m=‘Sept‘;;

"10") m=‘Oct‘;;

"11") m=‘Nov‘;;

"12") m=‘Dec‘;;

esac

d="$(date +%d)"

spider=(

Baiduspider

Googlebot

bingbot

Googlebot

Sogou

YisouSpider

360Spider

AhrefsBot

Slurp

MJ12bot

Python-urllib

ApacheBench

)

#log=/var/log/nginx/xiaokuihua.net-access.log

if [ $# -ne 1 ]

then

echo "你输入的格式不对!!!"

echo "请输入右面的格式,如/path/spider.sh xxx.log"

exit 0;

fi

for i in ${spider[*]}; do

echo -e "$i \t" `cat $1 |grep $d/$m|grep $i|wc -l`"次"

#awk ‘/Baiduspider/{print $(NF-3),$6}‘ $1  | grep "/subject/lovechild"

done

时间: 2024-10-24 04:11:04

spider的相关文章

spider RPC更新至2.0.0-RELEASE

spider使用java语言开发,使用Spring作为IoC容器,采用TCP/IP协议,在此基础上,结合SaaS金融交易系统的特性进行针对性和重点设计,以更加灵活和高效的满足金融交易系统多租户.高可用.分布式部署的要求.spider默认采用JSON作为序列化机制,后续版本可能会考虑支持protobuf(java/c++/c#均有类库支持). 为了最大化性能以及稳定性,spider基于Oracle JDK1.8进行编译并应避免使用deprecated特性. 为了尽可能的适应各环境以及互联网应用,s

spider RPC开发指南

协议与兼容性 spider使用java语言开发,使用Spring作为IoC容器,采用TCP/IP协议,在此基础上,结合SaaS系统模式的特性进行针对性和重点设计,以更加灵活和高效的满足多租户系统.高可用.分布式部署的要求. 采用JSON作为序列化机制,后续版本可能会考虑支持protobuf(java/c++/c#均有类库支持). 为了最大化性能以及稳定性,spider基于Sun JDK1.8进行编译并应避免使用deprecated特性. 为了尽可能的适应各环境以及互联网应用,spider应能至少

暑假练习赛 003 A Spider Man

A - Spider Man Crawling in process... Crawling failed Time Limit:2000MS     Memory Limit:262144KB     64bit IO Format:%I64d & %I64u Submit Status Description Input Output Sample Input Sample Output Hint Description Peter Parker wants to play a game w

Mining of Massive Dataset----PageRank的两种问题spider traps和dead ends

PageRank的两种问题 spider traps(蛛网陷阱) 在几个网页的节点之间跳转,经过一段很长的时间之后,只能在节点n来回跳转(也就是说不嫩访问到其他的网页,只能点击访问节点n这个网页). 解决方法: 在访问节点n的几率接近于1的时候,让他随机的跳转到任意一个网页(唉网页可以不在这些几点网页中). dead ends 在几个网页的节点之间跳转,经过一段很长的时间之后,没有出路了,连几点n这个网页也不能访问. 解决方法: 判断网页节点矩阵M中是否有一列全部是0,如果有,则将这一列的值全部

spider RPC管理接口

为了在独立管理模式下尽可能的容易运行时排查问题,spider中间件提供了一系列restful api用于动态管理当前节点的路由,下游节点等.目前支持的RESTFUL API如下所示: 功能 服务号 RESTFUL地址 查询路由信息 00000001 http://ip:port/spider/routes.html 查询下游服务器 00000002 http://ip:port/spider/clusters.html 查询客户端连接 00000003 http://ip:port/spider

Web Spider实战1——简单的爬虫实战(爬取"豆瓣读书评分9分以上榜单")

1.Web Spider简介 Web Spider,又称为网络爬虫,是一种自动抓取互联网网页信息的机器人.它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式.它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息. 2.一个简单的网络爬虫案例 作者在浏览网页的时候看到豆瓣书单的网页(首页),如下所示: 因为书单共有409本书,17个页面,若是要一个个浏览完,需要较长的时间,想要保存好书单,那

Scrapinghub执行spider抓取并显示图片

序 最近在学习Scrapy的时候发现一个很有意思的网站,可以托管Spider,也可以设置定时抓取的任务,相当方便.于是研究了一下,把其中比较有意思的功能分享一下: 抓取图片并显示在item里: 下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片: 1. 创建一个scrapy project: scrapy startproject lianjia_shub 这时会在当前文件夹下创建如下文件夹: │  scrapy.cfg │ └─lianjia_shub     │  items.p

爬虫框架Scrapy之Spider

Spider Spider类定义了如何爬取某个(或某些)网站.包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item). 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方. class scrapy.Spider是最基本的类,所有编写的爬虫必须继承这个类. 主要用到的函数及调用顺序为: __init__() : 初始化爬虫名字和start_urls列表 start_requests() 调用make_requests_from u

五、基于hadoop的nginx访问日志分析--userAgent和spider

useragent: 代码(不包含蜘蛛): # cat top_10_useragent.py #!/usr/bin/env python # coding=utf-8 from mrjob.job import MRJob from mrjob.step import MRStep from nginx_accesslog_parser import NginxLineParser import heapq class UserAgent(MRJob): nginx_line_parser =

eclipse+PyDev 中报错"scrapy.spiders.Spider" ,可用"# @UndefinedVariable"压制.

# -*- coding:utf-8 -*- ''' Created on 2015年10月22日 (1.1) 例子来源: http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/tutorial.html ''' import scrapy # 去掉 s 在PyDev中不报错, 但是无法运行.如果加上 s 虽然报错,但是程序能正常运行. # 可以在 PyDev 中使用 " # @UndefinedVariable "来压制错误提示.