au3抓取不得姐网站

网站地址：http://www.budejie.com/text/

用的正则有些别扭，见笑。

代码：

#include <IE.au3>
#include <File.au3>
#include <String.au3>
#include <Array.au3>
#include <Debug.au3>
#include <Date.au3>
;code try to collect budejie stories of www.budejie.com

Local $strUrl1 = "http://www.budejie.com/text/"
Local $filename1 = "budejie"
$filename1 = $filename1 & ‘_‘ & @MON
$filename1 = $filename1  & @MDAY
$filename1 = $filename1 & ‘.txt‘
Local $filesave = @TempDir & "\budejie.html"
Local $pageindex
Local $startindex = 1
Local $endindex = 5
Local $sHTML
Local $storycount = 0
_FileCreate($filename1)
Local $file = FileOpen($filename1, 1)
If $file = -1 Then
    MsgBox(0, "Error", "Unable to open file.")
    Exit
 EndIf
For $pageindex = $startindex To $endindex Step 1
   $strUrl1 = MakeUpUrl($pageindex)
   Local $hDownload = InetGet($strUrl1, $filesave, 1, 1)
   Do
       Sleep(250)
   Until InetGetInfo($hDownload, 2)
   Local $nBytes = InetGetInfo($hDownload, 0)
   InetClose($hDownload)
  ConsoleWrite ($pageindex & ‘ / ‘ & $endindex &" --- down bytes = " &$nBytes & @LF)
  $fsize = $nBytes
  $ftemp = FileOpen($filesave, 0)
  $getsize=    FileGetSize ($filesave)
  $sHTML = FileRead($ftemp, $getsize)
  FileClose($ftemp)
  FileDelete($filesave)
  Local $aArray = StringRegExp($sHTML, ‘<div class="j-r-list-c-desc">[ \n\r]+<a href="/detail-\d+.html">[^<]+(?=</a>)‘, 3)
  ConsoleWrite("aArray size = " & UBound($aArray) & @CRLF)
    If UBound($aArray) <= 0 Then
        ContinueLoop
        EndIf
    $max = UBound($aArray)-1
  For $i = 0 To $max Step 1
     Local $item = $aArray[$i]
     If StringLen($item) > 0 Then
    $strnum = $storycount +1
    $strnum = $strnum & "." &@CRLF
    FileWrite($file, $strnum)
    $storycontent = StringRegExpReplace($item,‘<div class="j-r-list-c-desc">[ \n\r]+<a href="/detail-\d+.html">‘,"")
     $storycontent = $storycontent & @CRLF
     FileWrite($file, $storycontent)
     $storycount = $storycount + 1
     EndIf
     Next
   Next
FileClose($file)
MsgBox(0, "BUDEJIE", "Complete, story count = "&$storycount & ‘, story=‘ & $filename1)
Exit
Func MakeUpUrl($pagenum)
    If $pagenum == 1 Then
         $strUrl = ‘http://www.budejie.com/text/‘
    Else
        $strUrl = ‘http://www.budejie.com/text/‘ & $pagenum
   EndIf
   return $strUrl
   EndFunc

时间： 2024-10-08 00:47:49

au3抓取不得姐网站的相关文章

[Python爬虫] 之二十六：Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息

一.介绍本例子用Selenium +phantomjs爬取智能电视网站(http://www.tvhome.com/news/)的资讯信息,输入给定关键字抓取图片信息. 给定关键字:数字:融合:电视二.网站信息三.数据抓取针对上面的网站信息,来进行抓取 1.首先抓取信息列表抓取代码:Elements = doc('div[class="main_left fl"]').find('div[class="content"]').find('ul').find

使用webpasser抓取某笑话网站整站内容

使用webpasser框架抓取某一笑话网站整站内容.webpasser是一款可配置的爬虫框架,内置页面解析引擎,可快速配置出一个爬虫任务.配置方式将页面解析和数据存储分离,如果目标网站改版,也可以快速修复. 配置说明如下(该例子完整配置见http://git.oschina.net/passer/webpasser): 1.先写总的抓取参数:网页编码是gbk,请求超时时间是5秒,请求失败重试5次,抓取失败后等待时间10秒,设置10个线程抓取,每次抓取后不等待.这里不设置请求头信息.cookie,

抓取大众点评网站数据

使用PHP单线程抓取,速度比较慢,可以抓取所有的团购信息:店铺信息也可以抓取: 公司测试产品需要使用一些数据,所有试着抓取的,感觉就是写正则,不指定别人是怎么样的实现思路,感觉使用php多线程应该会速度更好吧. 我主要是抓评论跟一些图片,但是其他思路基本一样.按理来说,只要能显示出到网页上的,都可以抓下来. 我抓取的思路是第一步获取所有的city信息即test_get_city_info: 第二部通过city的url抓取每个city的每个类别的商品团购信息test_get_web_info 第三

au3抓取糗事百科网站

网址:'http://www.qiushibaike.com/8hr/page/' & $pagenum & '?s=4512150' #include <IE.au3> #include <File.au3> #include <String.au3> #include <Array.au3> #include <Debug.au3> #include <Date.au3> ;code try to collect

python+rabbitMQ抓取某婚恋网站用户数据

"总是向你索取却不曾说谢谢你----",在博客园和知乎上面吸收了很多知识,以后也会在这里成长,这里挺好,谢谢博客园和知乎,所以今天也把自己在项目期间做的东西分享一下,希望对朋友们有所帮助.... 废话少说,let's go----! 需求: 项目需要做一个婚恋网站,主要技术有nginx,服务器集群,redis缓存,mysql主从复制,amoeba读写分离等等,我主要用rabbitMQ+python完成并实现了数据爬取工作(数据库写入及图片下载保存),速度的话公司的电脑爬的(i5+16g

为何大量网站不能抓取?爬虫突破封禁的6种常见方法

在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots).最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息. 本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制.想更多了解网络数据采集基础知识,可以参考文后的资料. 在采集网站的时会遇到一些比

盘点网站优化过程中影响蜘蛛抓取的因素

一个网站的优化效果好不好,最直接了当最明显的因素就是看网站的收录情况.通常情况下网站收录的内容越多,网站的排名和权重就会越高,其网站的运营就越成功,优化效果就好.要想让网站更多页面被收录,就要想方设法的吸引搜索引擎蜘蛛来抓取页面,那么哪些因素影响蜘蛛抓取页面呢?根据最近的学习,为大家总结了以下几点常见因素.首先.网站和页面权重.站长们都知道,一般网站质量高.时间久的网站,权重都比较高,搜索引擎蜘蛛过来抓取的次数就比较频繁.这种网站上的页面被爬行的深度也会比较高,收录也会很多. 第二.网站的更新频

抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定

首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章都会被其他网站给抓取去了,不信你们看看就知道了.还有人抓取别人网站上的邮箱.电话号码.QQ等等有用信息,这些信息抓取下来肯定可以卖钱或者干其他事情,我们每天都会时不时接到垃圾短信或邮件,可能就这么回事了,有同感吧,O(∩_∩)O哈哈~. 本人前段时间了写了两个程序,一个程序是抓取某彩票网站的数据(双