golang版并发爬虫

准备爬取内涵段子的几则笑话,先查看网址:http://www.budejie.com/text/

简单分析后发现每页的url呈加1趋势

第一页: http://www.budejie.com/text/1

第二页:http://www.budejie.com/text/2

...

每页的段子:

<a href="/detail-28278217.html"> 内容</a>

<a href="/detail-28270675.html"> 内容</a>

....

所以正则表达式的解释规则是<a href="/detail-\d{8}.html">(?s:(.*?))</a>,第一个分组的内容就是需要的文字。

代码如下:

package main
import (
    "fmt"
    "regexp"
    "strconv"
    "net/http"
    "log"
    "os"
    "strings"
)

func onespider(n int, ch chan int) {
    url := "http://www.budejie.com/text/" + strconv.Itoa(n)
    resp, err := http.Get(url)
    if err != nil {
        log.Fatal("get error")
    }
    defer resp.Body.Close()
    reg, err1 := regexp.Compile(`<a href="/detail-\d{8}.html">(?s:(.*?))</a>`)
    if err1 != nil {
        log.Fatal("compile error")
    }
    var respstring string
    buf := make([]byte, 1024)
    for {
        n, _ := resp.Body.Read(buf)
        if n == 0 {
            break
        }
        respstring += string(buf[:n])
    }

    cont := reg.FindAllStringSubmatch(respstring, -1)
    file, _ := os.OpenFile("./爬虫/"+"第"+strconv.Itoa(n)+"页爬虫.txt", os.O_RDWR|os.O_TRUNC|os.O_CREATE, 0666)
    defer file.CLose()
    var i int
    for _, value := range cont {
        if len(value[1]) < 100 {
            continue
        }
        value[1] = strings.Replace(value[1], "<br />", "\n", -1)
        index := strconv.Itoa(i+1)
        file.Write([]byte("第"+index+"则段:\n"+value[1]+"\n\n\n"))
        i++
    }
    ch <- n
}
func Spider(s, e int) {
    ch := make(chan int)
    for i := s; i <= e; i++ {
        go onespider(i, ch)
    }
    for i := s; i <= e; i++ {
        n := <- ch
        fmt.Printf("第%d页爬取完毕\n", n)
    }
}
func main(){
    var start, end int
    fmt.Println("输入起始页")
    fmt.Scan(&start)
    fmt.Println("输入终止页")
    fmt.Scan(&end)
    Spider(start, end)
}

  

运行截图:

效果截图:

最后我发现第2页之后的段子都是重复的。。。

原文地址:https://www.cnblogs.com/lesroad/p/10015607.html

时间: 2024-10-20 16:33:21

golang版并发爬虫的相关文章

golang 并发爬虫

golang 并发爬虫 之前的一篇文章中展示了一个使用 python 和 aiohttp 搭建的并发爬虫,这篇文章使用 golang 实现同样的功能,旨在理解 python async 异步和 golang 异步编程之间的差别. 代码 package main import ( json "encoding/json" "fmt" ioutil "io/ioutil" "net/http" ) func httpGet(url

Golang版protobuf编译

官方网址: https://developers.google.com/protocol-buffers/ (需要FQ) 代码仓库: https://github.com/google/protobuf  (C++) https://github.com/golang/protobuf  (Golang) https://developers.google.com/protocol-buffers/docs/gotutorial (英文版教程) 本文以下部分按照英文版教程操作(windows  

golang的并发

Golang的并发涉及二个概念: goroutine channel goroutine由关键字go创建. channel由关键字chan定义 channel的理解稍难点, 最简单地, 你把它当成Unix中的双向通道Pipe. 1. channel的定义 2. select阻塞 3. 缓存机制: 使用make()创建. 4. 超时机制: 使用time.After()函数. func main() {var abc chan intselect {case <-abc:fmt.Println(&quo

《Let&#39;s Build A Simple Interpreter》之 Golang 版

一直以来对编译器/解释器等都较有兴趣.我非科班出身,当初还在大学时,只是马马虎虎看完了<编译原理>之类教材,上机非常少,对龙书之类圣经也只是浅尝辄止而已.工作至今,基本已将编译原理相关知识忘记得差不多了,可能也就还对譬如预处理词法分析语法分析 AST 生成等基础性的概念还有点印象罢. 约 1 年多前,我也有想法搞一套基于简化的 Pascal 语法的带类型的脚本语言"编译器"(PaxCompiler 之类可能太复杂了),并将此脚本语言编写的脚本与 Golang 交互起来.当然

[Golang] kafka集群搭建和golang版生产者和消费者

一.kafka集群搭建 至于kafka是什么我都不多做介绍了,网上写的已经非常详尽了. 1. 下载zookeeper  https://zookeeper.apache.org/releases.html 2. 下载kafka http://kafka.apache.org/downloads 3. 启动zookeeper集群(我的示例是3台机器,后面的kafka也一样,这里就以1台代指3台,当然你也可以只开1台) 1)配置zookeeper. 修改复制一份 zookeeper-3.4.13/c

Golang之并发篇

进程和线程 A.进程是程序在操作系统中的一次执行过程,系统进行资源分配和调度的一个独立单位. B.线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位. C.一个进程可以创建和撤销多个线程:同一进程中的多个线程之间可以并发执行. 并发和并行 并发:多线程程序在一个核的cpu上运行 并行:多线程程序在多个核的cpu上运行举例..一个妈给一个碗给多个小孩喂饭,,是并发 一个妈给每个小孩一人一个碗,就是并行 并发  并行 协程和线程 协程:独立的栈空间,共享堆空

python实现并发爬虫

在进行单个爬虫抓取的时候,我们不可能按照一次抓取一个url的方式进行网页抓取,这样效率低,也浪费了cpu的资源.目前python上面进行并发抓取的实现方式主要有以下几种:进程,线程,协程.进程不在的讨论范围之内,一般来说,进程是用来开启多个spider,比如我们开启了4进程,同时派发4个spider进行网络抓取,每个spider同时抓取4个url. 所以,我们今天讨论的是,在单个爬虫的情况下,尽可能的在同一个时间并发抓取,并且抓取的效率要高. 一.顺序抓取 顺序抓取是最最常见的抓取方式,一般初学

golang总结-并发

目录 2.7 并发编程 go协程 go管道 2.7 并发编程 go协程 golang 通过一个go关键字就可以开启一个协程. func main() { //两个交错输出 go sayHello() go sayHello2() time.Sleep(time.Second * 3) //阻塞主线程 } func sayHello() { for i := 0; i < 30; i++ { fmt.Println("hello world") } } func sayHello2

golang高并发的理解

前言 GO语言在WEB开发领域中的使用越来越广泛,Hired 发布的<2019 软件工程师状态>报告中指出,具有 Go 经验的候选人是迄今为止最具吸引力的.平均每位求职者会收到9 份面试邀请. 想学习go,最基础的就要理解go是怎么做到高并发的. 那么什么是高并发? 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求. 严格意义上说,单核的CPU是没法做到并行的,只有多核的CPU才能做到严格意义上的并行