Go语言之进阶篇爬百度贴吧并发版

1、爬百度贴吧并发版

示例:

package main

import (
	"fmt"
	"net/http"
	"os"
	"strconv"
)

//爬取网页内容
func HttpGet(url string) (result string, err error) {
	resp, err1 := http.Get(url)
	if err1 != nil {
		err = err1
		return
	}

	defer resp.Body.Close()

	//读取网页body内容
	buf := make([]byte, 1024*4)
	for {
		n, _ := resp.Body.Read(buf)
		if n == 0 { //读取结束,或者,出问题
			//fmt.Println("resp.Body.Read err = ", err)
			break
		}

		result += string(buf[:n])
	}

	return
}

//爬取一个网页
func SpiderPage(i int, page chan int) {
	url := "http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
	fmt.Printf("正在爬第%d页网页: %s\n", i, url)

	//2) 爬 (将所有的网站的内容全部爬下来)
	result, err := HttpGet(url)
	if err != nil {
		fmt.Println("HttpGet err = ", err)
		return
	}

	//把内容写入到文件
	fileName := strconv.Itoa(i) + ".html"
	f, err1 := os.Create(fileName)
	if err1 != nil {
		fmt.Println("os.Create err1 = ", err1)
		return
	}

	f.WriteString(result) //写内容

	f.Close() //关闭文件

	page <- i
}

func DoWork(start, end int) {
	fmt.Printf("正在爬取 %d 到 %d 的页面\n", start, end)

	page := make(chan int)
	//明确目标 (要知道你准备在哪个范围或者网站去搜索)
	for i := start; i <= end; i++ {
		go SpiderPage(i, page)
	}

	for i := start; i <= end; i++ {
		fmt.Printf("%第%d个页面爬取完成\n", <-page)
	}
}

func main() {
	var start, end int
	fmt.Printf("请输入起始页( >= 1) :")
	fmt.Scan(&start)
	fmt.Printf("请输入终止页( >= 起始页) :")
	fmt.Scan(&end)

	DoWork(start, end)
}

执行结果:

D:\GoFiles\src\hello_01>go run get_web.go
请输入起始页( >= 1) :1
请输入终止页( >= 起始页) :10
正在爬取 1 到 10 的页面
正在爬第3页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=100
正在爬第10页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%
9F&ie=utf-8&pn=450
正在爬第6页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=250
正在爬第7页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=300
正在爬第8页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=350
正在爬第9页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=400
正在爬第2页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=50
正在爬第4页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=150
正在爬第5页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=200
正在爬第1页网页: http://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9
F&ie=utf-8&pn=0
%!第(int=4)%!d(MISSING)个页面爬取完成
%!第(int=9)%!d(MISSING)个页面爬取完成
%!第(int=3)%!d(MISSING)个页面爬取完成
%!第(int=8)%!d(MISSING)个页面爬取完成
%!第(int=10)%!d(MISSING)个页面爬取完成
%!第(int=1)%!d(MISSING)个页面爬取完成
%!第(int=5)%!d(MISSING)个页面爬取完成
%!第(int=2)%!d(MISSING)个页面爬取完成
%!第(int=7)%!d(MISSING)个页面爬取完成
%!第(int=6)%!d(MISSING)个页面爬取完成

  

原文地址:https://www.cnblogs.com/nulige/p/10324284.html

时间: 2024-10-08 11:33:35

Go语言之进阶篇爬百度贴吧并发版的相关文章

Go语言之进阶篇TCP相互通信

1.TCP相互通信 服务端示例: tcp_server.go package main import ( "fmt" "net" ) func main() { //监听 listener, err := net.Listen("tcp", "127.0.0.1:8000") if err != nil { fmt.Println("err = ", err) return } defer listener

Go语言之进阶篇请求报文格式分析

1. 请求报文格式分析 示例: package main import ( "fmt" "net" ) func main() { //监听 listener, err := net.Listen("tcp", ":8000") if err != nil { fmt.Println("Listen err = ", err) return } defer listener.Close() //阻塞等待用户

Go语言之进阶篇连接mysql

一.Go连接mysql 1.mysql驱动 地址:https://github.com/Go-SQL-Driver/MySQL 说明: sql.Open()函数用来打开一个注册过的数据库驱动,Go-MySQL-Driver中注册了 mysql这个数据库驱动,第二个参数是DNS,它是Go-MySQL-Driver定义的一些数据库链接和配置信息. 2.下载mysql驱动包方法 在LiteIDE中,选中"github.com/go-sql-driver/mysql" 这行代码,再点编译---

24SkypeForBusiness2015进阶篇--迁移CMS到SFB标准版

6.3.4 迁移CMS到SFB标准版 注意此步骤一定要到标准版上运行Skype For Business Server命令行管理程序,在企业版本上运行可能无法找到标准版中央管理服务器池 打开部署向导,按照提示运行一次本地安装程序

java web进阶篇(三) 表达式语言

表达式语言(Expression Language ,EL)是jsp2.0中新增的功能.可以避免出现许多的Scriptlet代码 格式: ${ 属性名称 },  使用表达式语言可以方便的访问对象中的属性,提交的参数或者进行各种数学运算,而且使用表达式语言最大的特点是如果输出的内容是null,则会自动使用空字符串("")表示. <%request.setAttribute("name", "info");%> <h1>${n

GO语言的进阶之路-面向对象编程

GO语言的进阶之路-面向对象编程 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 当你看完这篇文章之时,我可以说你的Golang算是入门了,何为入门?就是你去看Docker 源码能看懂60%的语法结构,因为涉及一些unix的代码可能没有Linux运维基础的同学在学习的时候会很吃力,看起来也会带来一定的难度,如果有时间的话我会给大家解析Docker部门精辟的源码.好了,回归正题吧,我们今天要学习的内容是什么呢?即面向对象编程.当然,不要用屌丝的心态来说:"那要是没对象的还咋编程呢

[转]抢先Mark!微信公众平台开发进阶篇资源集锦

FROM : http://www.csdn.net/article/2014-08-01/2820986 由CSDN和<程序员>杂志联合主办的 2014年微信开发者大会 将于8月23日在北京举行.作为一线微信开发商云集.专注在开发实践方面的顶级技术活动,演讲话题极为丰富,涵盖了微信开发不同维度的多个层内容 (首批议程发布),包括:企业服务号开发和高级应用.企业号开发.如何与业务系统对接.各种高级接口功能.智能客服与LBS.HTML5社交应用.微信支付.微信电商开发等多方面(查看 参加微信开发

jqGrid 学习笔记整理——进阶篇(二)

jqGrid 学习笔记整理--进阶篇(二 ) 本篇开始正式与后台(java语言)进行数据交互,使用的平台为 JDK:java 1.8.0_71 myEclisp 2015 Stable 2.0 Apache Tomcat-8.0.30 Mysql 5.7 Navicat for mysql 11.2.5(mysql数据库管理工具) 一.数据库部分 1.创建数据库 使用Navicat for mysql创建数据库(使用其他工具或直接使用命令行暂不介绍) 2.创建表 双击打开上步创建数据库--右击T

DotNet进阶篇

一. 回顾历史 回顾个人发展历程,自2012年初次接触开发至今(2018年)已经有五六个年头,这期间陆陆续续学习并掌握了不少技术,C#语言.ORM框架.多线程技术.设计模式.前端技术.MVC.MVVM框架思想等等,每种技术随着多次使用,随着不断的反思,逐渐经历 "了解→理解→掌握→精通 "这么一个过程,从最初的只能实现功能到如今的"每一步都考虑性能优化问题",在近两年内,开始写博客,最初只是一时兴起,想让百度上能搜索出我的文章,但现在已经形成一个习惯,在没有特殊事情