C++ 实现网络爬虫

吐槽

前天心血来潮, 把自己面试经历下了下来.

我觉得自己求职一路来比较心酸, 也付出了比一般人更多的汗水.

本以为写出来, 好歹可以作为一篇励志故事.

得到的评论却是,

  语言只是一门工具. ||| 这句话我已经听了4年了!

  我以前也是XX, 现在XXX. ||| 直到你膝盖中了一箭?

  我也是用c的...只能说,重要的是一种学习的能力,会用即可. ||| 呵呵.

  可能能对于你的同学,你是优秀的,但是可能对于你想工作的方向的公司来说,你会的太少,不值得一些公司去培养,所以还是建议你把基础再好好踏实一下更有利。

最后一句话是让我最不爽的.

现在的人啊, 看什么就是什么, 以偏概全,

上的大学不好,  从入大学到大学毕业, 这经过了多少年, 从这多少年前就注定的事能认定这个人现在的水平么?

网投了几百份简历, 没有收到一个面试通知,

直接去公司霸面, 面了2个, 过了2个.

难道这个问题不是出在简历上?

突然就想起了找工作那段时间, 我在某群发了一条挂广告.

立马就有人出来扮演一位阅人无数的高人.

直言说, 你要是很优秀早就有人抢去了, 还是报个培训机构吧.

C++程序员都明白, C++成型慢, 一般公司都不会用新人, 更别说专科毕业的了.

那些习惯了速成的人是不会明白的.

好了, 吐槽完毕. 切换模式.

C++实现网络爬虫

#include <iostream>
#include <vector>
#include <list>
#include <map>
#include <queue>
#include <string>
#include <utility>
#include <regex>
#include <fstream>
#include <WinSock2.h>
#include <Windows.h>

#pragma comment(lib, "ws2_32.lib")

using namespace std;

void startupWSA()
{
    WSADATA wsadata;
    WSAStartup( MAKEWORD(2,0), &wsadata);
}

inline void cleanupWSA()
{
    WSACleanup();
}

inline pair<string, string> binaryString(const string &str, const string &dilme)
{
    pair<string, string> result(str, "");
    auto pos = str.find(dilme);
    if ( pos != string::npos )
    {
        result.first = str.substr(0, pos);
        result.second = str.substr(pos + dilme.size());
    }
    return result;
}

inline string getIpByHostName(const string &hostName)
{
    hostent* phost = gethostbyname( hostName.c_str() );
    return phost? inet_ntoa(*(in_addr *)phost->h_addr_list[0]): "";
}

inline SOCKET connect(const string &hostName)
{
    auto ip = getIpByHostName(hostName);
    if ( ip.empty() )
        return 0;
    auto sock = socket(AF_INET, SOCK_STREAM, 0);
    if ( sock == INVALID_SOCKET )
        return 0;
    SOCKADDR_IN addr;
    addr.sin_family = AF_INET;
    addr.sin_port = htons(80);
    addr.sin_addr.s_addr = inet_addr(ip.c_str());
    if ( connect(sock, (const sockaddr *)&addr, sizeof(SOCKADDR_IN)) == SOCKET_ERROR )
        return 0;
    return sock;
}

inline bool sendRequest(SOCKET sock, const string &host, const string &get)
{
    string http
        = "GET " + get + " HTTP/1.1\r\n"
        + "HOST: " + host + "\r\n"
        + "Connection: close\r\n\r\n";
    return http.size() == send(sock, &http[0], http.size(), 0);
}

inline string recvRequest(SOCKET sock)
{
    static timeval wait = {2, 0};
    static auto buffer = string(2048 * 100, ‘\0‘);
    auto len = 0, reclen = 0;
    do {
        fd_set fd = {0};
        FD_SET(sock, &fd);
        reclen = 0;
        if ( select(0, &fd, nullptr, nullptr, &wait) > 0 )
        {
            reclen = recv(sock, &buffer[0] + len, 2048 * 100 - len, 0);
            if (reclen > 0)
                len += reclen;
        }
        FD_ZERO(&fd);
    } while (reclen > 0);

    return len > 11
        ? buffer[9] == ‘2‘ && buffer[10] == ‘0‘ && buffer[11] == ‘0‘
        ? buffer.substr(0, len)
        : ""
        : "";
}

inline void extUrl(const string &buffer, queue<string> &urlQueue)
{
    if (buffer.empty())
    {
        return ;
    }
    smatch result;
    auto curIter = buffer.begin();
    auto endIter = buffer.end();
    while ( regex_search(curIter, endIter, result, regex("href=\"(https?:)?//\\S+\"") ) )
    {
        urlQueue.push(regex_replace(
            result[0].str(),
            regex("href=\"(https?:)?//(\\S+)\""),
            "$2") );
        curIter = result[0].second;
    }
}

void Go(const string &url, int count)
{
    queue<string> urls;
    urls.push(url);
    for (auto i = 0; i != count; ++i)
    {
        if ( !urls.empty() )
        {
            auto &url = urls.front();
            auto pair = binaryString( url, "/" );
            auto sock = connect(pair.first);
            if ( sock && sendRequest(sock, pair.first, "/" + pair.second) )
            {
                auto buffer = move( recvRequest(sock) );
                extUrl(buffer, urls);
            }
            cout << url << ": count=> " << urls.size() <<  endl;
            urls.pop();

        }
    }
}

int main()
{
    startupWSA();
    Go("www.hao123.com", 200);
    cleanupWSA();
    return 0;
}

该爬虫只花了1个小时左右.

其实我想说, 写的很烂, 大伙不要喷.

http协议, socket, 正则表达式咱们就不说了..

说说这个原理,

所有的 URL 全都放在 urls 这个队列中.

首先要 push 一个根 URL.

之后爬虫就行动了.

过程大概是这样:

从urls取出一个URL => 读出URL网页全部内容 => 分析所有URL => 把URL放进 urls => 从 urls 弹出一个 URL.

URL 是 host + get.

因此需要一个 binaryString 把它切开.

效率也不是很快, 1分钟大概4W条URL, 去掉重复至少也有好几千吧.

有一点需要注意.

C++11 的正则表达式真心有点难用~~~

我不知道怎么多次匹配..

只好用一个循环了..

网上搜出来一个答案,  写法有点莫名其妙..

执行结果

时间: 2024-12-28 08:56:12

C++ 实现网络爬虫的相关文章

简谈-网络爬虫的几种常见类型

众所周知,网络爬虫(或称为网络爬虫.网络蜘蛛.机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关. 很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用.但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的. 常见的优秀网络爬虫有以下几种类型: 1.批量型网络爬虫:限制抓取的属性,包括抓取范围.特定目标.限制抓取时间.限制数据量以及限制抓取页面,总之明显的特征就是受限: 2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据.

[No000090]微信公众号网络爬虫接口分析1

一直想做个公众号的网络爬虫,网上的好多接口都依赖于"瘦狗",不过微信接口一直在变,现在"瘦狗"也只允许查看10条历史记录,所以今天趁着下雨,研究了一下apk内部的东西,但是怕微信又改,我透漏的不能太多,有兴趣可以私下交流. 从微信上复制出来的url:https://mp.weixin.qq.com/mp/getmasssendmsg?__biz=MzI4OTA5MDgxNw==#wechat_webview_type=1&wechat_redirect 用浏

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索. 搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩.高可用.对大量信息的索引与搜索都可以在近 乎实时的情况下完成,能够快速实时搜索数十亿的文件以及PB级的数据,同时提供了全方面的选项,可以对

网络爬虫技术入门_Python基础与爬虫技术

Python基础与爬虫技术  课程学习地址:http://www.xuetuwuyou.com/course/195 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介 本作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用.使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站. <Python 基础与爬虫技术>讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法.此外,本课程还介绍了如何使用AJA

网络爬虫小案例_2017/3/10

今晚,了解了一下网络爬虫,那么什么是网络爬虫呢? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域.搜索引擎使用网络爬虫抓取Web网页.文档甚至图片.音频.视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询.网络爬虫也为中小站点的推广提供了有效的途径,网站针对搜索引擎爬虫的优化曾风靡一时. 网络爬虫的基本工作流程如下:     1.首先选取一部分精心挑选的种子U

使用网络爬虫的一丝心得

因为参与了创新计划,所以懵懵懂懂的接触到了网络爬虫. 爬数据使用工具,因此了解到Python.asp.net等可以用来抓数据. 想想在学习.net的时候根本没有想到会使用在这个上面--书本上的知识都是死的,那学习的基础知识只能通过不断的拓展使用领域才能在更好的得到深化.应用! 进入一个陌生的领域,从入门到精通的路真的是需要用汗水积累起来的--没有真正的天才,只有自感聪明的蠢材.(自我审视) 有句话说的特别的好:"世界上两种聪明的人:一种是从来不认为自己聪明的聪明人:而另一种是自以为自己很聪明的'

网络爬虫之selenium(综述)

   现阶段网络爬虫的工具主要是有scrapy.selenium(第二版)等.总的来说各有好处,scrapy最大 的好处是爬取的速度快而selenium的好处是能爬去的网站种类多.详细点的解释是:scrapy在爬取网页时不 用点击开页面(selenium似乎需要页面全部加载完才可以查找定位),selenium可以爬取动态网页和静态网页 (模拟浏器操作)而scrapy可以很顺利的爬取静态网页(但是很难或者不能爬取动态网页).由于爬取知网 的需要,本人学习了selenium,现分享一下个人的心得(如

下载大数据实战课程第一季Python基础和网络爬虫数据分析

python语言近年来越来越被程序相关人员喜欢和使用,因为其不仅简单容易学习和掌握,而且还有丰富的第三方程序库和相应完善的管理工具:从命令行脚本程序到gui程序,从B/S到C/S,从图形技术到科学计算,软件开发到自动化测试,从云计算到虚拟化,所有这些领域都有python的身影:python已经深入到程序开发的各个领域,并且会越来越多的人学习和使用. 大数据实战课程第一季Python基础和网络爬虫数据分析,刚刚入手,转一注册文件,视频的确不错,可以先下载看看:链接:http://pan.baidu

网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息及ISBN码

这一篇首先从allitebooks.com里抓取书籍列表的书籍信息和每本书对应的ISBN码. 一.分析需求和网站结构 allitebooks.com这个网站的结构很简单,分页+书籍列表+书籍详情页. 要想得到书籍的详细信息和ISBN码,我们需要遍历所有的页码,进入到书籍列表,然后从书籍列表进入到每本书的详情页里,这样就能够抓取详情信息和ISBN码了. 二.从分页里遍历每一页书籍列表 通过查看分页功能的HTML代码,通过class="current"可以定位当前页码所在span标签,此s

网络爬虫

网络爬虫 概述 这是一个网络爬虫学习的技术分享,主要通过一些实际的案例对爬虫的原理进行分析,达到对爬虫有个基本的认识,并且能够根据自己的需要爬到想要的数据.有了数据后可以做数据分析或者通过其他方式重新结构化展示. 什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫.via 百度百科网络爬虫网络蜘蛛(Web spider)也叫网络爬