网络爬虫 - 真·AC自动机

  前几天无聊,忽然想写点有趣的代码,关于网络方面的,刚开始就想写一个能从oj上自动拉个比赛的软件,后来查资料时看到了神奇的AC自动机,于是自己也去实现了遍。

  

  一天狂A 500多道。。。就当自娱自乐了。在这里提醒大家,AC需谨慎,我跑程序的时候已经将程序放慢了许多,也实时监控hdu(oj大部分题是从hdu拉的)是否卡住,但即使这样,还是伤到了学长的oj。。。

  自动AC原理比较简单,大概就是几个步骤:

  1. 从oj 获取某题的关键字(用于搜索,找出题解,关键字可以自己决定采用什么)

  2. 百度搜索关键字

  3. 找到博客链接

  4. 找到博客中代码部分

  5. 登录oj

  6. 将得到的代码提交到该题

  实现也不难,就是不断使用get、post 罢了,就是要细心。我是用C#写的,get、post需要自己封装一下,也很简单。

  看上面步骤:

  第一个需要看你要在哪个oj爬,每一个oj的实现不同。

  第二个步骤,百度搜索hdu1024其实就是跳到网页:https://www.baidu.com/s?wd=hdu1024。

  第三个步骤,看选取什么博客,我选择C博客,博客园的代码段太乱(网页元素和代码放在一起了...)。

  第四个步骤,通过找“code”一般就能找到代码了,注意一下细节就可以了。

  第五个步骤,登录也要看具体oj,post的参数中放上用户名、密码,大概就可以了。

  第六个步骤,提交也用post,看一下提交页面的源代码,分析一下需要传几个参数,小心一些即可。

  需要注意的是post时,参数字符串需要进行编码,比方说你地址栏输入https://www.baidu.com/s?wd=hdu 1089,浏览器会自动转化成https://www.baidu.com/s?wd=hdu%201089,也就是说中间是不允许出现空格的,空格用%20代替,你用post的时候就没有人帮你转化了,需要自己写一个编码函数。

  大家闲着的时候可以试试,但千万不要太过分,有可能会被封号的哦

时间: 2024-08-11 09:57:22

网络爬虫 - 真·AC自动机的相关文章

HDU 6208 The Dominator of Strings ——(青岛网络赛,AC自动机)

最长的才可能成为答案,那么除了最长的以外全部insert到自动机里,再拿最长的去match,如果match完以后cnt全被清空了,那么这个最长串就是答案.事实上方便起见这个最长串一起丢进去也无妨,而且更好写(时间也没有慢特别多). 另外需要注意的一点是init()里头的memset只需要清空之前用过的节点而不是所有节点,这是经常被卡的一点. 代码如下: 1 #include <stdio.h> 2 #include <algorithm> 3 #include <string

HDU 5880 Family View (2016 青岛网络赛 C题,AC自动机)

题目链接  2016 青岛网络赛  Problem C 题意  给出一些敏感词,和一篇文章.现在要屏蔽这篇文章中所有出现过的敏感词,屏蔽掉的用$'*'$表示. 建立$AC$自动机,查询的时候沿着$fail$指针往下走,当匹配成功的时候更新$f[i]$ $f[i]$表示要屏蔽以第$i$个字母结尾的长度为$f[i]$的字符串. 原文地址:https://www.cnblogs.com/cxhscst2/p/8452147.html

2016 年青岛网络赛---Family View(AC自动机)

题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=5880 Problem Description Steam is a digital distribution platform developed by Valve Corporation offering digital rights management (DRM), multiplayer gaming and social networking services. A family view

[C#] 逆袭——自制日刷千题的AC自动机攻克HDU OJ

前言 做过杭电.浙大或是北大等ACM题库的人一定对“刷题”不陌生,以杭电OJ为例:首先打开首页(http://acm.hdu.edu.cn/),然后登陆,接着找到“Online Exercise”下的“Problem Archive”,然后从众多题目中选择一个进行读题.构思.编程.然后提交.最后查看题解状态,如果AC了表示这一题被攻克了,否则就要重做了~一般情况下,“刷题”要求精神高度集中且经验丰富,否则很难成功AC,有时候甚至做一题要浪费半天的时间!(有时网速卡了,比抢火车票还要急!) 楼主在

浩爷AC自动机快速学习方案

    今天弄完自动机之后,从那天比赛的阴影中爬出来了,猛地一看真不咋滴难,仔细一看这尼玛还不如猛的一看...     必备算法:KMP,字典树(KMP我写了,字典树太简单,就是一个思想,我可以一个图教你做人)     先讲一下字典树:看图     好了,字典树就看酱紫一个图,你要是脑残就装不懂吧!!    下面是AC自动机的正题:     正如KMP中的求next函数是同样的一个原理     节点的属性:二十六个字母的指针,fail指针,其他...     重点:fail指针,我把它叫做同级指

网络爬虫(专门抓取图片)

xmfdsh我真是兴趣多多,怎么老是静不下心来搞定一方面的技术,再学点其他的东西,循序渐进,好吧,我又研究网络爬虫去了,这是一个简单版的,参考了网上很多资料,C#来编写,专门抓取图片,能够抓取一些需要cookie的网站,所以功能上还是挺完善的,xmfdsh只研究了三天,因此还有大把需要改进的地方,日后再 慢慢改进,在本文后面附上整个项目,在此献给喜欢研究C#的朋友们,让我慢慢地道来: #region 访问数据 + Request(int index) /// <summary> /// 访问数

基于C#.NET的高端智能化网络爬虫(一)(反爬虫哥必看)

前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就先带大家开发一个最简单低端的爬虫,突破携程网超高智商的反爬虫技术. 一.什么是爬虫? 很多人说我们这些搞软件的人,总喜欢把虚拟世界里的事物跟现实中的东西扯上关系.这点我真不否认,脱离了现实,我们伟大的创举还有何意义? “爬虫”就是个例子,它对于我们开发人员而言,就是一段用来自动化采集网站数据的程序,结果跟现实中的虫子扯上了关系.听说是Googl

【小结】AC自动机

参考资料:http://blog.csdn.net/niushuai666/article/details/7002823 搞了两天,突然明白,这玩意它原来就是个DFA鸭!窝来分析分析 从DFA到AC自动机: 考虑以下单词: {she, he, her},字母表∑为26个小写字母 我们先画出它Trie树的模样 注意,双圈的是包含单词结尾的位置.然后我们尝试将它稍加改造,变成一个DFA! 对每一个状态,必须补充下一个字母为其它(比如从起始状态出发,输入一个h,匹配上了,接下来输入可能为a-z,我们

【转】 基于C#.NET的高端智能化网络爬虫

[转] 基于C#.NET的高端智能化网络爬虫 前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅.怜悯.嘲讽.猥琐)的方式来完美碾压爬虫开发者.今天我就先带大家开发一个最简单低端的爬虫,突破携程网超高智商的反爬虫技术. 一.什么是爬虫? 很多人说我们这些搞软件的人,总喜欢把虚拟世界里的事物跟现实中的东西扯上关系.这点我真不否认,脱离了现实,我们伟大的创举还有何意义? "爬虫"就是个例子,它对于我们开发人员而言,就是一段用来自动化采集网站数