简单爬虫思路

1、预期获取的资源的url
2、下载url的html源文件(文本形式)
3、从已下载的html源文件里获取标签或内容（bs4函数（python3））
soup=BeautifulSoup #创建对象
body=soup.body  #html基本框架形式、格式
data_main=body.find() #利用浏览器的审查元素对应内容（部分）
for i, table_info in enumerate(tables):  #利用enumerate添加序号
gsmc = tds[2].find(‘a‘).get_text()  #根据索引找内容

4、给url提交参数
for keyword in KEYWORDS:
#url上提交的参数（类似于asp?id=1&sugtime=1503299916325）
        paras = {‘jl‘:args[0],‘kw‘:keyword,‘p‘:args[1]}
5、调用get_content(html)函数获取预期资源
利用for循环遍历下载下来的centent文本信息获取预期资源
拓展:datetime获得start/end time
     爬取多个网页或内容可使用from multiprocessing import Pool

时间： 2024-11-13 21:24:57

简单爬虫思路的相关文章

简单爬虫，突破IP访问限制和复杂验证码，小总结

简单爬虫,突破复杂验证码和IP访问限制文章地址:http://www.cnblogs.com/likeli/p/4730709.html 好吧,看题目就知道我是要写一个爬虫,这个爬虫的目标网站有一些反爬取意识,所以就有了本文了. 我先说说场景吧: 由于工作需要,平时有一大堆数据需要在网上查询,并归档存库.某次,这种任务也给我安排了一份.观察了一网站,我的第一反应就是用爬虫取抓取.这种机械的工作何必人工呢? 由于这家网站有反爬虫的意识,做了些工作,给我的爬虫去爬取数据造成了某些麻烦. 先列举

Python简单爬虫第六蛋！（完结撒花）

第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也会遇到没有网络的情况,这个就很扎心了,有什么办法呢?所以这个项目基于这么一个现实背景来分析实现一下,把我们前几次讲到一些技术方法都运用一遍. (有人可能会说直接下载一个txt格式的小说文本文件不就好了,虽然是挺方便的,但是懒惰是不好的习惯,而且也没有运用到所学的知识,那么我们何必要学习呢?为什么要学,看完实例

爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）

这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string> todo :进行抓取的网址的集合 List<string> visited :已经访问过的网址的集合下面实现的是,给定一个初始地址,然后进行爬虫,输出正在访问的网址和已经访问的网页的个数. 需要注意的是,下面代码实现的链接匹配页面的内容如图一.图二所示: 图一: 图二: 简单代码示范如下:

Resharper的配置（习惯使用了VS的F6编译和F12(快速非resharper查询编译代码)转到定义的默认设置）【设置了好多次resharper的使用了，特此记下简单的思路】

1:如何设置vs默认的快捷键方式: 2:重新设置resharper的F12及其其它选项设置: 3:通过以上两步,就可以使用默认的vs快捷方式和resharper的常用功能设置了. Resharper的配置(习惯使用了VS的F6编译和F12(快速非resharper查询编译代码)转到定义的默认设置)[设置了好多次resharper的使用了,特此记下简单的思路],布布扣,bubuko.com

[Java]使用HttpClient实现一个简单爬虫，抓取煎蛋妹子图

第一篇文章,就从一个简单爬虫开始吧. 这只虫子的功能很简单,抓取到”煎蛋网xxoo”网页(http://jandan.net/ooxx/page-1537),解析出其中的妹子图,保存至本地. 先放结果: 从程序来讲,步骤分为三步: 1.发起一个http请求,获取返回的response内容: 2.解析内容,分离出有效图片的url: 3.根据这些图片的url,生成图片保存至本地. 开始详细说明: 准备工作:HttpClient的Jar包,访问http://hc.apache.org/ 自行下

Python 简单爬虫

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import os import time import webbrowser as web import random count = random.randint(20,40) j = 0 while j < count: i = 0 while i <= 5: web.open_new_tab('http://www.cnblogs.com/evilxr/p/37642

python简单爬虫

爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习过程写写吧. 一正则表达式正则表达式是一个很强大的工具了,众多的语法规则,我在爬虫中常用的有: . 匹配任意字符(换行符除外) * 匹配前一个字符0或无限次 ? 匹配前一个字符0或1次 .* 贪心算法 .*? 非贪心算法 (.*?) 将匹配到的括号中的结果输出 \d 匹配数字 re.S 使得.

python3简单爬虫

最近在抽空学了一下python,于量就拿爬是练了下手,不得不说python的上手非常简单.在网上找了一下,大都是python2的帖子,于是随手写了个python3的.代码非常简单就不解释了,直接贴代码. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 #test rdp import urllib.request import re<br> #登录用的帐户信息 data={} data['fromUrl']='' data[

Python 开发简单爬虫 - 基础框架

1. 目标:开发轻量级爬虫(不包括需登陆的和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器(urllib2) 2.5 网页解析器(BeautifulSoup) 2.6 完整实例:爬取百度百科Python词条相关的1000个页面数据 3. 爬虫简介:一段自动抓取互联网信息的程序爬虫价值:互联网数据,为我所用. 4. 简单爬虫架构: 运行流程: 5. URL管理器:管理待抓取URL集合

猜你喜欢

vector初始化

对vector对象来说,直接初始化的方式适用于3种情况:1.初始值已知且数量少:2.初始值是另一个vector对象的副本:3.所有元素的初始值都一样.此外还有一种更常见的情况是4.创建一个vector ...

用mongodb存储日志

最近一直在考虑架构的事情,有一个问题依然困扰着我们这些做业务系统的,那就是日志以及日志统计.大概的问题如下: 我们有很多模块,日志格式虽然类似但都写在各自的服务器和目录中. 日志中有很多信息是key= ...

Java-文件File简单实用

1.1java.io.File File用于表示文件系统中的一个文件或目录通过File可以: 1:访问该文件或目录的属性信息(名字,大小,修改时间等) file.getName();获取文件名 fi ...

HDOJ: 5596

从前,有nn只萌萌的GT,他们分成了两组在一起玩游戏.他们会排列成一排,第ii只GT会随机得到一个能力值bib?i??.在第ii秒的时候,第ii只GT可以消灭掉所有排在他前面的和他不是同一组的且能力值 ...

RabbitMQ - RPC in Java

这次试着用RabbitMQ进行RPC. 其实用RabbitMQ搞RPC也没什么特别的. 只是我们需要在请求中再加入一个callback queue. 比如这样: callbackQueueName = ...

HTML&CSS----练习(运算符)

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

Cloud Insight 数据管理平台 Beta 版上线

Cloud Insight Beta 1.0 版本于 2015 年 8 月 20 日,上线. Cloud Insight 是一个数据管理平台,兼顾 IT 基础设施和平台服务监控.目前支持 Ubuntu ...

salt 常用命令整理

salt 常用命令整理 ***********模块*********** 查看模块列表module salt 'minion' sys.list_modules 查看指定module的function ...

换乘算法【转】

转自:http://blog.csdn.net/windflow/article/details/2820929 三个表(最简单化,不考虑模糊查询,单行线等其他东西):1,站点表stop(stop_i ...

页面缓存与不缓存设置

HTML的HTTP协议头信息中控制着页面在几个地方的缓存信息,包括浏览器端,中间缓存服务器端(如:squid等),Web服务器端.本文讨论头信息中带缓存控制信息的HTML页面(JSP/Servlet ...

multimap遍历与查找

std::multimap<int, std::string> m; m.insert(std::make_pair(0, "w0")); m.insert(std:: ...

ios OpenCv的配置和人脸识别技术

作为一个好奇心非常重的人,面对未知的世界都想去一探到底. 于是做了个人脸识别的demo. 眼下国内的关于opencv技术文章非常少.都是互相抄袭.关键是抄个一小部分还不全.时间又是非常久之前的了,和如 ...

BGP路由属性详解

Weight属性:cisco私有的BGP属性参数,它只适用于一台路由器中的路由,也就是不会传递给任何其他的路由器.他的取值范围为<0-65535>,这个数越大优先级越高,默认从邻居学到的路 ...

盘点几个国内免费的ERP系统

以下是近年网络上流行的几款免费ERP使用体会,以供选择.有的可能不能称为ERP软件,但也是一款优秀的产品.排名不分先后.1.2bizboxhttp://www.2bizbox.cn国外产品,由美国赛瓦 ...

office安装不了 “windows installer 服务不能更新一个或多个受保护的windows文件”

出现这种情况可能是系统中某些文件缺失了,一般发生于安装GHOST版或做过精简的系统打开C:\WINDOWS\msagent 看看文件夹中内容是不是如下图所示: 再打开C:\Program Files ...

【转】C# GDAL 配置

共生成9个dll,如下图: 1.在程序中添加*_csharp.dll四个文件的引用: 2.将剩余的五个文件复制到程序的Debug文件夹中:(如果不复制这五个文件就会出现类似“OSGeo.GDAL.Gd ...

求解最大子数组问题 -- 暴力求解和分治法求解

/*------------------ 求解最大子数组问题 --------------- 最大子数组,就是求解一个数组的所有元素的各种组合中,和最大的那个子数组.在这种情况下,如果元素值全部非负 ...

indexof实现数组去重的方法，有三个版本，一个Js版本,2个augular版本

先上Js的简化版本的数组去重,需要M层控制数据大妈 1 var aa = [1,3,4,5,6,23,523,6,123,'1',12,'刘','刘','刘','翔',12,123,214,'1', ...

php多关键字查询

php单一关键字查询 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 tdansitional//EN" "http: ...

mybatis动态sql中foreach标签的使用

foreach标签主要用于构建in条件,他可以在sql中对集合进行迭代.如下: <delete id="deleteBatch"> delete from user w ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.