写简单的爬虫都需要什么

写爬虫都需要些什么呢,

A 要爬取的网址难度的大小 (选择谷歌对要爬取的网址源代码进行分析)

B 借用Python中的模块urllib与requests 对网址进行请求与访问
以requests为例:(requests模块的导入见:http://blog.51cto.com/13747953/2321389)
a 下载图片

import requests            

ret=requests.get(‘http://×××w.xiaohuar.com/d/file/20180724/40d83a6709eca21137dcdd80ee28c31b.jpg‘)
print(ret,type(ret))
print(ret.status_code)
print(ret.content)
with open(r‘E:\text1\爬虫\text_png\p1.png‘,‘wb‘) as f:
    f.write(ret.content)


b 基本文字信息的获取

import requests
from urllib import request

# ret=requests.get(‘http://maoyan.com/board‘)
headers={
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘

}
ret=request.Request(‘http://maoyan.com/board‘,headers=headers)
resp=request.urlopen(ret)
print(resp,type(resp))
print(resp.read().decode(‘utf-8‘))

这里不用requests 模块是因为在请求的过程中返回了403的错误
猜想可能的原因是:网址的反爬虫机制发现了来自pycharm的请求;
所以可以用urllib(Python自带的模块)提供的request模块

结果如下:

C 如何从B-b中获取的文字数据中提取出自己想要的数据呢
a 分析数据的相同点

利用正则表达式与re模块
详见:(未完)

(程序猿很无聊多多指教交流)

原文地址:http://blog.51cto.com/13747953/2321430

时间: 2024-10-16 07:33:26

写简单的爬虫都需要什么的相关文章

看我如何利用Python写简单网络爬虫

平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看 先分析网站内容,红色部分即是网站文章内容div,可以看到,每一页有15篇文章 随便打开一个div来看,可以看到,蓝色部分除了一个文章标题以外没有什么有用的信息,而注意红色部分我勾画出的地方,可以知道,它是指向文章的地址的超链接,那么爬虫只要捕捉到这个地址就可以了. 接下来在一个问题就是翻页问题,可以看到,这和大多数网站不同,底部没有页数标签,而是查看更多,

用Python写简单的爬虫

准备: 1.扒网页,根据URL来获取网页信息 import urllib.parse import urllib.request response = urllib.request.urlopen("https://www.cnblogs.com") print(response.read()) urlopen方法 urlopen(url, data, timeout) url即为URL,data是访问URL时要传送的数据,timeout是设置超时时间 返回response对象 res

node写简单的爬虫(二)

上次我们已经成功的爬取了网站上的图片,现在我们把爬取的图片存储到本地 http.get(url, function (res) { var imageData =''; res.setEncoding("binary"); res.on('data',function(data){ //图片加载到内存变量 imageData += data; }).on('end',function(){ //图片加载完 var $=cheerio.load(imageData); $Imgs = $

Python写的网络爬虫程序(很简单)

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

Python---BeautifulSoup 简单的爬虫实例

对python自动化比较熟的同学,很多都懂一些爬虫方法,有些还研究的很深,下面呢我介 绍一个简单的爬虫实例,供大家参考.当然里面有很多需求是可以再学习的,下载进度的显 示.下载完成的提示等等. 一.首先我们要研究爬虫网站的架构,我这里已ring.itools.cn为例,我需要爬的是铃声. 大家可以自己去分析,这个网站的架构比较简单就不讲了. 我们最终要获取的是下面两个信息: 二.我们写下面的脚本来获取 上面的脚本呢,获取到songname和playaddr都是一组数据,即都是列表,我们需要把 他

用python3.x与mysql数据库构建简单的爬虫系统(转)

这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言,就像本屌丝一样,一学就对它产生好感了!当然,想要精通它还有很多东西需要学习.那废话不多说了,下面我就来说一下如何用python3.x与mysql数据库构建一个简单的爬虫系统(其实就是把从网页上爬下来的内容存储到mysql数据库中). 首先就是搭建环境了,这里就简介绍一下我的环境吧.本机的操作系统是w

那些年我们写过的爬虫

从写nodejs的第一个爬虫开始陆陆续续写了好几个爬虫,从爬拉勾网上的职位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬虫为我打开了一扇又一扇新世界的大门.除了涨了很多姿势之外,与网管斗智斗勇也是一个比较有意思的事情.虽然很多东西都是浅尝辄止,但万事都有个由浅入深的过程嘛(天真脸~~) 一只爬虫的模样 爬虫?应该是长这样的吧: 其实,没有那么萌啦. 所谓爬虫,就是把目标网站的信息收集起来的一种工具.基本流程跟人访问网站是一样的,打开链接>>获取信息>>打开链接……这个

邮箱扒头像来告诉你怎么写简单的脚本扒图

用邮箱扒头像来告诉你怎么写简单的脚本扒图 手上有几十万邮箱,本来用户系统没有做头像的东西,现在想根据这些邮箱能拿一部分用户的头像,可以直接使用 gravatar的服务,不过这玩意儿不时会被墙,还是拉回来靠谱,第2个途径是qq邮箱,通过分析数据发现,这几十万 用户里面居然有一半以上是qq邮箱,so 要想办法通过不用oauth的方式拿到. 思路与技术选择 作为一个pythoner,有很多爬虫框架可以选择,例如scrapy pyspider 没错有中文 有ui 有时间调度 爬虫框架会给你做很多事情,基

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

系列教材: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 看完两篇,相信大家已经从开始的小菜鸟晋升为中级菜鸟了,好了,那我们就继续我们的爬虫课程. 上一课呢一定是因为对手太强,导致我们并没有完整的完成尚妆网的爬虫. 吭吭~,我们这一课继续,争取彻底搞定尚妆网,不留任何遗憾. 我们先回顾一下,上一课主要遗留了两个问题,两个问题都和ajax有关. 1.由于是ajax加载下一页,导致下一页url并不会被系统自动发现. 2.商品页面的价格是通过a