写简单的爬虫都需要什么

写爬虫都需要些什么呢,

A 要爬取的网址难度的大小 (选择谷歌对要爬取的网址源代码进行分析)

B 借用Python中的模块urllib与requests 对网址进行请求与访问
以requests为例:(requests模块的导入见:http://blog.51cto.com/13747953/2321389)
a 下载图片

import requests            

ret=requests.get(‘http://×××w.xiaohuar.com/d/file/20180724/40d83a6709eca21137dcdd80ee28c31b.jpg‘)
print(ret,type(ret))
print(ret.status_code)
print(ret.content)
with open(r‘E:\text1\爬虫\text_png\p1.png‘,‘wb‘) as f:
    f.write(ret.content)

b 基本文字信息的获取

import requests
from urllib import request

# ret=requests.get(‘http://maoyan.com/board‘)
headers={
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘

}
ret=request.Request(‘http://maoyan.com/board‘,headers=headers)
resp=request.urlopen(ret)
print(resp,type(resp))
print(resp.read().decode(‘utf-8‘))

这里不用requests 模块是因为在请求的过程中返回了403的错误
猜想可能的原因是:网址的反爬虫机制发现了来自pycharm的请求;
所以可以用urllib(Python自带的模块)提供的request模块

结果如下:

C 如何从B-b中获取的文字数据中提取出自己想要的数据呢
a 分析数据的相同点

利用正则表达式与re模块
详见:(未完)

(程序猿很无聊多多指教交流)

原文地址：http://blog.51cto.com/13747953/2321430

时间： 2024-10-16 07:33:26

写简单的爬虫都需要什么的相关文章

看我如何利用Python写简单网络爬虫

平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看先分析网站内容,红色部分即是网站文章内容div,可以看到,每一页有15篇文章随便打开一个div来看,可以看到,蓝色部分除了一个文章标题以外没有什么有用的信息,而注意红色部分我勾画出的地方,可以知道,它是指向文章的地址的超链接,那么爬虫只要捕捉到这个地址就可以了. 接下来在一个问题就是翻页问题,可以看到,这和大多数网站不同,底部没有页数标签,而是查看更多,

用Python写简单的爬虫

准备: 1.扒网页,根据URL来获取网页信息 import urllib.parse import urllib.request response = urllib.request.urlopen("https://www.cnblogs.com") print(response.read()) urlopen方法 urlopen(url, data, timeout) url即为URL,data是访问URL时要传送的数据,timeout是设置超时时间返回response对象 res

node写简单的爬虫（二）

上次我们已经成功的爬取了网站上的图片,现在我们把爬取的图片存储到本地 http.get(url, function (res) { var imageData =''; res.setEncoding("binary"); res.on('data',function(data){ //图片加载到内存变量 imageData += data; }).on('end',function(){ //图片加载完 var $=cheerio.load(imageData); $Imgs = $

Python写的网络爬虫程序（很简单）

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

Python---BeautifulSoup 简单的爬虫实例

对python自动化比较熟的同学,很多都懂一些爬虫方法,有些还研究的很深,下面呢我介绍一个简单的爬虫实例,供大家参考.当然里面有很多需求是可以再学习的,下载进度的显示.下载完成的提示等等. 一.首先我们要研究爬虫网站的架构,我这里已ring.itools.cn为例,我需要爬的是铃声. 大家可以自己去分析,这个网站的架构比较简单就不讲了. 我们最终要获取的是下面两个信息: 二.我们写下面的脚本来获取上面的脚本呢,获取到songname和playaddr都是一组数据,即都是列表,我们需要把他

用python3.x与mysql数据库构建简单的爬虫系统（转）

这是在博客园的第一篇文章,由于本人还是一个编程菜鸟,也写不出那些高大上的牛逼文章,这篇文章就是对自己这段时间学习python的一个总结吧. 众所周知python是一门对初学编程的人相当友好的编程语言,就像本屌丝一样,一学就对它产生好感了!当然,想要精通它还有很多东西需要学习.那废话不多说了,下面我就来说一下如何用python3.x与mysql数据库构建一个简单的爬虫系统(其实就是把从网页上爬下来的内容存储到mysql数据库中). 首先就是搭建环境了,这里就简介绍一下我的环境吧.本机的操作系统是w

那些年我们写过的爬虫

从写nodejs的第一个爬虫开始陆陆续续写了好几个爬虫,从爬拉勾网上的职位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬虫为我打开了一扇又一扇新世界的大门.除了涨了很多姿势之外,与网管斗智斗勇也是一个比较有意思的事情.虽然很多东西都是浅尝辄止,但万事都有个由浅入深的过程嘛(天真脸~~) 一只爬虫的模样爬虫?应该是长这样的吧: 其实,没有那么萌啦. 所谓爬虫,就是把目标网站的信息收集起来的一种工具.基本流程跟人访问网站是一样的,打开链接>>获取信息>>打开链接……这个

邮箱扒头像来告诉你怎么写简单的脚本扒图

用邮箱扒头像来告诉你怎么写简单的脚本扒图手上有几十万邮箱,本来用户系统没有做头像的东西,现在想根据这些邮箱能拿一部分用户的头像,可以直接使用 gravatar的服务,不过这玩意儿不时会被墙,还是拉回来靠谱,第2个途径是qq邮箱,通过分析数据发现,这几十万用户里面居然有一半以上是qq邮箱,so 要想办法通过不用oauth的方式拿到. 思路与技术选择作为一个pythoner,有很多爬虫框架可以选择,例如scrapy pyspider 没错有中文有ui 有时间调度爬虫框架会给你做很多事情,基

手把手教你写电商爬虫-第三课实战尚妆网AJAX请求处理和内容提取

系列教材: 手把手教你写电商爬虫-第一课找个软柿子捏捏手把手教你写电商爬虫-第二课实战尚妆网分页商品采集爬虫看完两篇,相信大家已经从开始的小菜鸟晋升为中级菜鸟了,好了,那我们就继续我们的爬虫课程. 上一课呢一定是因为对手太强,导致我们并没有完整的完成尚妆网的爬虫. 吭吭~,我们这一课继续,争取彻底搞定尚妆网,不留任何遗憾. 我们先回顾一下,上一课主要遗留了两个问题,两个问题都和ajax有关. 1.由于是ajax加载下一页,导致下一页url并不会被系统自动发现. 2.商品页面的价格是通过a

猜你喜欢

asd

#include<iostream>#include<cstdio>#include<cmath>#include<cstring>using name ...

JAVA注释的另一种神奇用法

每个JAVA程序员在写程序的时候一定都会用到注释,本篇博客不是讲怎么定义注释,而是说明注释神奇的一种写法. 1 /** 2 * 这是一个测试类 3 */ 4 public class Test { 5 ...

null和undefined的区别

null 表示一个对象被定义了,值为“空值”: undefined 表示不存在这个值. // typeof undefined //"undefined" und ...

php 数字格式化

1.位数不足前面补0 <?php for($i=1; $i<=17 ;$i++){ $var = sprintf("0%3d",$i); echo $var .&quo ...

8. 冒泡法排序和快速排序（基于openCV）

一.前言主要讲述冒泡法排序和快速排序的基本流程,并给出代码实现,亲测可用. 二.冒泡法排序冒泡法排序主要是将相邻两个值比较,把小的向前冒泡,大的向后沉淀,时间复杂度为O(n2).主要思想如下: 分 ...

思科单臂路由实验

实验拓扑图: pc1和pc2分别接入同一交换机的不同vlan,交换机一端口配置trunk与路由器一端口对接,路由器开启dhcp功能,pc1和pc2分别能够获取到ip,并且通过路由的网关ip实现pc1和 ...

树的高度

题目: 有一颗树,不一定是二叉树,有n个节点,编号为0到n-1.有一个数组A,数组的索引为0到n-1,数组的值A[i]表示节点i的父节点的id,根节点的父节点id为-1.给定数组A,求得树的高度. 分 ...

使用python获取webservice数据并输出到文件

上头要求设置TCP备案检查,给了个WEBSERVICE接口.查了2天,才确认还是python比较好用,我这水平也就写个脚本把数据导出,过滤检索还是用的shell.写此文备忘.WEBSERVICE接口脚 ...

Kafka性能调优

Kafka的配置详尽.复杂,想要进行全面的性能调优需要掌握大量信息,这里只记录一下我在日常工作使用中走过的坑和经验来对kafka集群进行优化常用的几点. 1.JVM的优化 java相关系统自然离不开J ...

Python基础（二）变量、流程控制

一,变量声明变量:name="Henry" ##变量名为:name ,变量name的值为"Henry" 变量的作用:昵称,其代指内存里某个地址中保存的内容 ...

2015年，在线学习平台发展之年

2015年到了,大学的小伙伴们也都放假了!是不是很期待快点过年呐?可是从现在到过年还有一个多月的时间哦! 既然有时间了,大家是不是天天睡到自然醒,第二天赖床到10点多才起呐! 在就业形势日益加剧的环境 ...

让你提前认识软件开发(24)：C语言的发展历史和主要特点

第1部分重新认识C语言 C语言的发展历史和主要特点作为一门众所周知的计算机编程语言,C语言是谁发明的呢?它是如何演进的?它有何特点?到底有多少人在使用它? 1. C语言之父 C语言是1972年由美 ...

20170117

T1: [问题描述] 有一块棋盘,棋盘的边长为 100000,行和列的编号为 1 到 100000.棋盘上有??个特殊格子,任意两个格子的位置都不相同. 现在小 K 要猜哪些格子是特殊格子.她知道所 ...

设计模式在游戏中的应用--建造者模式（九）

建造者模式(Builder Pattern):将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示.建造者模式是一种对象创建型模式.通过这个定义,我们可以得出建造者是一种创建型模式 ...

初探php之正则表达式（一）基础篇

正则表达式是php初学者所要面对的较为困难的一部分,时间一长往往会将各类符号的作用忘记.但是经过系统的总结后,你会发现记忆的难度其实并不是很大. Perl是较为常见的兼容正则表达式函数,一般形式为(p ...

Arduino调试温湿度传感器AM2321

AM2321是广州奥松电子生产的数字式温湿度传感器.虽是国产品牌,其精度也可以与国外的主流温湿度传感IC媲美. 尺寸:11.3x7.8x4mm(长x宽x高) 封装:0.05 pitch PTH 工作电 ...

rsync高级同步工具基础及实战

drdb 基于文件系统同步 rsync 开源的多功能的.可实现全量.增量的本地或远程的数据同步工具.默认不加密,还可以删除,具备scp.cp.rm. inotify实时增量备份,企业一般是rsync+ ...

uMlet建模工具

下载:http://www.umlet.com/ 无意中发现的一款建模工具,能快速搭建数据库模型,前置安装条件是java环境. 这是我建的user模型表,2个字段name和age,2个方法getAge ...

创业公司常用服务

国内创业公司常用的服务基础服务 Domain Namecheap NameSilo Name.com 别去 Godaddy DNS DNSPod VPS Linode UCloud QingClou ...

EF Code-First 学习之旅

什么是Code-First 基本工作流: 写好应用程序的领域类和上下文类→配置领域类的额外映射→运行程序→Code-First API创建新的数据库或与现有数据库对应→添加种子数据到数据库中测试

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.