python3 爬虫神器pyquery的使用实例

PyQuery 可让你用 jQuery 的语法来对 xml 进行操作，这和 jQuery 十分类似。如果利用 lxml，pyquery 对 xml 和 html 的处理将更快。

如果对 jQuery 熟悉，那么 PyQuery来解析文档就是不二之选！

下面的例子是爬取 ‘http://so.fengniao.com/index.php?action=Image&keyword=%E7%BE%8E%E6%99%AF‘ 这个页面的图片然后保存到本地

 1 from pyquery import PyQuery as pq
 2 import os,requests
 3 targetDir = os.path.join(os.path.dirname(os.path.abspath(__file__)),‘imgs1‘)#图片保存的路径
 4 if not os.path.isdir(targetDir):#不存在创建路径
 5     os.mkdir(targetDir)
 6 doc = pq(‘http://so.fengniao.com/index.php?action=Image&keyword=%E7%BE%8E%E6%99%AF‘)
 7 imgs = doc(‘img‘)#取到所有图片
 8 list_imgs = []
 9 for img in imgs.items():
10     list_imgs.append(img.attr(‘src‘))#将所有图片链接放到列表
11 num = 0
12 for url in list_imgs:
13     r = requests.get(url)
14     image_name = os.path.join(targetDir, str(num) + ‘.jpg‘)#指定目录，图片名‘xx.jpg‘
15     fw = open(image_name,‘wb‘)
16     fw.write(r.content)
17     num +=1
18     fw.close()

原文地址：https://www.cnblogs.com/nancyzhu/p/8449519.html

时间： 2024-11-14 12:28:48

python3 爬虫神器pyquery的使用实例的相关文章

python3 爬虫之Pyquery的使用方法

安装 pip install pyquery 官方文档: https://pythonhosted.org/pyquery/ 初始化方式(四种) 1. 直接字符串 from pyquery import PyQuery as pq doc = pq("<html></html>") pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号了. 2. lxml.etree from lxml import etree doc =

python3 爬虫小例子

#!/usr/bin/env python# -*- coding: utf-8 -*- import sys,reimport urllib.request,urllib.parse,http.cookiejar class myW3(): def login(self): 'post 数据' data = {"uid":self.uid,'password':self.password,'actionFlag':'loginAuthenticate

Python3 爬虫（八） -- BeautifulSoup之再次爬取CSDN博文

序我的Python3爬虫(五)博文使用utllib基本函数以及正则表达式技术实现了爬取csdn全部博文信息的任务. 链接:Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文上一篇,我们学习了BeautifulSoup这样一个优秀的Python库,必须有效利用起来.那么我们就利用BeautifulSoup4重新实现一次爬取csdn博文的任务. 由于我修改了博客配置,首页主题换了一下,我们基于新的主题查看网页,如下图所示: 同样的,确认要提取的信息,以及博文总页数. 分析网页源码

python3爬虫--反爬虫应对机制

python3爬虫--反爬虫应对机制内容来源于: Python3网络爬虫开发实战: 网络爬虫教程(python2): 前言: 反爬虫更多是一种攻防战,针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面: ①访问终端限制:这种可通过伪造动态的UA实现: ②访问次数限制:网站一般通过cookie/IP定位,可通过禁用cookie,或使用cookie池/IP池来反制: ③访问时间限制:延迟请求应对: ④盗链问题:通俗讲就是,某个网页的请求是有迹可循的,比如知乎的问题回答详情页,正常用户行

python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

当用python3做爬虫的时候,一些网站为了防爬虫会设置一些检查机制,这时我们就需要添加请求头,伪装成浏览器正常访问. header的内容在浏览器的开发者工具中便可看到,将这些信息添加到我们的爬虫代码中即可. 'Accept-Encoding':是浏览器发给服务器,声明浏览器支持的编码类型.一般有gzip,deflate,br 等等. python3中的 requests包中response.text 和 response.content response.content #字节方式的响应体,会

# [爬虫Demo] pyquery+csv爬取猫眼电影top100

目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.com/board/4?offset=0 翻页操作只会改变offset偏移量,每部电影的信息都在dd标签内,使用pyquery库中的css选择器直接解析页面代码君 css选择器直接选择和使用find()方法的区别:find()用于选择子节点,因此限定了选择的区域,速度可能要快些,直接传入''选择器可能

Python3爬虫实战：实战源码+博客讲解

Python Spider 贵有恒,何必三更起五更睡:最无益,只怕一日暴十寒. Python3爬虫实战:实战源码+博客讲解个人网站 CSDN博客 CSDN爬虫专栏学习交流群[328127489] 声明代码.教程仅限于学习交流,请勿用于任何商业用途! 文章首发声明文章在自己的个人网站首发,其他平台文章均属转发,如想获得最新更新进展,欢迎关注我的个人网站:http://cuijiahua.com/ 目录爬虫小工具文件下载小助手爬虫实战笔趣看小说下载百度文库免费文章下载助手_rev1

python3爬虫（4）各种网站视频下载方法

python3爬虫(4)各种网站视频下载方法原创H-KING 最后发布于2019-01-09 11:06:23 阅读数 13608 收藏展开理论上来讲只要是网上(浏览器)能看到图片,音频,视频,都能够下载下来,然而实际操作的时候也是有一定难度和技术的,这篇文章主要讲述各个网站视频资源如何下载. B站视频页面链接: https://www.bilibili.com/bangumi/play/ep118490?from=search&seid=7943855106424547918 首先我们用万能下

【Python3 爬虫】U11_BeautifulSoup4之select和CCS选择器提取元素

目录 1.常用CSS选择器介绍 1.1 标签选择器 1.2 类名选择器 1.3 id选择器 1.4 查找子孙元素 1.5 查找直接子元素 1.6 根据属性查找 2.实战演练:select和css选择器提取元素 2.1 获取所有的p标签 2.2 获取第2个p标签 2.3 获取所有class等于t3的span标签 2.4 获取class为t1的p标签下的所有a标签的href属性 2.5 获取所有的职位信息(文本) 1.常用CSS选择器介绍以下是一个包含常用类选择器的案例,在案例后有具体的选择器使用