Python小爬虫实例

有几个注意点:

# -*- coding: utf-8 -*-
# func passport jw.qdu.edu.cn
import re
import urllib
import urllib.request
import json
from bs4 import BeautifulSoup

class taofen:

    def getHtml(self , pageurl):
        # 获取网站html代码
        req = urllib.request.Request(pageurl , headers = {
            ‘Connection‘: ‘Keep-Alive‘,
            ‘Accept‘: ‘text/html, application/xhtml+xml, */*‘,
            ‘Accept-Language‘: ‘en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3‘,
            ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko‘
        })
        _respose = urllib.request.urlopen(req , timeout = 2)
        try:
            html = _respose.read().decode(‘UTF-8‘).replace(‘&nbsp‘,‘‘)
        except Exception as e:
            pass
        return html
    def getKind(self , html):
        soup = BeautifulSoup(html , "html.parser")
        liList = soup.find_all(‘li‘)
        res = []
        for li in liList:
            if li.img and li.find(class_ = "change_price"):
                img = li.img.attrs[‘original‘]
                name = li.img.attrs[‘alt‘]
                price = li.find(class_ = "change_price").string
                resNode = {‘img‘:img,‘name‘:name,‘price‘:price}
                res.append(resNode)
        return res

if __name__ == "__main__":

    taofen = taofen()
    html = taofen.getHtml("http://www.taofen8.com/promcat-4/cat-300/subcat-0/page-1/order-3/sp-2")

    res = taofen.getKind(html)
    #ensure_ascii=False将utf-8编码的中文正确显示
    res = json.dumps(res , ensure_ascii = False)
    print(res)
时间: 2024-10-19 00:27:03

Python小爬虫实例的相关文章

python2安装httplib2及其小爬虫实例

本篇文章将教大家如何在python2中安装httplib2库,并且会通过一个小爬虫实例展示一下其功能. 首先大家可以从"https://code.google.com/p/httplib2/" 下载一款适合你的压缩包 (也可以从本篇文章的附件中直接下载lib2安装包) 解压你的压缩包到任意目录中(推荐是python的安装目录里) 3. 设置环境变量,这样就不用在命令行下给出python.exe的具体位置,具体说如下: 假设你的python安装在D:\Python目录下,设置环境变量方法

Python小爬虫-自动下载三亿文库文档

新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?od=1&pn=0,可以观察到,链接中pn=后面的数字就是对应的页码,所以一会我们会用iurl = 'http://3y.uu456.com/bl-197?od=1&pn=',后面加上页码来抓取网页. 一般网页会用1,2,3...不过机智的三亿文库用0,25,50...来表示,所以我们在拼接ur

Python小爬虫——抓取豆瓣电影Top250数据

写LeetCode太累了,偶尔练习一下Python,写个小爬虫玩一玩~ 确定URL格式 先找到豆瓣电影TOP250任意一页URL地址的格式,如第一页为:https://movie.douban.com/top250?start=0&filter=,分析该地址: https:// 代表资源传输协议使用https协议: movie.douban.com/top250 是豆瓣的二级域名,指向豆瓣服务器: /top250 是服务器的某个资源: start=0&filter= 是该URL的两个参数,

【现学现卖】python小爬虫

1.给小表弟汇总一个院校列表,想来想去可以写一个小爬虫爬下来方便些,所以就看了看怎么用python写,到了基本能用的程度,没有什么特别的技巧,大多都是百度搜的,遇事不决问百度啦 2.基本流程就是: 用request爬取一个页面之后用BeautifulSoup4对爬到的页面进行处理, 然后需要的东西进行预处理之后存到桌面上的.txt文件里, 之后再对.txt文件里的字符串进行分割, 最后把数据存到excel表里 3.准备:需要下载安装requests库,以及BeautifulSoup4的库,还有x

抓取百度贴吧python小爬虫 (2015最新版)

网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改. 请诸位大牛指点. # -*- coding:utf8 -*- """ 程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取. """ import string import urllib2 import re class html_Tool: #为了提取文

Python 小爬虫流程总结

接触Python3一个月了,在此分享一下知识点,也算是温故而知新了. 接触python之前是做前端的.一直希望接触面能深一点.因工作需求开始学python,几乎做的都是爬虫..第一个demo就是爬取X博数据,X博的API我在这就不吐槽了 .用过的估计都晓得. 好了 .下面进入正题,,一个小demo的开始与结束 . 1.首先对于像我一样0基础的,推荐几个网址: 廖雪峰的教程从安装到基本语法.模块安装等等基础都不简单易懂.这里就不赘述了 (1).http://www.liaoxuefeng.com/

python 小爬虫的各种总结(一)

python真是一门非常优秀的语言,非常适合初学者,也非常适合写一些原型程序.这篇文章总结了下以前做的各种和网络相关的东西:自动登录.提取信息.模拟点击.模拟上传.取号等等,多亏了python才使世界变得那么美好! 本次我们主要是模拟浏览器下载网页,学会了下载网页其他的下载图片什么的都是一样的套路.先上代码: #-*-coding:utf-8-*- ''' Created on 2014-3-4 @author: KL ''' import urllib2 import pyquery impo

Appium + python -小程序实例

from appium import webdriverfrom appium.webdriver.common.touch_action import TouchActionfrom time import sleep desired_caps = { 'platformName': 'Android', 'platformVersion': '9', 'deviceName': '4871660c', 'appPackage': 'com.tencent.mm', 'appActivity'

Python小爬虫练习

# coding: utf-8 __author__ = 'zhangcx' from urllib3 import PoolManager import codecs import json class myjob(object): def __init__(self): self._page = 1 self._totalPageCount = 0 self._first = True self._hasNextPage = True self._http = PoolManager() d