第一个python爬虫程序

1.安装Python环境

官网https://www.python.org/下载与操作系统匹配的安装程序，安装并配置环境变量

2.IntelliJ Idea安装Python插件

我用的idea，在工具中直接搜索插件并安装（百度）

3.安装beautifulSoup插件

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#attributes

4.爬虫程序：爬博客园的闪存内容

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import time
import bs4

‘‘‘ing.cnblogs.com爬虫类‘‘‘
class CnBlogsSpider:

    url = "https://ing.cnblogs.com/ajax/ing/GetIngList?IngListType=All&PageIndex=${pageNo}&PageSize=30&Tag=&_="

    #获取html
    def getHtml(self):
        request = urllib2.Request(self.pageUrl)
        response = urllib2.urlopen(request)
        self.html = response.read()

    #解析html
    def analyze(self):
        self.getHtml()
        bSoup = bs4.BeautifulSoup(self.html)
        divs = bSoup.find_all("div",class_=‘ing-item‘)
        for div in divs:
            img = div.find("img")[‘src‘]
            item = div.find("div",class_=‘feed_body‘)
            userName = item.find("a",class_=‘ing-author‘).text
            text = item.find("span",class_=‘ing_body‘).text
            pubtime = item.find("a",class_=‘ing_time‘).text
            star = item.find("img",class_=‘ing-icon‘) and True or False
            print ‘( 头像: ‘,img,‘昵称: ‘,userName,‘,闪存: ‘,text,‘,时间: ‘,pubtime,‘,星星： ‘,star,‘)‘

    def run(self,page):
        pageNo = 1
        while (pageNo <= page):
            self.pageUrl = self.url.replace(‘${pageNo}‘, str(pageNo))+str(int(time.time()))
            print ‘-------------\r\n第 ‘,pageNo,‘ 页的数据如下：‘,self.pageUrl
            self.analyze()
            pageNo = pageNo + 1

CnBlogsSpider().run(3)

5.执行结果

时间： 2024-10-06 14:19:23

第一个python爬虫程序的相关文章

我的第一个python爬虫程序(从百度贴吧自动下载图片)

这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛. 网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成

我的第一个python爬虫程序

程序用来爬取糗事百科上的图片的,程序设有超时功能,具有异常处理能力下面直接上源码: #-*-coding:utf-8-*- ''' Created on 2016年10月20日 @author: audi ''' import urllib2 import re from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf-8') count = 0 path = "pic/tupian&quo

一个python爬虫小程序

起因深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊.“多线程”啊都没有学到. 想到廖雪峰大神的python教程很经典.很著名.就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!! 怒了,准备写个程序直接去爬廖雪峰的教程,然后再html转成电子书. 过程过程很有趣呢,用浅薄的python知识,写python程序,去爬python教程,来学习python.想想有点小激动…… 果然python很是方便,5

《Python入门》第一个Python Web程序——简单的Web服务器

上一篇讲了<Python入门>Windows 7下Python Web开发环境搭建笔记,接下来讲一下Python语言Web服务的具体实现:第一个Python Web程序--简单的Web服务器. 与其它Web后端语言不同,Python语言需要自己编写Web服务器. 如果你使用一些现有的框架的话,可以省略这一步: 如果你使用Python CGI编程的话,也可以省略这一步: 用Python建立最简单的web服务器利用Python自带的包可以建立简单的web服务器.在DOS里cd到准备做服务器根目录

第一个Python爬虫脚本

今天看了一下买来的C#项目书,感觉有点不可理喻,简直就是作者用来圈钱的,视频敷衍了事,源代码莫名其妙...唉...不过今天还是学了新东西,是一个Python爬虫脚本,虽说也是云里雾里,但是也算一个小进步,千里之行始于足下么,下面就把代码给贴出来. import urllib.requestimport urllib.parseimport json content = input('please input what you want to translate : ') url = 'http:

第一个python小程序，2进制转10进制

#Bin to Dec #my first python programe n = c = itm = 0 a = raw_input('please input Binary number:\n') for n in range(0,len(a)): b = a[n:n+1] # print 'n is', n # print 'b is',b # print 'len',len(a[n:]) if b == '1': c = 2**(len(a[n:])-

我的第一个Python爬虫——谈心得

2019年3月27日,继开学到现在以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法.相信各大高校应该都有本校APP或超级课程表之类的软件,在信息化的时代能快速收集/查询自己想要的咨询也是种很重要的能力,所以记下了这篇博客,用于总结我所学到的东西,以及用于记录我的第一个爬虫的初生先给大家分享一门我之前看过的课程,挺不错的,免费分享给大家 Python爬虫工程师必学 App数据抓取实战,内容官网:https://coding.im

每天一个 Python 小程序

@易枭寒正在 GitHub 写一个 Python 相关的开源项目. 项目地址: https://github.com/Yixiaohan/show-me-the-code (可点击本文最下方的“阅读原文”直接进入) 项目介绍: Python 练习册,每天一个小程序. 当然其中的很多题目对于其他编程语言也是适用的. 想法灵感来源于,学生时代的 100 个 C 语言练习题目. 项目的初衷,旨在让更多的人学习.使用 Python. 而不是像 100 个 C 语言练习题目中某些题目「不实用」,比如说打

第一个python小程序

一第一个Python程序 _username='liu';_password='1234' username=input('username:') password=input('password:') if _username==username and _password==password: print('welcome user{name} login...'.format(name=username)) else: print('invalid username or passwol