Python进阶篇:Python简单爬虫

目录

  • 前言
  • 要解决的问题
  • 设计方案
  • 代码说明
  • 小结

前言

前一段一直在打基础,已经学习了变量,流程控制,循环,函数这几块的知识点,就想通过写写小程序来实践一下,来加深知识点的记忆和理解。首先考虑的就是爬虫啦,一直很崇拜爬虫大师,特别想能够学习一些爬虫技术,去淘宝上爬爬数据,说不定什么时候可以使用数据进行一些分析,比如哪天自己也开了个小店啥的~~。为了能够开始起步, 我看了一些视频,查阅了一些资料,起步阶段就不用那些很牛逼的框架了,主要是想通过基本的爬虫来了解爬虫的基本概念和思路。

要解决的问题

查阅百度百科的某个关键词以及相关联的关键词的集合。这是一个比较有意义的事情,通过这样的数据能更好的理解相关的生态圈。比如我查阅“分布式计算”  http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/85448 文章里面含有很多的有链接的关键词,就这样不断的迭代去爬这些链接的关键词的文章内的关键词。

设计方案

爬虫含有5个组成部分:主程序,URL管理器,HTML下载器,HTML解析器,结果展示器

主程序:调度其他的部件的执行,并作为主程序入口来执行代码

URL管理器: 管理URL的集合以及状态 - 未下载的URL,已下载的URL,添加新的URL,去除已现在的URL

HTML下载器: 下载URL对应的HTML

HTML解析器: 解析下载下来的HTML,取出有用的数据

结果展示器: 组织最终生成的数据,并展示或者存储起来

代码说明

  • 代码组织架构

  • 代码展示
部件名称 程序名称 代码
主程序 SpiderMain.py

from Spider import UrlManager,HtmlDownloader,HtmlParser,HtmlOutputer

class Spider(object):

    def __init__(self):
        self.urlmanager = UrlManager.Manager()
        self.htmldownloader = HtmlDownloader.Downloader()
        self.htmlparser = HtmlParser.Parser()
        self.htmloutputer = HtmlOutputer.Outputer()

    def scrpy(self, root_url):
        self.urlmanager.add_new_urls(root_url)
        count = 1
        while(self.urlmanager.has_new_url()):
            if(count>10):
                break

            curr_url = self.urlmanager.get_new_url()
            html_content = self.htmldownloader.load(curr_url)
            print("No.%d Downloading URL %s" % (count, curr_url))
            word,new_urls,lemmasummary = self.htmlparser.parse(curr_url,html_content)
            data={}
            data[‘word‘]=word
            data[‘curr_url‘]=curr_url
            data[‘lemmasummary‘]=lemmasummary
            self.htmloutputer.collect(data)
            self.urlmanager.add_new_urls(new_urls)
            count = count + 1
        self.htmloutputer.genhtml()

if(__name__==‘__main__‘):
    root_url = "http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/85448"
    spider = Spider()
    spider.scrpy({root_url})

URL管理器 UrlManager.py

class Manager(object):
    def __init__(self):
        self.old_urls=set()
        self.new_urls=set()

    def add_new_urls(self, root_url):
        for url in root_url:
            if(root_url not in self.old_urls and  root_url not in self.new_urls):
                self.new_urls.add(url)

    def has_new_url(self):
        if(len(self.new_urls) > 0):
            return True
        else:
            return False

    def get_new_url(self):
        tmp=self.new_urls.pop()
        self.old_urls.add(tmp)
        return tmp

HTML下载器 HtmlDownloader.py

import urllib.request

class Downloader(object):
    def load(self, curr_url):
        html = urllib.request.urlopen(curr_url)
        return html.read().decode("UTF-8",‘ignore‘)

HTML解析器 HtmlParser.py

import re
from urllib.parse import urljoin
from bs4 import BeautifulSoup

class Parser(object):
    def __init__(self):
        self.title = ‘‘
        self.urls = set()
        self.lemmasummary = ‘‘

    def parse(self, curr_url, html_content):
        soup = BeautifulSoup(html_content, ‘html.parser‘,from_encoding="utf-8")
        soupurls=soup.find_all(‘a‘,href=re.compile(r‘/view‘))
        for url in soupurls:
           self.urls.add(urljoin(curr_url,url[‘href‘]))
        self.title = soup.title.string.split("_")[0]
        self.lemmasummary = soup.find(‘div‘,class_=‘lemma-summary‘)
        return self.title,self.urls,self.lemmasummary

结果展示器 HtmlOutputer.py

class Outputer(object):
    def __init__(self):
        self.table = []

    def collect(self, data):
        self.table.append(data)

    def genhtml(self):
        html = open(‘result.html‘,‘w‘)
        html.write("<html>")
        html.write("<head>")
        html.write("</head>")
        html.write("<body>")
        html.write("<table>")
        for data in self.table:
            html.write("<tr>")
            html.write("<td>%s</td>" % data[‘word‘])
            html.write("<td>%s</td>" % data[‘curr_url‘])
            html.write("<td>%s</td>" % data[‘lemmasummary‘])
            html.write("</tr>")
        html.write("</table>")
        html.write("</body>")
        html.write("</html>")
        html.close()

  • 最终的结果

小结

在上面的爬虫代码里面,主要体现了爬虫的几个部件之间的配合,以及每个部件的所引用的模块,比如urllib,bs4,re

时间: 2024-10-16 20:38:33

Python进阶篇:Python简单爬虫的相关文章

python进阶篇

python进阶篇 import 导入模块 sys.path:获取指定模块搜索路径的字符串集合,可以将写好的模块放在得到的某个路径下,就可以在程序中import时正确找到. ? import sys ? sys.path.append("") 重新导入模块 ? reload(模块) ==.is a = [11,22,33] b = [11,22,33] >>>a == b True >>>a is b False >>>a = c

python第一篇-------python介绍

python第一篇-------python介绍 一.python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,Guido开始写Python语言的编译器.Python这个名字,来自Guido所挚爱的电视剧Monty Python's Flying Circus.他希望这个新的叫做Python的语言,能符合他的理想:创造一种C和shell之间,功能全面,易学易用,可拓展的语言. 最新的TIOBE排行榜,Python赶超PHP占据第4, Py

老王python基础篇--python, 视频, 教程, 视频教程, 基础

老王python基础篇 基础篇11-python基本数据结构-元组和集合.rar 基础篇19-python语句与数据结构应用.rar 基础篇21-文本操作应用.rar 基础篇3-虚拟机安装xubuntu开发环境.rar 基础篇17-python语句1.2.rar 基础篇10-python基本数据结构-列表应用.rar 基础篇9-python基本数据结构-列表.rar 基础篇5-python基本数据类型讲解1.1.rar 基础篇18-基础篇综合习题.rar 基础篇8-python基本数据类型习题解

Python基础篇-Python基础语法

Python基础语法 为什么学习python Python的安装 rpm -q python uname -r python -V yum -y install python-pip pip install ipython         支持 2.7 pip install ipython==1.2.1                支持 2.6

Python 进阶篇

作者:武沛齐 出处:http://www.cnblogs.com/wupeiqi/articles/5246483.html 到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这么搞: 创建数据库,设计表结构和字段 使用 MySQLdb 来连接数据库,并编写数据访问层代码 业务逻辑层去调用数据访问层执行数据库操作 import MySQLdb def GetList(sql): db = MySQLdb.connect(user='root', db='wupeiqidb', pass

Python基础篇-Python基础进阶

1.1 函数定义.mp4

Python进阶篇:文件系统的操作

通过一个例子来熟悉文件的基本操作:创建文件,读取文件,修改文件,删除文件,重命名文件,判断文件是否存在 1 ''' 2 编写可供查询的员工信息表--学号 姓名 年龄 班级 3 1. 提供格式化查询接口 4 2. 允许用户添加或者删除员工信息 5 ''' 6 import os 7 employee_dir = 'employee_list' 8 index=employee_dir+"/index" 9 10 11 if(not os.path.exists(employee_dir)

python基础篇-python操作mysql

本篇对于Python操作MySQL主要使用两种方式: 原生模块 pymsql ORM框架 SQLAchemy pymysql 下载安装 pip3 install pymysql #pip3命令的路径:安装路径下的Scripts目录 # 下载 pymysql到本地 # 解压到执行目录 # python2,默认无pip命令 # python3,默认自带pip3命令 python3 -m pip install --upgrade pip 更新pip #https://pypi.python.org/

学习python第一篇 python变量

01. 变量定义 在 Python 中,每个变量 在使用前都必须赋值,变量 赋值以后 该变量 才会被创建 等号(=)用来给变量赋值 = 左边是一个变量名 = 右边是存储在变量中的值 变量名 = 值 变量定义之后,后续就可以直接使用了 1) 变量演练1 —— iPython # 定义 qq_number 的变量用来保存 qq 号码 In [1]: qq_number = "1234567" # 输出 qq_number 中保存的内容 In [2]: qq_number Out[2]: '