安装解析库

  • 背景说明
  • 抓取网页代码后,下一步是从网页中获取信息。

    提取信息的方法有很多,可以使用正则表达式,但是写起来比较繁琐。也可以使用强大的解析库。

    此外,还有非常强大的解析方法,比如Xpath解析和CSS选择器解析等。

    • 环境说明
    [[email protected] Python-3.6.6]# cat /etc/redhat-release
    Red Hat Enterprise Linux Server release 7.4 (Maipo)
    [[email protected] Python-3.6.6]# uname -a
    Linux localhost.localdomain 3.10.0-693.el7.x86_64 #1 SMP Thu Jul 6 19:56:57 EDT 2017 x86_64 x86_64 x86_64 GNU/Linux
    [[email protected] Python-3.6.6]# getenforce
    Disabled
    [[email protected] Python-3.6.6]# systemctl status firewalld.service
    ● firewalld.service - firewalld - dynamic firewall daemon
       Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled)
       Active: inactive (dead)
         Docs: man:firewalld(1)
    [[email protected] Python-3.6.6]# 
    • lxml安装
    pip3 install lxml
    • Beautiful Soup安装
    pip3 install beautifulsoup4
    • pyquery安装
    pip3 install pyquery
    • tesserocr安装

    爬虫过程中,经常会遇见验证码。此时我们可以直接用OCR来识别。

    tesserocr是python的一个OCR识别库,其实是对tesseract做的python API的封装,所以他的核心是tesseract。所以需要先安装tesseract。

    yum install -y tesseract
    
    [[email protected] bin]# tesseract --list-langs  #查看支持的语言
    List of available languages (1):
    eng
    #如上,只能识别英语。如果想要识别多国语言,则需要安装语言包。
    yum install -y tesseract-langpack*
    
    #安装Cython,tesserocr需要Cython>=0.23
    pip3 install Cython
    
    #安装tesserocr
    pip3 install tesserocr pillow
    
    #测试
    #在网上照一张验证码的图片,存到本地。
    tesseract timg.jpg result -l eng && cat result.txt
    #上述方式是通过shell的方式进行测试。下面通过python的tesserocr库来测试:
    >>> import tesserocr
    >>> from PIL import Image
    >>> image = Image.open(‘timg.jpg‘)
    >>> print(tesserocr.image_to_text(image))
    7364

    原文地址:http://blog.51cto.com/13649299878/2318109

    时间: 2024-07-29 21:07:27

    安装解析库的相关文章

    [error:没有解析库]Couldn't find a tree builder with the features you requested: xml. Do you need to install a parser library?

    将代码拷贝到服务器上运行,发生错误提示需要新安装parser library. 查看代码中发现有以下内容: soup = BeautifulSoup(open(fp), 'xml') 安装解析库即可: pip install lxml [error:没有解析库]Couldn't find a tree builder with the features you requested: xml. Do you need to install a parser library? 原文地址:https:

    uniVocity-parsers:一款强大的CSV/TSV/定宽文本文件解析库(Java)

    uniVocity-parsers 是一个开源的Java项目. 针对CSV/TSV/定宽文本文件的解析,它以简洁的API开发接口提供了丰富而强大的功能.后面会做进一步介绍. 和其他解析库有所不同,uniVocity-parsers以高性能.可扩展为出发点,设计了一套自有架构.基于这套架构,开发者可以构建出新的文件解析器. 1. 概述 作为一名Java开发者,我目前正在参与开发一个Web项目,该项目帮助通信运营商评估当前的网络,并给出解决方案. 在该项目中,CSV文件扮演着至关重要的角色,它是运营

    [C++Boost]程序参数项解析库Program_options使用指南

    介绍 程序参数项(program options)是一系列name=value对,program_options 允许程序开发者获得通过命令行(command line)和配置文件(config file)获取这些参数项. 为什么需要这样一个库?为什么比你手工写代码分解命令行参数要好? 使用更容易.定义参数处理的语法简单,库自身很小.像转换参数值到指定的类型和保存参数值到变量的事情都是自动处理. 错误报告更友好.可报告错误的命令行参数.另外这个库能自动生成使用帮助,避免手工更新使用帮助导致的不一

    Webalizer中文安装解析配置

    之前安装的都是英文的,现在替换成中文的  参考地址 : http://haolulu.blog.51cto.com/3164472/630894 1.安装webalizer所需的软件包(需要用到相关的jpeg,png,zlib库) yum -y install gd-devel.i* yum install jpeg* yum install png* 2.下载Webalizer的源码包 2.1 解压 tar -zxvf webalizer-2.21-02-src.tar.bz2 2.2 进入目

    93、解析库之re,Beautifulsoup

    本篇导航: 介绍 基本使用 遍历文档树 搜索文档树 总结 re模块在之前的python进阶中有讲过不再做过多的阐述,本篇为BeautifulSoup库的分析 20.collections模块和re模块(正则表达式详解) 一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文

    解析库之re、beautifulsoup、pyquery

    BeatifulSoup模块 一.介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4 #安装 Beautiful Soup pip instal

    python-使用pip安装第三方库报UnicodeDecodeError: 'utf8' codec can't decode byte 0xcb in position 7: invalid continuation byte 错误解决方案

    在python 的安装目录下找到Lib\ntpath.py文件,找到def join(path, *paths):方法,添加如下两行语句: reload(sys) sys.setdefaultencoding('gbk') 出现这种错误的原因:使用pip安装文件 先将文件放在一个临时文件夹下,而此文件夹的路径存在中文无法解析 python-使用pip安装第三方库报UnicodeDecodeError: 'utf8' codec can't decode byte 0xcb in position

    Python_爬虫_BeautifulSoup网页解析库

    BeautifulSoup网页解析库 from bs4 import BeautifulSoup 0.BeautifulSoup网页解析库包含 的 几个解析器 Python标准库[主要,系统自带;] 使用方法: BeautifulSoup(markup,"html.parser")[注:markup是html文档] Python的内置标准库 案例: ` from bs4 import BeautifulSoup ` soup = BeautifulSoup.(html,'html.pa

    python3解析库lxml

    lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大,它提供了非常简明的路径选择表达式,另外,它还提供了超过100个内建函数,用于字符串.数值.时间的匹配以及节点.序列的处理等,几乎所有我们想要定位的节点,都可以用XPath来选择 XPath