Python爬虫常用库的安装及其环境配置

Python常用库的安装

  • urllib、re           这两个库是Python的内置库,直接使用方法import导入即可。
  • requests            这个库是请求的库。我们需要使用执行文件pip3来进行安装。文件处于C:\Python36\Scripts下,我们可以先将此路径设为环境变量。在命令行中输入pip3 install requests进行安装。安装完成后进行验证。

    >>> import requests
    >>> requests.get(‘http://www.baidu.com‘)
    <Response [200]>
  • selenium           实际上是用来浏览器的一个库,做爬虫时可能会碰到使用JS渲染的网页,使用requests来请求时,可能无法正常获取内容,我们使用selenium可以驱动浏览器获得渲染后的页面。也是使用pip3  install selenium安装。进行验证。

    >>> import selenium
    >>> from selenium import webdriver
    >>> driver = webdriver.Chrome()
    
    DevTools listening on ws://127.0.0.1:60980/devtools/browser/7c2cf211-1a8e-41ea-8e4a-c97356c98910
    >>> driver.get(‘http://www.baidu.com‘)

    上述命令可以直接打开chrome浏览器,并且打开百度。但是,在这之前我们必须安装一个chromedriver,并且安装googlchrome浏览器,可自行去官网下载。当我们安装完毕后再运行这些测试代码可能依旧会出现一闪而退的情况,那么问题出在,chrome和chromdriver的版本不兼容,可以在官网下载chrome更高的版本,或者chromedriver更低的版本,但是只要都是最高版本就没问题。

  • phantomjs         是一个无界面浏览器,在后台运行。可在官网自行下载。并且需要将phantomjs.exe  的所在目录设为环境变量。测试代码。

    >>> from selenium import webdriver
    >>> driver = webdriver.PhantomJS()
    >>> driver.get(‘http://www.baidu.com‘)
    >>> driver.page_source
    ‘<!DOCTYPE html><!--STATUS OK--><html><head>\n 
  • lxml           使用pip3 install lxml安装。
  • beautifulsoup      是一个网络解析库,依赖于lxml库。使用pip3安装。必须安装pip3 install beautifulsoup4,因为beautifulsoup已经停止维护了。安装验证。

    >>> from bs4 import BeautifulSoup
    >>> soup = BeautifulSoup(‘<html></html>‘,‘lxml‘)
    >>>
  • pyquery       也是网页解析库,较bs4更加方便,语法和Jquery无异。也是使用pip3 安装。

    >>> from pyquery import PyQuery as pq   #将其重命名
    >>> doc = pq(‘<html></html>‘)
    >>> doc = pq(‘<html>hello world</html>‘)
    >>> result = doc(‘html‘).text()
    >>> result
    ‘hello world‘
  • pymysql      是一个操作mysql数据库的库。使用pip3 安装。

    >>> import pymysql
    >>> conn = pymysql.connect(host=‘localhost‘,user=‘root‘,password = ‘123456‘,port=3306,db=‘mysql‘)
    >>> cursor = conn.cursor()
    >>> cursor.execute(‘select * from db‘)
    0
  • pymongo      操作数据库MongoDB的库。需要开启MongoDB服务,在计算机管理当中的服务寻找。也是使用pip3安装。

    >>> import pymongo
    >>> client = pymongo.MongoClient(‘localhost‘)
    >>> db = client[‘newtestdb‘]
    >>> db[‘table‘].insert({‘name‘:‘tom‘})
    ObjectId(‘5b868ee4c4d17a0b2466f748‘)
    >>> db[‘table‘].find_one({‘name‘:‘tom‘})
    {‘_id‘: ObjectId(‘5b868ee4c4d17a0b2466f748‘), ‘name‘: ‘tom‘}
    >>> #完成了单条数据的查询
  • redis       一个非关系型数据库,运行效率高。使用pip3 install redis安装。

    >>> import redis
    >>> r = redis.Redis (‘localhost‘,6379)
    >>> r.set(‘name‘,‘tom‘)
    True
    >>> r.get(‘name‘)
    b‘tom‘
    >>> #是一个byte型数据类型
  • flask       做代理时可能会用到。使用pip3 安装。详细内容可以在flask官网查看flask文档。
  • django     是一个web服务器框架,提供了一个完整的后台管理,引擎、接口等,可以使用它做一个完整的网站。可在django的官网查看文档。使用pip3 install django安装。
  • jupyter       可以理解为一个记事本,运行哎网页端,可以进行写代码,调试,运行。在官网可以下载jupyter,也可以用pip3 安装,相关库非常多,安装比较久。安装后可以在命令行直接运行jupyter notebook,因为此文件在scrips目录下。

    C:\Users\dell>jupyter notebook
    [I 20:32:37.552 NotebookApp] The port 8888 is already in use, trying another port.
    [I 20:32:37.703 NotebookApp] Serving notebooks from local directory: C:\Users\dell

    可以在选项  new   中建立新python3文件,并且可以编写代码。

    默认的文件名为unite,此处将其改为testDemo,使用快捷键ctrl+回车 运行,按键B跳转至新的编辑行。

原文地址:https://www.cnblogs.com/dadahuan/p/9556706.html

时间: 2024-10-16 11:54:24

Python爬虫常用库的安装及其环境配置的相关文章

Python学习(一)安装、环境配置以及IDE推荐

Python的安装.环境配置以及IDE推荐 官网:https://www.python.org/ 版本:2.x 和 3.x 差别较大:python3是不向下兼容,建议未学过2.x版本的就直接学习3.x版本:版本区别可参考网官网介绍 WINDOWS下安装 Python 可在多系统下安装运行,先介绍 WINDOWS 下 Python 的安装及环境配置,(图示参考:百度经验 )安装步骤如下: 官网下载安装程序:https://www.python.org/downloads/ 下载好后双击打开,选择使

爬虫常用库的安装

请求库 解析库 存储库 工具库 请求库 urlib re  python内置库 Requests   pip3 install requests  #pip2,pip-conda都是可以选择的 selenium  pip3 install selenium chromedriver 下载页面:https://sites.google.com/a/chromium.org/chromedriver/ 下载解压后,将解压文件放入python\scripts目录下 测试 python下输入: from

python爬虫常用库

请求库: 1. requests 这个库是爬虫最常用的一个库 2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击.下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的. 3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作 4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理. 5.PhantomJS PhantomJS 是一个无界面 .可

Python安装及环境配置

一直很喜欢玩爬虫,之前利用Java写了几个自己的小型爬虫,爬取了不少相亲信息. 想要学习Python已许久,在研究爬虫的时候,看到比较多的还是Python的例子,后来一研究发现,在国外其实Python还是很有使用市场的. 下载安装 Python下载网址:https://www.python.org/ 由于是国外网站,所以可能打开比较费力.百度软件也有相关Python的版本下载,更新还是比较及时的. 地址:http://rj.baidu.com/soft/detail/17016.html?ald

Python下opencv库的安装过程与一些问题汇总

本文主要内容是python下opencv库的安装过程,涉及我在安装时遇到的问题,并且,将从网上搜集并试用的一些解决方案进行了简单的汇总,记录下来. 由于记录的是我第一次安装opencv库的过程,所以内容涵盖可能不全面,如果有出错的地方请务必指正.下面进入主题. 关于python的下载安装不再赘述,python的版本号是我们在opencv库的安装过程中需要用到的,cmd运行python可以进行查看. 通常,我们使用pip命令来安装扩展库. 打开cmd运行 pip install opencv-py

Python学习 1 一 Python2.75的安装及环境配置教程

Python2.75的安装及环境配置教程 Python的语法简洁,功能强大,有大量的第三方开发包(模块),非常适合初学者上手.同时Python不像java一样对内存要求非常高,适合做一些经常性的任务方面的编程.根据codeeval网站数据统计显示,连续三年,Python保持着其在编程语言中的领先地位.而且Python-Django开发web也是一种时尚. Python 2.75 安装文件 win8或win8.1 首先下载一个Python的应用程序,网上有很多的.此处给出官网的下载地址:https

在vc中使用xtremetoolkit界面库-----安装及环境配置

最近想用一下xtremetoolkitPro界面库,网上的使用教程资源也不多,其中着实遇到了许多的困难,毕竟是首次使用. 首先当然是配置发开环境了: 我使用的是vc6.0+xtremetoolkitPro15.3.1 以下链接是xtremetoolkitPro15.3.1免费下载地址:(其中还包含了注册机,解压Crack文件下的Keygen.zip就可以得到), http://url.cn/MxUOZr vc6.0完整版的下载地址: http://url.cn/Qgdgbm 我因为之前安装的是一

Python在Win10系统的安装和使用配置

Python是一种计算机程序设计语言.你可能已经听说过很多种流行的编程语言,比如非常难学的C语言,非常流行的Java语言,适合初学者的Basic语言,适合网页编程的JavaScript语言等等. 下载 写于2018年3月25号,下载最新版python 3.6.432位下载地址:https://www.python.org/ftp/python/3.6.4/python-3.6.4.exe64位下载地址:https://www.python.org/ftp/python/3.6.0/python-

Android NDK 简单介绍、工具安装、环境配置

NDK全称:Native Development Kit. 1.NDK是一系列工具的集合. * NDK提供了一系列的工具,帮助开发人员高速开发C(或C++)的动态库,并能自己主动将so和java应用一起打包成apk.这些工具对开发人员的帮助是巨大的. * NDK集成了交叉编译器,并提供了对应的mk文件隔离平台.CPU.API等差异,开发者仅仅须要简单改动mk文件(指出"哪些文件须要编译"."编译特性要求"等),就能够创建出so. * NDK能够自己主动地将so和Ja