爬虫常用库的安装

请求库

解析库

存储库

工具库

请求库

urlib re  python内置库

Requests   pip3 install requests  #pip2,pip-conda都是可以选择的

selenium  pip3 install selenium

chromedriver

下载页面:https://sites.google.com/a/chromium.org/chromedriver/

下载解压后,将解压文件放入python\scripts目录下

测试

python下输入:

from selenium import webdriver
driver = webdriver.Chrome()

顺利打开了网页

driver.get(‘https://www.python.org‘)  就能打开python官网

phantomjs  静默浏览器  无界面浏览器

下载页:http://phantomjs.org/download.html

下载后解压,找个地方存放,进入bin目录,将该目录路径放入系统环境变量下。

进入交互控制台

python下输入

from selenium import webdriver
driver = webdriver.PhantomJS()

driver.get(‘https://www.python.org‘)
driver.page_source

网页解析库

lxml      pip3 install lxml

BeautifulSoup   pip3 install beautifulsoup4

pyquery     pip3 install pyquery

  语法同Jquery,pyquery文档 https://pythonhosted.org/pyquery/

存储库

pymysql   pip3 install pymysql

pymongo  pip3 install pymongo

redis  pip3 install redis

工具库

flask  web服务,代理设置  pip3 install flask

  flask文档http://docs.jinkan.org/docs/flask/

django  pip3 install django

jupyter  pip3 install jupyter

时间: 2024-11-05 06:31:16

爬虫常用库的安装的相关文章

Python爬虫常用库的安装及其环境配置

Python常用库的安装 urllib.re           这两个库是Python的内置库,直接使用方法import导入即可. requests            这个库是请求的库.我们需要使用执行文件pip3来进行安装.文件处于C:\Python36\Scripts下,我们可以先将此路径设为环境变量.在命令行中输入pip3 install requests进行安装.安装完成后进行验证. >>> import requests >>> requests.get

python爬虫常用库

请求库: 1. requests 这个库是爬虫最常用的一个库 2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击.下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的. 3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作 4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理. 5.PhantomJS PhantomJS 是一个无界面 .可

python 常用库及安装使用

#win10 + python3.5.2 #all use 管理员权限#pip 更新python -m pip install --upgrade pip pip install xxx pip uninstall xxx #安装 numpy,scipy,matplotlib, networkx#!!!!如果 pip 直接 install 报错,可从该网址下载 whl包 http://www.lfd.uci.edu/%7Egohlke/pythonlibs/# numpy+mkl 捆绑安装pip

Python开发爬虫常用库

urllib urllib2 Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ lxml http://lxml.de HTQL http://htql.net/ Scrapy http://scrapy.org/ Mechanize http://wwwsearch.sourceforge.net/mechanize/ PyQuery http://pythonhosted.org/pyquery/index.html r

python 库安装方法及常用库

python库安装方法: 方法一:setpu.py 1.下载库压缩包,解压,记录下路径:*:/**/--/ 2.运行cmd,切换到*:/**/--/目录下 3.运行setup.py build 4.然后输入python,进入python模块,验证是否安装成功 方法二: 1.Win + R 打开运行窗口,输入cmd回车 2.找到pip安装路径--x:\Python xx\Scripts 3. 在命令行中切换至该目录cd x:\Python xx\Scripts 4.输入 pip install *

Python3网络爬虫实战-14、部署相关库的安装:Scrapyrt、Gerapy

Scrapyrt的安装 Scrapyrt 为 Scrapy 提供了一个调度的 HTTP 接口,有了它我们不需要再执行 Scrapy 命令而是通过请求一个 HTTP 接口即可调度 Scrapy 任务,Scrapyrt 比 Scrapyd 轻量级,如果不需要分布式多任务的话可以简单使用 Scrapyrt 实现远程 Scrapy 任务的调度. 1. 相关链接 GitHub:https://github.com/scrapinghu... 官方文档:http://scrapyrt.readthedocs

Python的常用库

读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都应该有它. Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的.用过它之后你就不会再想用别的同类库了. wxPython.Python的一个GUI(图形用户界面)工具.我主要用它替代tkinter.你一定会爱上它的. Pillow.它是PIL(Python图形库)的一个友好分支.对于用

python 常用库收集

读者您好.今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们.他们是: Requests.Kenneth Reitz写的最富盛名的http库.每个Python程序员都应该有它. Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的.用过它之后你就不会再想用别的同类库了. wxPython.Python的一个GUI(图形用户界面)工具.我主要用它替代tkinter.你一定会爱上它的. Pillow.它是PIL(Python图形库)的一个友好分支.对于用

Linux环境下的Python配置,必备库的安装配置

1.默认Python安装情况 一般情况,Linux会预装Python的,版本较低,比如Ubuntu15的系统一般预装的是Python2.7.10. 使用命令:which python可以查看当前的python的安装路径: 打开对应路径就可以看到: 如果没有明确必须要使用Python3的版本,可以直接使用2.7.10的版本. 明确需要使用Python3版本,再进行更改. 这里需要说明一点:上图中存在有python,python2,python3,说明安装了2和3的版本, 2.更改安装Python3