ubuntu 搭建python2.x 抓取环境

1.apt-get install python-bs4

bs4只有py2的代码,安装在py3下会很麻烦

bs4支持HTML parser,也可以支持第三方的分析器

2.apt-get install python-lxml

3. apt-get install python-html5lib

-------------------------------

4.抓取程序

https://github.com/yfjelley/checkproxy

时间: 2024-07-30 17:57:12

ubuntu 搭建python2.x 抓取环境的相关文章

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置

数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么情境该用什

Ubuntu下用wireshark抓取802.11封包并进行过滤分析

要用wireshark抓802.11的包 需要在linux下进行. 要在linux下抓802.11的包 需要在linux下安装无线网卡驱动. 所以 在正式抓取之前先把这两样东西搞起来. *没有特殊说明,均使用root权限 sudo su* 一 安装无线网卡驱动 无线网卡:DWA-160 USB无线网卡 网卡驱动:http://alris1.dlinkddns.com/download/dlink/DWA-160/DWA-160_B2_DPO_RT5572_LinuxSTA_2.6.1.3_201

centos6.8搭建python2.7.13开发环境

操作系统版本:CentOS release 6.8openssl版本:OpenSSL 1.0.1e-fipspython版本:python2.7.13 第一步.安装python2.7.13.tgz [[email protected] home]wget https://www.python.org/ftp/python/2.7.13/Python-2.7.13.tgz[[email protected] home]yum install -y openssl openssl-devel[[em

数据抓取的艺术(二)

原文地址:http://blog.chinaunix.net/uid-22414998-id-3695673.html 续前文:<数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置>. 程序优化:第一步开始: for i in range(startx,total): for j in range(starty,total): BASE_URL = createTheUrl([item[i],item[j]]) driver.get(BASE_URL) driver =

WinDbg抓取程序报错dump文件的方法

程序崩溃的两种主要现象: a. 程序在运行中的时候,突然弹出错误窗口,然后点错误窗口的确定时,程序直接关闭 例如: “应用程序错误” “C++错误之类的窗口” “程序无响应” “假死”等 此种崩溃特点:程序已异常,在你未点出错窗口的确定或其他按,所有错误信息都还保留在PC的内存中,可以直接抓取Dump文件.当然,如果你知道 怎么样操作可以让程序崩溃,也可以用守株待兔的抓取方法抓Dump文件. b.程序在运行中的时候,窗口和进程突然消失,没有任何错误窗体 典型的现象:程序自动关闭 或者玩游戏时,游

ubuntu 搭建简易的https网站

ubuntu 搭建简易的https网站 环境:ubuntu 12.04.5 openssl (1)创建一个ssl的保存路径 sudo mkdir /opt/nginx/ssl (2)生存密钥sudo openssl genrsa -out key.pem 2048 (3)sudo openssl req -new -x509 -nodes -out server.crt -keyout server.key (4)配置nginx server { listen 443; index index.

WinDbg-如何抓取dump文件

这要分两种情况: 第一种情况:如果是Vista或者是Windows2008操作系统就是一个简单的事情,在任务管理器中,切换到"进程"选项卡,右键点击你想要创建dump文件的进程,然后选择"Create Dump File"即可.如果你想要创建dump文件的进程是w3wp.exe,可能会看到有很多w3wp,但不知道哪一个是你要要抓的网站,可以通过下需的命令查看,对于vista或win2008系统使用:%windir%/system32/inetsrv/appcmd l

Ubuntu搭建docker环境

一丶自己搭建Ubuntu的虚拟机(网上很多教程) PS:下带图形化界面的Ubuntu镜像,这里只说一下要装那些工具和做那些配置 安装vim sudo apt-get install vim 更换ubuntu的更新源 1.备份系统自带源 mv /etc/apt/sources.list /etc/apt/sources.list.bak 2.修改/etc/apt/sources.list文件 sudo vim /etc/apt/sources.list 3.添加一下更新源(18.04的清华大学源)

ubuntu上用eclipse搭建java、python开发环境

上一篇文章讲到如何在windwos上用eclipse搭建java.python开发环境,这一讲将关注如何在ubuntu上实现搭建,本人使用虚拟机安装的ubuntu系统,系统版本为:14.04 lts 一.用eclipse + jdk搭建java开发环境 1.jdk官方下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html 本人下载的是:jdk-8u77-linux-x64.tar.gz