从零开始学爬虫(一)------环境配置

前言:

  本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。

  需要阅读者对html语言及python语言有基本的了解。

  (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)

爬虫简介:

  网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

  网络爬虫先获取某网站的源代码,通过源码解析(如<a><p>标签等)来获得想要的内容。

环境配置:

  ubuntu系统(安装方法请自行百度。由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多,故我们选用ubuntu系统)

  爬虫可用的软件很多,我们选择在ubuntu系统下使用python进行网页爬取,并将爬取下的内容放入mysql数据库中。

所需软件:

  python:ubuntu系统自带,无需安装

  pip:python包管理工具(需要下载python内的库进行网页爬取,安装pip方便我们对python中库的下载)

  scrapy:Python开发的一个快速,高层次的屏幕抓取和web抓取框架。即从web站点爬取信息,读入到本地。

  BeautifulSoup:通过标签解析(如<a>,<p>,id,class等)从html或xml文件中提取数据的python库。

  mysql:一种关联数据库管理系统,将数据保存在不同的表中,用来存储数据。

软件安装步骤:

  使用Ctrl+Alt+T打开命令行

  1.pip安装
sudo
apt-get install python-pip

  2.scrapy安装
pip
install scrapy

  3.beautifulsoup4安装
pip
install beautifulsoup4

  4.安装与mysql相关的python库

  (1)
pip
install mysql-connector-python

  (2)
pip
install MySQL-python

  (3)
pip
install mysql-utilities

  5.安装mysql

  (1)
sudo
apt-get install mysql-server

  (2)
sudo
apt-get install mysql-client

  (3)
sudo
apt-get install libmysqlclient-dev

  环境配置是个挺麻烦的工作,要有耐心哦~不同ubuntu系统版本可能会遇到各种奇葩问题,由于个人水平所限,请自行百度(-.-)

  如果环境已经配置好了,那么下面我们可以开始爬取网页了^v^

时间: 2024-10-30 11:52:13

从零开始学爬虫(一)------环境配置的相关文章

从零开始学爬虫(三)------写入源文件的爬取

开始爬取网页:(2)写入源文件的爬取 为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取. 主要分为以下几个步骤: 一.使用scrapy创建爬虫框架: 二.修改并编写源代码,确定我们要爬取的网页及内容 三.开始爬取并存入文件(数据库) 注:为了避免冗长的叙述,更直观地理解,这里先讲具体的操作方法,如果想要深入理解其原理,具体解释在最后. *操作方法: 1.创建爬虫框架 打开命令行,使用cd命令,进入你想要创建文件的位置 scrapy startproject 文件夹名称(假设

从零开始学linux之环境部署篇

输入密码进入桌面.,右键open--terminal 按下insert将光标调整到图所示位置,将5改为3,关闭图形化界面,然后按下冒号,输入wq!保存,并输入reboot重启 输入root然后输入你的密码进入系统 编辑网卡配置文件 vi /etc/sysconfig/network-script/ifcfg-eth0 进入编辑模式 按i键进行编辑 修改 DEVICE=eth0 #物理设备名 IPADDR=192.168.1.103 #IP地址 NETMASK=255.255.255.0 #掩码值

从零开始学linux之环境部署篇(二)

继续上面没做完的操作,首先明确我们本次要部署的服务器,先做一个web服务器吧..我们来做一个Apache+PHP5+MySQL的吧.. 首先,输入命令 yum install mysql mysql-server CentOS中安装完MySQL默认是不启动的,而且系统随机启动项里也不会自动添加mysqld的项,不过,还好这些都不是什么问题,简单的两个命令就能搞定它们: 1.chkconfig –-levels 235 mysqld on 2./etc/init.d/mysqld start 要使

小白从零开始学编程--python安装与环境搭建

前言 从2020年3月份开始,计划写一系列文档--<小白从零开始学编程>,记录自己从0开始学习的一些东西. 第一个系列:python,计划从安装.环境搭建.基本语法.到利用Django和Flask两个当前最热的web框架完成一个小的项目 第二个系列:可能会选择Go语言,也可能会选择Vue.js.具体情况待定,拭目以待吧... python安装与配置 python2 在2020年初开始已经不再维护,所以学习只讨论python3 windows环境 下载python3安装包 到官方网站下载选择合适

从零开始学Xamarin.Forms(二) 环境搭建、创建项目

一.环境搭建 Windows下环境搭建: 1.下载并安装jdk及android sdk: 2.下载Xamarin.VisualStudio,可以从官方下在线安装的,也可以下载3.0.54版本的离线安装包. 3.下载完毕运行安装程序,按照提示一步一步安装即可. Mac下环境搭建: 官方在线安装 二.创建Xamarin.Forms项目 1.新建项目,选择"Blank App(Xamarin.Forms Portable)" 创建完毕后,项目结构如下图: 2.更新程序集 由于默认的Xamar

学习《从零开始学Python网络爬虫》PDF+源代码+《精通Scrapy网络爬虫》PDF

学习网络爬虫,基于python3处理数据,推荐学习<从零开始学Python网络爬虫>和<精通Scrapy网络爬虫>. <从零开始学Python网络爬虫>是基于Python 3的图书,代码挺多,如果是想快速实现功能,这本书是一个蛮好的选择. <精通Scrapy网络爬虫>基于Python3,深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧. 学习参考: <从零开始学Python网络爬虫>PDF,279页,带目录,文字可复制: 配套

爬虫环境配置

爬虫环境配置 爬虫环境配置,主要安装爬虫所需要的软件以及包含库 ????软件: ????????Anaconda 库环境支持软件 ????????Python3 ????????Jupyter / jupyter lab pythonIDE ????????Pycharm pythonIDE ? ????相关库安装: ????????1 请求库 向浏览器发送请求 ????????2 解析库 解析服务器返回数据,查找,匹配,提取数据 ????????3 数据库 存储爬取的数据 ????????4

我们一起学React Native(一):环境配置

最近想在项目中实现跨平台,对比一下主流的实现方式,选用了React Native.参考网上的教程,对于一直都是原生移动端开发,对前端的知识不是很了解的,感觉入门不是特别简单.于是打算把学习React Native的过程记录下来. 环境配置 基本参考React Native中文网搭建开发环境教程 搭建开发环境 安装流程就不详细写了,毕竟平台不同,系统原有软件的版本也不同,就算再详细下出来,也很难涉及全,可参考价值不大,况且React Native中文网写得很全面了. 我自己homebrew,Nod

一起学Google Daydream VR开发,快速入门开发基础教程一:Android端开发环境配置一

原文因涉及翻墙信息,被强制删除,此文为补发! 准备工作 进入Google Daydream开发者官网,开启准备工作,官网地址:https://vr.google.com/daydream/developers/ -------------------------------------------------------------------------------------------------------------------- Google Daydream开发者网址: https