第8月第22天 python scrapy

1.

503  cd /Users/temp/Downloads/LagouSpider-master
  504  ls
  505  ls
  506  ls lagou/settings.py
  507  cat lagou/settings.py
  508  ls
  509  python main.py
  510  cat main.py
  511  sudo pip install scrapy
  512  python main.py
  513  sudo pip uninstall six
  514  sudo easy_install six
  515  python main.py
  516  sudo pip install --upgrade six scrapy
  517  sudo pip install --upgrade six scrapy
  518  sudo pip install --upgrade pip
  519  sudo pip install --upgrade six scrapy
  520  ls
  521  python man
  522  python main.py
  523  sudo pip install twisted==13.1.0
  524  python main.py 

https://github.com/hk029/LagouSpider

2.

‘module‘ object has no attribute ‘OP_NO_TLSv1_1‘

http://blog.csdn.net/aquester/article/details/70226813

时间: 2024-08-10 21:21:53

第8月第22天 python scrapy的相关文章

Python.Scrapy.14-scrapy-source-code-analysis-part-4

Scrapy 源代码分析系列-4 scrapy.commands 子包 子包scrapy.commands定义了在命令scrapy中使用的子命令(subcommand): bench, check, crawl, deploy, edit, fetch, genspider, list, parse, runspider, settings, shell, startproject, version, view. 所有的子命令模块都定义了一个继承自 类ScrapyCommand的子类Comman

Python.Scrapy.11-scrapy-source-code-analysis-part-1

Scrapy 源代码分析系列-1 spider, spidermanager, crawler, cmdline, command 分析的源代码版本是0.24.6, url: https://github.com/DiamondStudio/scrapy/blob/0.24.6 如github 中Scrapy 源码树所示,包含的子包有: commands, contracts, contrib, contrib_exp, core, http, selector, settings, templ

Python Scrapy 自动爬虫注意细节

一.首次爬取模拟浏览器 在爬虫文件中,添加start_request函数.如: def start_requests(self): ua = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'} yie

python Scrapy安装

python Scrapy安装和介绍 Windows7下安装1.执行easy_install Scrapy Centos6.5下安装 1.库文件安装yum install libxslt-devel libxml2-devel 2.将系统自带python2.6的easy_install备份,使用python2.7.10升级后的easy_install mv /usr/bin/easy_install /usr/bin/easy_install_2.6 ln -s /usr/local/pytho

python scrapy cannot import name xmlrpc_client的解决方案,解决办法

安装scrapy的时候遇到如下错误的解决办法: "python scrapy cannot import name xmlrpc_client" 先执行 sudo pip uninstall six 再执行 sudo easy_install six 验证是否解决: scrapy

Python scrapy 实现网页爬虫

Python scrapy 安装和网页爬虫功能实现 现在组内有个工作就是维护恶意URL库,然后这个维护工作,主要是通过从几个会发布恶意URL地址的网站获取恶意网址,每次都得花费半天,很乏味的事情.所以就想到能否用个爬虫搞定. 这两天研究了下python scrapy,发现利用scrapy的确很容易实现网址爬取功能. 一.scrapy安装 简单的说明一下scrapy的安装过程 window安装 先安装python,要提醒一下是环境变量的配置,只有环境变量配置对了,才能在命令行执行窗口找到pytho

天气提醒邮件服务器(python + scrapy + yagmail)

天气提醒邮件服务器(python + scrapy + yagmail) 项目地址: https://gitee.com/jerry323/weatherReporter 前段时间因为xxx上班有时候忘记带伞,就写了这个通过发送邮件提醒天气的东西.其实目前还是有点小问题,暂时也还没花精力来维护(够用就行).项目不涉及到数据库的东西,就是简单的爬虫+邮件服务器,代码拙劣. 下面讲讲大概的想法吧. 在阿里云租了一台服务器不知道该怎么使用比较好,便慢慢产生了做一个天气提醒服务的想法.本来希望使用短信提

Python Scrapy爬虫(上)

Python Scrapy爬虫 预备知识: 1.Scrapy框架:是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架. 2.Scrapy去重原理:Scrapy本身自带有一个中间件.scrapy源码中可以找到一个dupefilters.py去重器,需要将dont_filter设置为False开启去重,默认是True,没有开启去重. 3.指纹去重:对于每一个URL的请求,调度器都会根据请求得相关信息加密得到一个指纹信息,并且将该URL的指纹信息和set()集合中的指纹信息进行

我的第一篇博文,Python+scrapy框架安装。

自己用Python脚本写爬虫有一段时日了,也抓了不少网页,有的网页信息两多,一个脚本用exe跑了两个多月,数据还在进行中.但是总觉得这样抓效率有点低,问题也是多多的,很早就知道了这个框架好用,今天终于鼓起勇气安装这个了. 在网上找了些文档,按绝安装方法大同小异,就开始安装了.现在将这些比较好的网站给贴出来,可以供大家看看http://my.oschina.net/xtfjt1988/blog/364577, http://blog.fishc.com/4008.html  按照这个步骤基本可以安