使用scrapy爬取页面数据到入库遇到的问题

1.编码问题

页面是gbk的,数据库是utf8的

gbk到utf8的转化得通过unicode编码:gbk 《--unicode--》utf8

具体参考 http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

scrapy从页面抓到的数据自动转化为unicode了所有把抓到的数据直接encode(‘utf8‘),就变成utf8编码了

入库时发生了数据库中文乱码,原来python再连接mysql的时候需要制定编码格式

db=MySQLdb.connect(user=‘root‘,charset=‘utf8‘)

参考http://blog.csdn.net/foyuan/article/details/1711100

2.python mysql链接层

我用的比较简单直接使用python提供的操作函数操作

有第三方orm库SQLAlchemy,另外还有Django框架中的orm库

直接使用db-api   http://www.cnblogs.com/rollenholt/archive/2012/05/29/2524327.html

使用第三方库   http://smartzxy.iteye.com/blog/680740

3.python处理html实体

存入数据库的时候需要把,python抓到的数据进行编码,把一些字符使用html实体尽心编码,如果编码不完全,还需要使用替换功能,直接替换

参考的http://blog.csdn.net/holybin/article/details/23872815

4. md5加密(对比php使用,这个自己还没理解)

参考:http://www.cnblogs.com/mingaixin/archive/2013/02/20/2919313.html

5.日期使用

参考 http://www.jb51.net/article/47957.htm

时间: 2025-01-02 14:04:40

使用scrapy爬取页面数据到入库遇到的问题的相关文章

Scrapy爬取全站数据并存储到数据库和文件中

scrapy五大核心组件简介 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址 下载器(Downloader) 用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的) 爬虫(Spiders) 爬虫

1.scrapy爬取的数据保存到es中

先建立es的mapping,也就是建立在es中建立一个空的Index,代码如下:执行后就会在es建lagou 这个index. from datetime import datetime from elasticsearch_dsl import DocType, Date, Nested, Boolean, \ analyzer, InnerDoc, Completion, Keyword, Text, Integer from elasticsearch_dsl.connections im

scrapy爬取天气数据

看了scrapy,打算构建自己的天气数据,目标源:就是你了,中国天气网! 仔细点两下这个网站,发现可以由各个省.直辖市到省市所属的地级市,再到各县,页面在这: 点开就可以看到中国所有的省.直辖市,但港澳台的天气数据没有,所以就把这三个地区过滤掉. 接下来,就是一步步的解析,基本上没什么好讲的,最后把结果存入mongodb.项目地址: WeatherCrawler

python 使用selenium和requests爬取页面数据

目的:获取某网站某用户下市场大于1000秒的视频信息 1.本想通过接口获得结果,但是使用post发送信息到接口,提示服务端错误. 2.通过requests获取页面结果,使用html解析工具,发现麻烦而且得不到想要的结果 3.直接通过selenium获取控件的属性信息,如图片.视频地址,再对时间进行筛选.将信息保存到以id命名的文件夹下 # -*- coding:utf-8 -*- from selenium import webdriver import sys,os,requests,shut

Scrapy爬取慕课网(imooc)所有课程数据并存入MySQL数据库

爬取目标:使用scrapy爬取所有课程数据,分别为 1.课程名 2.课程简介 3.课程等级 4.学习人数 并存入MySQL数据库  (目标网址  http://www.imooc.com/course/list) 一.导出数据文件到本地 1.新建imooc项目 1 scrapy startproject imooc 2.修改 items.py,添加项目item 1 from scrapy import Item,Field 2 class ImoocItem(Item): 3 Course_na

python scrapy爬取皇冠体育源码下载网站数据二(scrapy使用详细介绍)

1.scrapy工程创建皇冠体育源码下载论坛:haozbbs.com Q1446595067 在命令行输入如下命令,创建一个使用scrapy框架的工程 scrapy startproject scrapyDemo 1 命令创建好后的工程结构如下图scrapy工程结构 输入如下命令,在工程目录中创建示例代码 PS C:\ProjectPycharm> cd scrapyDemoPS C:\ProjectPycharm\scrapyDemo> scrapy genspider example ex

Scrapy爬取简单百度页面

Scrapy爬取百度页面 ------------------------------------------ spiders-baiduspider.py 1 ''' 2 要求导入scrapy 3 所有类一般是XXXSpider命名 4 所有爬虫类是scrapy.Spider的子类 5 scrapy爬取百度 6 关闭配置的机器人协议 7 ''' 8 9 import scrapy 10 11 class BaiduSpider(scrapy.Spider): 12 13 # name是爬虫的名

scrapy爬取booking酒店评论数据

# scrapy爬取酒店评论数据 -- 代码 here:github地址:https://github.com/760730895/scrapy_Booking--  采用scrapy爬取酒店评论数据. 总共有28W条记录. 做某NLP任务,需要一些hotel reviews, 选择从`www.booking.com`搞一点数据来.根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论. #  〇.数据源介绍 数据源:`www.

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938  禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于