爬取商品信息、写入数据库操作

爬取商品信息并写入数据库操作

　　本次爬取当当网图书程序设计类书籍，爬取信息包括书名、链接和评论，并写入mysql。

1、首先修改items.py

　　title存储书名、link存储商品链接、comment存储评论数

2、其次修改dd.py

　　首先要用xpath提取商品的信息，其次还需要构造程序设计类书籍每一页的链接。通过分析网页的组成，构造下一页的网页来提取更多的商品信息，如上图循环url所示。

　　需要提取上图三个红框中的内容，就需要设置xpath提取式。第一个红框是书名，设置xpath为：‘//a[@class="pic"]/@title’，‘//a’表示在所有的a标签下，但是在a标签下有很多内容，提取到我们需要的内容就需要设置相应的表达式，此时发现当搜索‘class="pic"’这个条件时，可以检索出60个关键词，而刚好每一页都有60个商品，那么我们可以通过设置满足‘class="pic"’，来提取所有的书名。同理，可以得出商品链接和评论数的xpath。

3、设置pipelines.py

　　在mysql中新建了一个名叫dd的数据库，表名为goods，表中tile、link和comment都设置为char类型。通过import pymysql连接数据库，将爬取到的数据写入到数据库中。通过mysql的操作查看爬取到的内容：

　　

原文地址：https://www.cnblogs.com/whliscoming/p/10878580.html

时间： 2024-11-01 10:50:32

爬取商品信息、写入数据库操作的相关文章

用JAVA制作一个爬取商品信息的爬虫（爬取大众点评）

很多企业要求利用爬虫去爬取商品信息,一般的开发模型如下: for i=1;i<=最大页号;i++ 列表页面url=商品列表页面url+?page=i(页号) 列表页面=爬取(列表页面url) 商品链接列表=抽取商品链接(列表页面) for 链接 in 商品链接列表: 商品页面=爬取(链接) 抽取(商品页面); 这样的模型看似简单,但是有一下几个问题: 1)爬虫没有线程池支持. 2)没有断点机制. 3)没有爬取状态存储,爬取商品网站经常会出现服务器拒绝链接(反问次数过多),导致一旦出现拒绝链接

python爬取商品信息

老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序. 需求:某网的商品信息,包括商品名,市场价和售价工具:python2.7.8,urllib2,re #coding = utf-8 import urllib2 import re path = "aaa.txt" f = open(path, 'w+') for i in range(4980, 4991): print i # get webpage content url = "h

爬取豆瓣，写入数据库

import pymysql import requests from bs4 import BeautifulSoup baseUrl = "https://movie.douban.com/top250?start=%d&filter=" def get_movies(start): url = baseUrl % start lists = [] html = requests.get(url) soup = BeautifulSoup(html.content, &qu

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读评论(4) 收藏举报分类: Python爬虫(23) Python基础知识(17) 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

第一周、学会爬取网页信息总结

目标:爬取网页,获得自己需要的信息步骤: 1. 导入需要的模块2. 利用request向目标网站获得网页信息3. 用BeautifulSoup解析所获得的网页 3. 获得需要的信息所在的标签内容 4. 精简标签获得关键信息5. 获得关键信息之后,再处理(比如比大小) 1.导入需要的模块 BeautifulSoup模块: BeautifulSoup:是一个可以从HTML和XML中读取数据的库.库也叫模块,在笨办法学Python中叫做特征,是其他程序员开发好的一些代码,可以拿来导入(import)

Python爬取网页信息

Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

python学习之——爬取网页信息

爬取网页信息说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHtml(url,fname): #fname = 'C:\\Users\cuiliting\\Desktop\\weather_forecast.txt' data =[] page = urllib.urlopen(url) html = page.read() data.append(html)

常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递参数 4.爬取网页中所有URL链接 5.爬取网页标题title两种方法 6.定位table位置并爬取属性-属性值 7.过滤<span></span>等标签 8.获取<script></script>等标签内容 1). 获取&

使用HtmlAgilityPack爬取网站信息并存储到mysql

前言:打算做一个药材价格查询的功能,但刚开始一点数据都没有靠自己找信息录入的话很麻烦的,所以只有先到其它网站抓取存到数据库再开始做这个了. HtmlAgilityPack在c#里应该很多人用吧,简单又强大.之前也用它做过几个爬取信息的小工具.不过很久了源代码都没有了,都忘了怎么用了,这次也是一点一点找资料慢慢做出来的! (不过最麻烦的是将数据存到mysql,.net数据库我一直用的都是mssql,所以第一次做连接mysql遇到了好多问题.) 1.使用HtmlAgilityPack 下载HtmlA

猜你喜欢

【UVA】11992 - Fast Matrix Operations（线段树模板）

基本的线段树,需要注意的是由于有set和add操作,懒惰标记下推的时候,优先递推set,之后递推add,每次执行set操作将add标记清0 WA了好几次是因为计算那一段的时候出问题了,可笑的是我对着模 ...

bfc+css

CSS BFC的定义是 W3C CSS 2.1 规范中的一个概念,它决定了元素如何对其内容进行定位,以及与其他元素的关系和相互作用.在创建了 Block Formatting Context 的元素 ...

LeetCode: Reverse Linked List

LeetCode: Reverse Linked List Reverse a linked list from position m to n. Do it in-place and in one- ...

获取映射注解，查询数据库字段的信息

//通过循环可以获得注解中的name值@Column(name="EO_XXX"),本方法获取的是 get方法的注解 Method[] methods= EoOrderMate ...

Spring MVC学习笔记——POJO

POJO(Plain Ordinary Java Object)简单的Java对象,实际就是普通JavaBeans,是为了避免和EJB混淆所创造的简称. 使用POJO名称是为了避免和EJB(Enter ...

<<Python基础教程>>学习笔记 | 第12章 | 图形用户界面

Python支持的工具包很多,但没有一个被认为标准的工具包,用户选择的自由度大些.本章主要介绍最成熟的跨平台工具包wxPython.官方文档: http://wxpython.org/ ------ ...

use system.IOUtils TPath.GetPicturesPath; tpath.GetTempPath; TPath.GetMusicPath; T ...

Linux环境下MySQL数据库用C/C++语言插入中文数据元组显示乱码问题

解决方案: 只需要在C/C++程序中的执行操作语句(查询操作等)之前加上下面一句即可: mysql_query(&mysql,"set names utf8"); 此处的u ...

spacemacs的加载次序

spacemacs适用版本介于24.4和24.5之间,重点解决了以下几个问题利用package包管理器,下载扩展非常方便,几乎不需要手工操作用户不需要直接安装package,而是为特定场景创建la ...

web前端之HTML的大框架（body元素与frameset元素）

web前端之HTML的大框架 body元素与frameset元素对于从事html的人员来说,我们一般熟悉的框架是先声明html ,然后在<html>标签对里包着<head ...

Cocos2D-ObjC:在RPG游戏中混合Swift代码

我之前写过一个RPG游戏<<熊猫之魂 SoulOfPanda>> 编译器使用的是SpriteBuilder,很好很强大!全部代码都由Objc完成,现在想尝试一下在其中混入Swi ...

Android Studio中Spinner控件的数据绑定实现

这里介绍使用集合在程序中为Spinner控件设定数据源,步骤如下: 1.在Android Studio界面中,选择"Project",然后展开"app"-> ...

Eclipse常见操作

Eclipse打开Package Explorer Window > Show View > Other Java > Package Explorer 然后可以将其拖拽到Eclip ...

系统架构设计师考试大纲

1．考试要求: (1)掌握计算机硬软件与网络的基础知识:(2)熟悉信息系统开发过程:(3)理解信息系统开发标准.常用信息技术标准:(4)熟悉主流的中间件和应用服务器平台:(5)掌握软件系统建模.系统架 ...

java 2017/6/26杂记

mkdirs()可以建立多级文件夹, mkdir()只会建立一级的文件夹, 如下: new File("/tmp/one/two/three").mkdirs(); 执行后, 会建 ...

济南扑克全桌感应式镜头

济南扑克全桌感应式镜头手机l382=6250=830哪里有卖报道,一段时间以来,清华大学网络被入侵,华为.中兴被监控,各种有关互联网安全的负面消息不断出现,引发人们的长期关注,今天,国家互联网信息办公 ...

HDU 1999 不可摸数

/* 中文题意: 中文翻译: 题目大意:见红字(如下) 解题思路:打表,将每个数的合数之和存在一个数组之中难点详解:用两个for循环写的,第二个for循环主要是解释两个数相乘不超过这个最大数的上限, ...

js之setTimeout方法

【求职应聘】岗位职责与要求

移动开发工程师岗位职责: 1.参与移动应用的详细设计: 2.参与移动应用的数据库设计: 3.依据公司质量体系规范,按照设计文档完成软件代码编写工作: 4.完成分配模块的开发工作,以满足移动应用功 ...

再访俄罗斯地下世界

俄罗斯地下世界从2014年就开始(以有组织的方式)存在,用来作为买卖和信息交流的平台.一些著名的俄罗斯地下中心包括zloy.org.DaMaGeLab和XaKePoK.NeT.这些论坛最初主要是用来交 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.