python爬取商品信息

老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。

需求:某网的商品信息,包括商品名,市场价和售价

工具:python2.7.8,urllib2,re

#coding = utf-8

import urllib2
import re

path = "aaa.txt"
f = open(path, ‘w+‘)

for i in range(4980, 4991):
    print i

    # get webpage content
    url = "http://*" + str(i) + "*"
    page = urllib2.urlopen(url).read()

    # Regular matching
    matchTitle = re.search(r‘<dt>(.*?)</dt>‘, page)
    matchMarketPrice = re.search(r‘<del.*?>(.*?)</del>‘, page)
    matchCurrentPrice = re.search(r‘<b>(.*?)</b>‘, page)

    # save result
    if matchTitle and matchMarketPrice and matchCurrentPrice:
        f.write(matchTitle.group(1) + ‘\t‘ + matchMarketPrice.group(1) + ‘\t‘ + matchCurrentPrice.group(1) + ‘\n‘)
f.close()

  部分结果显示:

欧莱雅奇焕光感粉嫩透亮修颜霜30ml ¥120.00 109.00
欧莱雅复颜洁面乳125ml	¥130.00	105.00
欧莱雅复颜抗皱紧致滋润眼霜15ml	¥210.00	179.00
欧莱雅复颜清漾柔肤水175ml	¥160.00	138.00

  

时间: 2024-12-16 16:48:20

python爬取商品信息的相关文章

用JAVA制作一个爬取商品信息的爬虫(爬取大众点评)

很多企业要求利用爬虫去爬取商品信息,一般的开发模型如下: for i=1;i<=最大页号;i++ 列表页面url=商品列表页面url+?page=i(页号) 列表页面=爬取(列表页面url) 商品链接列表=抽取商品链接(列表页面)  for 链接 in 商品链接列表: 商品页面=爬取(链接) 抽取(商品页面); 这样的模型看似简单,但是有一下几个问题: 1)爬虫没有线程池支持. 2)没有断点机制. 3)没有爬取状态存储,爬取商品网站经常会出现服务器拒绝链接(反问次数过多),导致一旦出现 拒绝链接

爬取商品信息、写入数据库操作

爬取商品信息并写入数据库操作 本次爬取当当网图书程序设计类书籍,爬取信息包括书名.链接和评论,并写入mysql. 1.首先修改items.py title存储书名.link存储商品链接.comment存储评论数 2.其次修改dd.py 首先要用xpath提取商品的信息,其次还需要构造程序设计类书籍每一页的链接.通过分析网页的组成,构造下一页的网页来提取更多的商品信息,如上图循环url所示. 需要提取上图三个红框中的内容,就需要设置xpath提取式.第一个红框是书名,设置xpath为:‘//a[@

Python爬取网页信息

Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初始网址,逐层查找链接,直到找到需要获取的内容. 在打开的界面中,点击鼠标右键,在弹出的对话框中,选择“检查”,则在界面会显示该网页的源代码,在具体内容处点击查找,可以定位到需要查找的内容的源码. 注意:代码显示的方式与浏览器有关,有些浏览器不支持显示源代码功能(360浏览器,谷歌浏览器,火狐浏览器等

python 爬取微博信息

新浪微博爬取的话需要设计到登录,这里我没有模拟登录,而是使用cookie进行爬取. 获取cookie: 代码: #-*-coding:utf8-*- from bs4 import BeautifulSoup import requests import time import os import sys import random reload(sys)  sys.setdefaultencoding('utf-8') user_id = 用户id cookie = {"Cookie"

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读 评论(4) 收藏 举报  分类: Python爬虫(23)  Python基础知识(17)  版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递参数 4.爬取网页中所有URL链接 5.爬取网页标题title两种方法 6.定位table位置并爬取属性-属性值 7.过滤<span></span>等标签 8.获取<script></script>等标签内容 1). 获取&

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

python学习之——爬取网页信息

爬取网页信息 说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHtml(url,fname): #fname = 'C:\\Users\cuiliting\\Desktop\\weather_forecast.txt' data =[] page = urllib.urlopen(url) html = page.read() data.append(html)

Python 爬取外文期刊论文信息(机械 仪表工业)

NSTL国家科技图书文献中心    2017  机械 仪表工业  所有期刊论文信息 代码比较随意,不要介意 第一步,爬取所有期刊链接 #coding=utf-8 import time from selenium import webdriver from lxml import etree from pymongo import MongoClient client = MongoClient("IP", 27017) db = client["nstl"] co