爬虫系列之淘宝商品爬取

 1 import re
 2 import requests
 3
 4 def getHTMLText(url):
 5     try:
 6         r = requests.get(url, timeout = 30)
 7         r.raise_for_status()
 8         r.encoding = r.apparent_encoding
 9         return r.text
10     except:
11         return ""
12
13
14 def parsePage(ilt, html):
15     try:
16         plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘, html)
17         tlt = re.findall(r‘\"raw_title\"\:\".*?\"‘, html)
18         for i in range(len(plt)):
19             price = eval(plt[i].split(":")[1])  #eval就是将字符串string对象转化为有效的表达式参与求值运算返回计算结果
20             title = eval(tlt[i].split(":")[1])
21             ilt.append([price, title])
22     except:
23         print("")
24
25 def printGoodsList(ilt):
26     tplt = "{:4}\t{:8}\t{:16}"  #规定输出格式
27     print(tplt.format("序号", "价格", "商品名称"))
28     count = 0
29     for g in ilt:
30         count = count + 1
31         print(tplt.format(count, g[0], g[1]))
32     print("")
33
34 def main():
35     goods = ‘书包‘
36     depth = 2
37     start_url = ‘https://s.taobao.com/search?q=‘ + goods
38     infoList = []
39     for i in range(depth):
40         try:
41             url = start_url + ‘&s=‘ + str(44*i)
42             html = getHTMLText(url)
43             parsePage(infoList,html)
44         except:
45             continue
46     printGoodsList(infoList)
47
48
49 main()

原文地址：https://www.cnblogs.com/zyb993963526/p/9090107.html

时间： 2024-07-31 15:59:51

爬虫系列之淘宝商品爬取的相关文章

淘宝地址爬取及UI展示

淘宝地址爬取及UI展示淘宝国家省市区街道获取参考 foxiswho 的 taobao-area-php 部分代码,改由c#重构. 引用如下: Autofac MediatR Swagger HangFire 生成街道数据爬取任务. 演示 https://akinix.github.io/Taobao-Area-CSharp/index.html 前端源码稍后上传,请关注 deepfunc Release 生成的release中包含省市区县.js和街道.json. 下载地址目的为了方便获取

python爬虫之：淘宝商品搜索爬虫（收集商品信息/下载详情图）

一.获取商品信息: #!/usr/bin/python3.5 #coding:utf8 import xlsxwriter as wx import re import cgi import requests import os import time import urllib page=1 downsuccess = 0 downfaild = 0 shop = [("店铺名称","商品","商品售价￥","商品购买数",

爬虫系列之链家的信息爬取及数据分析

关于链家的数据爬取和分析已经实现 1.房屋数据爬取并下载 2.房屋按区域分析 3.房屋按经纪人分析 4.前十经纪人 5.经纪人最有可能的位置分析 6.实现以地区划分房屋目前存在的问题: 1.多线程下载的时候会出现个别文件不继续写入了(已经解决) 2.未考虑经纪人重名问题 3.查询中发现不是每次都能 get 到 url 的数据,具体原因可能跟header有关,或者网站反扒(已经解决,手机端的header有时候访问pc端会出现None的情况) 4.守护线程那里应该出问题了,如果有文件储存完成,其

Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续）

通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1481814489094_902&callback=jsonp903&q=Python%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0&imgfile=&js=1&stats_click=search_radio_all%3A1&i

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程

项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. 不同关键词word对应的sales的统计分析 3. 商品的价格分布情况分析 4. 商品的销量分布情况分析 5. 不同价格区间的商品的平均销量分布 6. 商品价格对销量的影响分析 7. 商品价格对销售额的影响分析 8. 不同省份或城市的商品数量分布 9.不同省份的商品平均销量分布注:本项目仅以以上几项分析为

利用Selenium爬取淘宝商品信息

一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,这样,使用了异步加载技术的网页,也可获取其需要的数据. Selenium模块是Python的第三方库,可以通过pip进行安装: pip3 install selenium Selenium自己不带浏览器,需要配合第三方浏览器来使用.通过help命

python基础项目实战:selenium控制浏览器爬取淘宝商品信息

今天为大家介绍一个Python利用selenium打开浏览器的方式来爬取淘宝商品的信息,下面就来看看,关于selenium的知识点,是如何做到控制浏览器获取网站的信息导入第三方库关键词搜索抓取索引页大家在学python的时候肯定会遇到很多难题,以及对于新技术的追求,这里推荐一下我们的Python学习扣qun:784758214,这里是python学习者聚集地!!同时,自己是一名高级python开发工程师,从基础的python脚本到web开发.爬虫.django.数据挖掘等,零基础到项目实

python实现爬取千万淘宝商品的方法_python_脚本之家

分享到一键分享 QQ空间新浪微博百度云收藏人人网腾讯微博百度相册开心网腾讯朋友百度贴吧豆瓣网搜狐微博百度新首页 QQ好友和讯微博更多... 百度分享 python实现爬取千万淘宝商品的方法作者:mingaixin 字体:[增加减小] 类型:转载这篇文章主要介绍了python实现爬取千万淘宝商品的方法,涉及Python页面抓取的相关技巧,需要的朋友可以参考下本文实例讲述了python实现爬取千万淘宝商品的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2

使用Selenium爬取淘宝商品

import pymongo from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.support.wait im