大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)

一、解决方案

二、电商数据的爬取和清洗

  2.1 Python爬取京东手机销售历史数据

  1).环境

  python3 环境、第三方包有 scrapy,re Pycharm 、NotePad++、SublimeText 等代码编辑工具

   2).爬虫步骤

  采用 scrapy 爬虫框架编写爬虫脚本,选取核心代码讲解爬取京东手机销售数据的爬取逻辑。具体步骤如下:

    1> 获取电商网站目标数据信息

    2>根据手机品牌作为搜索关键词

withopen(‘./mobile_project/data/手机品牌.csv‘,‘r‘, encoding=‘utf-8‘)
asf: csv_reader=csv.reader(f) # 通 过 csv 按 行 读 取
for brand in csv_reader:
        brand=brand[0]
        print(‘++++++++++crawling:{}‘.format(brand))
        if brand.strip():
            brand=brand.strip()+‘ 手机‘
            yield Request (jd_search_url.format(kw=brand, page=page),headers=self.headers, meta={‘kw‘:brand,‘page‘:page}, callback=self.parse_search_result)

    3>查看商品详情请求的 api

  

    4>明确解析字段

    5>明确商家信息

    6>循环爬取

    7>存储到csv

爬取结果示例:

{
"name":"努比亚 nubia Z18 全面屏 3.0 极夜黑 8GB+128GB 全网通移 动联通电信 4G 手机 双卡双待", "custom_attr_list":"6.0 英寸^8GB^128GB^2400 万+1600 万像素^骁龙 845(SDM845)^800 万像素^2160*1080^8.55", "shop_name":"努比亚京东自营旗舰店", "comment_count":"13266", "good_rate":"97", "shop_id":"1000001961", "id":"100000047414", "price":"2549.00", "url":"https://item.jd.com/100000047414.html", "keyword":"努比亚(nubia) 手机", "prop":{ "品牌":"努比亚(nubia)",
"型号":"Z18", "入网型号":"NX606J", "上市年份":"2018 年", "上市月份":"9 月", "机身颜色":"黑色", "机身长度(mm)":"148.58", "机身宽度(mm)":"72.54", "机身厚度(mm)":"8.55", "机身重量(g)":"172", "输入方式":"触控", "运营商标志或内容":"无", "机身材质分类":"金属边框|玻璃后盖", "屏占比":"91.8%", "操作系统":"Android", "操作系统版本":"nubiaUI6.0", "CPU 品牌":"骁龙(Snapdragon)", "CPU 频率":"2.8GHz", "CPU 核数":"八核", "CPU 型号":"骁龙 845(SDM845)", "双卡机类型":"双卡双待单通", "最大支持 SIM 卡数量":"2 个", "SIM 卡类型":"NanoSIM", "4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G:电信 (FDD-LTE)|4G:联通(TD-LTE)|电信(TD-LTE)", "3G/2G 网络":"3G:移动(TD-SCDMA)|3G:联通(WCDMA)|3G:电 信(CDMA2000)|2G:移动联通(GSM)+电信(CDMA)", "副 SIM 卡类型":"NanoSIM", "副 SIM 卡 4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G: 电信(FDD-LTE)|不支持主副卡同时使用电信卡|4G:联通(TD-LTE)",
"4G+(CA)":"移动 4G+|联通 4G+|电信 4G+", "高清语音通话(VOLTE)":"移动 VOLTE|电信 VOLTE", "网络频率(2G/3G)":"2G:GSM 850/900/1800/1900|2G:CDMA 800|3G : TD-SCDMA 1900/2000|3G : WCDMA 850/900/1900/2100|3G : CDMA2000|2G:GSM 900/1800|2G:GSM 900/1800/1900|3G:CDMA 800MHz 1X&EVDO|3G:WCDMA:850/900/1700/1900/2100MHz|TD-SCDMA1880/2010", "是否支持同时使用联通卡":"支持双卡同时在线,并同时使用联通 4G 移动数据", "ROM":"128GB", "ROM 类型":"UFS", "RAM":"8GB", "RAM 类型":"LPDDR 4X", "存储卡":"不支持", "主屏幕尺寸(英寸)":"6.0 英寸", "分辨率":"2160*1080", "屏幕像素密度(ppi)":"403", "屏幕材质类型":"LTPS", "屏幕生产厂商":"JDI", "亮度":"500(type)", "对比度":"1500(type)", "前置摄像头":"800 万像素", "前摄光圈大小":"f/2.0", "美颜技术":"支持", "摄像头数量":"2 个", "后置摄像头":"2400 万+1600 万像素", "摄像头光圈大小":"其他", "闪光灯":"双色温灯", "副摄像头光圈大小":"其他", "拍照特点":"防抖|美颜|连拍|微距|全景|滤镜|场景模式|HDR|PDAF|
微信小视频|水印", "电池容量(mAh)":"3450", "电池类型":"锂电池", "电池是否可拆卸":"否", "充电器":"9V/2A", "数据传输接口":"WIFI|NFC|蓝牙|WiFi 热点|OTG 接口", "NFC/NFC 模式":"支持(点对点模式) |支持(读卡器模式) |支持(卡 模式)|支持卡模拟", "耳机接口类型":"Type-C", "充电接口类型":"Type-C", "数据线":"USB2.0", "指纹识别":"支持", "语音识别":"支持", "GPS":"支持", "电子罗盘":"支持", "陀螺仪":"支持", "红外遥控":"不支持", "其他":"距离感应|呼吸灯|多麦降噪技术|光线感应", "常用功能":"录音|便签|重力感应"
}
}

{"name":"努比亚 nubia Z18 全面屏 3.0 极夜黑 8GB+128GB 全网通移 动联通电信 4G 手机 双卡双待", "custom_attr_list":"6.0 英寸^8GB^128GB^2400 万+1600 万像素^骁龙 845(SDM845)^800 万像素^2160*1080^8.55", "shop_name":"努比亚京东自营旗舰店", "comment_count":"13266", "good_rate":"97", "shop_id":"1000001961", "id":"100000047414", "price":"2549.00", "url":"https://item.jd.com/100000047414.html", "keyword":"努比亚(nubia) 手机", "prop":{ "品牌":"努比亚(nubia)","型号":"Z18", "入网型号":"NX606J", "上市年份":"2018 年", "上市月份":"9 月", "机身颜色":"黑色", "机身长度(mm)":"148.58", "机身宽度(mm)":"72.54", "机身厚度(mm)":"8.55", "机身重量(g)":"172", "输入方式":"触控", "运营商标志或内容":"无", "机身材质分类":"金属边框|玻璃后盖", "屏占比":"91.8%", "操作系统":"Android", "操作系统版本":"nubiaUI6.0", "CPU 品牌":"骁龙(Snapdragon)", "CPU 频率":"2.8GHz", "CPU 核数":"八核", "CPU 型号":"骁龙 845(SDM845)", "双卡机类型":"双卡双待单通", "最大支持 SIM 卡数量":"2 个", "SIM 卡类型":"NanoSIM", "4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G:电信 (FDD-LTE)|4G:联通(TD-LTE)|电信(TD-LTE)", "3G/2G 网络":"3G:移动(TD-SCDMA)|3G:联通(WCDMA)|3G:电 信(CDMA2000)|2G:移动联通(GSM)+电信(CDMA)", "副 SIM 卡类型":"NanoSIM", "副 SIM 卡 4G 网络":"4G:移动(TD-LTE)|4G:联通(FDD-LTE)|4G: 电信(FDD-LTE)|不支持主副卡同时使用电信卡|4G:联通(TD-LTE)","4G+(CA)":"移动 4G+|联通 4G+|电信 4G+", "高清语音通话(VOLTE)":"移动 VOLTE|电信 VOLTE", "网络频率(2G/3G)":"2G:GSM 850/900/1800/1900|2G:CDMA 800|3G : TD-SCDMA 1900/2000|3G : WCDMA 850/900/1900/2100|3G : CDMA2000|2G:GSM 900/1800|2G:GSM 900/1800/1900|3G:CDMA 800MHz 1X&EVDO|3G:WCDMA:850/900/1700/1900/2100MHz|TD-SCDMA1880/2010", "是否支持同时使用联通卡":"支持双卡同时在线,并同时使用联通 4G 移动数据", "ROM":"128GB", "ROM 类型":"UFS", "RAM":"8GB", "RAM 类型":"LPDDR 4X", "存储卡":"不支持", "主屏幕尺寸(英寸)":"6.0 英寸", "分辨率":"2160*1080", "屏幕像素密度(ppi)":"403", "屏幕材质类型":"LTPS", "屏幕生产厂商":"JDI", "亮度":"500(type)", "对比度":"1500(type)", "前置摄像头":"800 万像素", "前摄光圈大小":"f/2.0", "美颜技术":"支持", "摄像头数量":"2 个", "后置摄像头":"2400 万+1600 万像素", "摄像头光圈大小":"其他", "闪光灯":"双色温灯", "副摄像头光圈大小":"其他", "拍照特点":"防抖|美颜|连拍|微距|全景|滤镜|场景模式|HDR|PDAF|微信小视频|水印", "电池容量(mAh)":"3450", "电池类型":"锂电池", "电池是否可拆卸":"否", "充电器":"9V/2A", "数据传输接口":"WIFI|NFC|蓝牙|WiFi 热点|OTG 接口", "NFC/NFC 模式":"支持(点对点模式) |支持(读卡器模式) |支持(卡 模式)|支持卡模拟", "耳机接口类型":"Type-C", "充电接口类型":"Type-C", "数据线":"USB2.0", "指纹识别":"支持", "语音识别":"支持", "GPS":"支持", "电子罗盘":"支持", "陀螺仪":"支持", "红外遥控":"不支持", "其他":"距离感应|呼吸灯|多麦降噪技术|光线感应", "常用功能":"录音|便签|重力感应"}}

原文地址:https://www.cnblogs.com/wjwjs/p/11493133.html

时间: 2024-07-30 18:46:26

大数据技术暑期实习六___互联网营销精准决策(手机数据爬取)的相关文章

大数据技术暑期实习七___互联网营销精准决策(加载数据源)

1. 进入Hadoop环境(在Hadoop安装目录下运行命令.若配置好ssh则可以直接运行启动命令) 2. 启动hive进程(按照网上或林子雨的配置教程来就可以,不再赘述) 进入到shell 3.加载数据到hive数据库(在项目实操中不建议查询语句为select *,而应根据列名查询,若只是查看表结构及数据效果,建议加limit,不然要机子要崩~~沙卡拉卡) hive> show tables; ##查看表 hive> desc formatted hive_table; ##描述表信息 de

互联网营销精准决策项目总结

在今天我已经吧互联网营销精准决策项目的所有数据处理和分析的工作都完成了,包括按照范围分类,给表格打标签,设置权重,添加宽表,价格分类分析,销售情况分类分析等 在这几天的开发过程中,自己学到了很多,包括一些hive的使用方式.hql的语法,jdbc对hive的连接,hive的运行体制等,更重要是根据老师给的需求一步步自己探索,让我对数据分析有了一个新的认知,知道了拿到怎样的数据应该按照怎样的步骤,按照怎么样的范围去划分数据去分类去分析. 下面附上我的具体操作代码,其中有基本的注释,但由于写的过程中

大数据技术之_26_交通状态预测项目_01_数据模拟 + 数据采集 + 数据建模 + 数据预测 + 项目总结

一 项目背景二 项目架构与环境2.1 项目架构2.2 项目环境三 项目实现3.1 数据模拟3.1.1 数据结构3.1.2 编写代码3.1.3 测试3.2 数据采集3.2.1 编写代码3.2.2 测试3.3 数据建模3.3.1 编写代码3.3.2 测试3.4 数据预测3.4.1 编写代码3.4.2 测试四 项目总结 小段子分享:有个人姓铁,他不长头发,请问他得了什么病?答:老铁没毛病. 一 项目背景 该项目以车辆预测为基础,学习业务解决的方法论.学习完本项目后,可以解决如下问题或适用于如下业务场景

大数据技术:让看病更加靠谱!

在早期,大部分医疗相关数据以纸质形式存在,而非电子数据存储,如正式医疗记录.费用记录.护士和医生书写的病例记录.处方药记录.X光记录.磁共振成像(MRI)记录.CT图像记录等.随着强大的数据存储.计算平台和移动互联网的发展,医疗数据的爆炸式增长和快速的电子数字化成为趋势.上述医疗数据在不同程度上转化为数字.移动互联网.大数据.云计算等领域的技术与医疗领域的跨境整合.新兴的技术和新的服务模式迅速到医疗的各个方面,使人们的医疗方式发生了重大变化.为我国医疗事业带来了新的发展机遇. 大医疗数据应用 大

未来五年移动互联网10大热门技术(转载)

未来五年移动互联网10大热门技术 摘要:目前,互联网行业的发展已经进入到一个新阶段,移动互联网技术的发展和运用日益成熟,传统互联网企业都已经开始自觉的运用移动互联网技术和概念拓展新业务和方向. 据前瞻网分析认为,无论是传统企业还是互联网企业,想要发挥 目前,互联网行业的发展已经进入到一个新阶段,移动互联网技术的发展和运用日益成熟,传统互联网企业都已经开始自觉的运用移动互联网技术和概念拓展新业务和方向. 据前瞻网分析认为,无论是传统企业还是互联网企业,想要发挥移动互联网的种种优势和潜力就必须掌握广

视频大数据技术在智慧城市中的应用

现代社会的信息量正以飞快的速度增长,这些信息里又积累着大量的数据.预计到2025年,每年产生的数据信息将会有超过1/3的内容驻留在云平台中或借助云平台处理.我们需要对这些数据进行分析和处理,以获取更多有价值的信息.在未来的"智慧城市"中,会有越来越大的结构化以及非结构化的数据.那么我们如何高效地存储和管理这些数据,如何分析这些数据呢?答案是,我们需要强有力的大数据处理系统进行支撑. 作为目前最火热的词汇之一,大数据在各个领域都已有了较为成熟的应用.在视频监控领域,大数据时代正悄悄来临.

利用python爬取58同城简历数据

最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但是在制作的时候,发现内容不能被存储在本地变量 response 中.当我通过shell载入网页后,虽然内容能被储存在response中,用xpath对我需要的数据进行获取时,返回的都是空值.考虑到数据都在源码中,于是我使用python里的beautifulSoup通过下载源码的方式去获取数据,然后插入到数据库. 需要的python包ur

分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储

[TOC] 1 概述 在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL.HBase等. 基于面向接口的编码思想来开发,因此这个系统具有一定的扩展性,有兴趣的朋友直接看一下代码,就能理解其设计思想,虽然代码目前来说很多地方还是比较紧耦合,但只要花些时间和精力,很多都是可抽取出来并且可配置化的. 因为时间的关系,我只写了京东和苏宁易购两个网站的爬虫,但是完全可以实现不同网站爬虫的随机调度,基于其代码结构,再写国美.天猫等的商品爬取,难度不

python爬虫入门 之 移动端数据的爬取

第七章 移动端数据的爬取 基于某一款抓包工具 : fiddler ,青花瓷 ,miteproxy 7.1 fiddler 基本配置 7.1.1fiddler简介和安装 什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 . 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据.设置断点.调试web应用.修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大,是web调试的利器. Fiddler