python爬取京东菜单

#!/usr/bin/python
#encoding=utf-8
from bs4 import BeautifulSoup as bs
import requests
headers = {
"host": "www.jd.com",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}
session = requests.session()
def get_url():
　　renspned = bs(session.get(‘http://www.jd.com/‘,headers = headers).text,‘html.parser‘)
　　for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
　　　　print(i.get_text(),‘:‘,i.get(‘href‘))
get_url()

时间： 2024-07-29 06:56:27

python爬取京东菜单的相关文章

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u7981\u533a","

python 爬取京东手机图

初学urllib,高手勿喷... import re import urllib.request #函数:每一页抓取的30张图片 def craw(url,page): imagelist = []#这里每次都要重新定义新的空列表,第一次没有定义结果爬取的都是一样的图片 html1 = urllib.request.urlopen(url) data = str(html1.read()) patter1 = '<li class="gl-item".+?</li>'

python爬取京东所有iphone的价格和名称

原本想升一下级,用一下creep神马的,但是正则今天突然出了点小问题,我就生气了,就用正则抓取了一下. 这个正则可以用re.search 或者 re.findall都可以,我比较喜欢用search因为可以直接提取结果不用在过滤了. 代码如下,这个小爬爬比较简单. #-*- coding:utf-8 -*- import urllib2 import json import re SearchIphoneUrl = 'http://search.jd.com/Search?keyword=%E8%

python爬取京东小爱音响评论

import requests from bs4 import BeautifulSoup as bs import re import pandas as pd from sqlalchemy import create_engine from pandas.io.sql import to_sql as pd_sql import pymysql import random import time # 定义pandas存入mysql函数 def pandas_to_mysql(df_data

python制作爬虫爬取京东商品评论教程

作者:蓝鲸类型:转载本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D共18个尺寸,以及超过700条的购买评论. 京东商品评论信息是由JS动态加载的,所以直接抓取商品详

Python爬虫实战（2）：爬取京东商品列表

1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript. 我们在<Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容>一文已经成功检验了动态网页内容的抓取方法,本文将实验程序进行改写,使用开源Python爬虫

python爬虫实战(一)----------爬取京东商品信息

本文章的例子仅用于学习之用,如涉及版权隐私信息,请联系本人删除,谢谢. 最近一直在练习使用python爬取不同网站的信息,最终目的是实现一个分布式的网络爬虫框架,可以灵活适用不同的爬取需求. 项目github地址: https://github.com/happyAnger6/anger6Spider 在学习的过程中遇到不少问题,在这里做一下总结,并分享出来,希望有兴趣的朋友批评指正,共同学习共同进步. 本着实用至上的目的,不准备过多讲实现细节和原理,直接通过项目需求来边实战边学习,因此本系列文

python爬虫实践——爬取京东商品信息

1 ''' 2 爬取京东商品信息: 3 请求url: 4 https://www.jd.com/ 5 提取商品信息: 6 1.商品详情页 7 2.商品名称 8 3.商品价格 9 4.评价人数 10 5.商品商家 11 ''' 12 from selenium import webdriver 13 from selenium.webdriver.common.keys import Keys 14 import time 15 16 17 def get_good(driver): 18 try

简单爬取京东百万商品的缺货记录

申明:转载请注明作者(by ChenReason)及出处,谢谢. 最近在学python,首先就想找个小功能来试着实现以下当作练手,最后决定就以爬取京东商品的缺货记录作为目标. 要爬京东数据,当然要从分析京东的商品页面开始. 我们先以京东的手机频道为例. 不然发现,有个[仅显示有货]按钮,因此不然得出这样一个思路,遍历所有商品后,[不显示只有有货 - 只显示有货=缺货商品]. 在利用python的urllib2库以及BeautifulSoup库对页面进行解析之后,会发现不管是打开只显示有货商品页面

猜你喜欢

Ubuntu Desktop基本办公环境搭建

Ubuntu Desktop基本办公环境搭建一如前面所强调的, linux系统是面向开发人员友好的,而对office办公人员并不友好 . 如果是重度的office办公需求人员,不建议使用linux ...

UAC相关问题分析--使用管理员权限打开VisualStudio，无法访问网络磁盘,无法拖拽文件

搬运自http://wurang.me/2014/06/17/uac-problems.html [问题产生] 问题最初是在administrator权限下,visual studio 打开网络磁盘下 ...

关于Ajax工作原理

1.ajax技术的背景不可否认,ajax技术的流行得益于google的大力推广,正是由于google earth.google suggest以及gmail等对ajax技术的广泛应用,催生了ajax ...

ie浏览器中的不同

ie浏览器中不支持奇数的单位他自己会取整 IE6会自动把奇数字号+1 ==> 建议使用偶数浏览器兼容详解 http://w3help.org/zh-cn/causes/

CPU的段寄存器

http://www.cnblogs.com/tolimit/p/4775945.html?utm_source=tuicool&utm_medium=referral CPU的段寄存器在C ...

HTML5 input file 打开很慢的问题

<input type="file" name="file" class="element" accept="image/j ...

BZOJ3490 : Pa2011 Laser Pool

与横线以及竖线的交点个数很容易求,那么只要求出横线竖线交点与运动轨迹的交点数即可. 运动轨迹可以划分成若干条贯穿边界的斜线,对于第一条和最后一条,可以用bitset暴力统计. 对于中间的部分,斜线都是 ...

搭建NFS文件共享--实例解析

1 NFS简介 NFS 是Network File System的缩写,即网络文件系统.一种使用于分散式文件系统的协定,由Sun公司开发,于1984年向外公布.功能是通过网络让不同的机器.不同的操作 ...

监控之cacti的安装部署（监控本机及其他主机+支持多线程+命令行监控）

主机环境 redhat6.5 64位实验环境服务端1 ip 172.25.25.1 服务端2 ip 172.25.25.2 安装包 cacti-0.8.8h. ...

Thread basic

* 一个进程可以有多个线程,程序是静态的,进程是动态的 * 线程的主要方法 >start():启动线程,并执行相应的run()方法 >run(): 子线程要执行的代码 >curre ...

Android - SharedPreferences共享数据的相同Context

SharedPreferences共享数据的相同Context 本文地址: http://blog.csdn.net/caroline_wendy 使用SharedPreferences,可以存储和共 ...

MVC.Net：对MVC5部署时出现403.14错误的解决方法

当我们部署MVC5到IIS 7的时候,有时会出现403.14的错误,如下图: 对于这个错误的解决方法就是在应用程序的web.config的system.webServer节点中加入这一句: <m ...

时间管理的6句话

避免多任务,保持单进程集中注意力.高效工作,每天最多4小时划分任务的优先级,不要把'急切'当作'重要' 避免开会早起你没空时不会做的事情,有空了也不会做.

mysql备份与恢复+ERROR 1046

mysqldump -uroot -p123456 --default-character-set=utf8 quan > /opt/quan.sql //备份 gr ...

Adobe Flash Player 因过期而遭到阻止的解决办法

今天Chrome内核的所有浏览器打开网页均提示"Adobe Flash Player 因过期而遭到阻止",每一次都弹出这条信息,非常烦人. 解决办法找到浏览器的快捷方式,右击点属 ...

Android下资源图片的加密和解密

转载:http://blog.csdn.net/you_and_me12/article/details/7959349 apk文件使用解压工具就能看到drawable等资源,但是有些游戏中的图 ...

怎样查看python的api

python -m pydoc -p 4567 python -m pydoc表示打开pydoc模块,pydoc是查看python文档的首选工具: -p 4567表示在4567端口上启动server; ...

hihocoder #1467 : 2-SAT·hihoCoder音乐节 2-SAT

题目链接: http://hihocoder.com/problemset/problem/1467 题意: hihoCoder音乐节由hihoCoder赞助商大力主办,邀请了众多嘉宾和知名乐队参与演 ...

数据库必会必知之 SQL四种语言：DDL DML DCL TCL（转）

今天群里面讨论,DDL 还是 DML,我这种小白还是总结下他们的区别吧. 1. DDL – Data Definition Language 数据库定义语言:定义数据库的结构. 其主要命令有CREAT ...

select in 在postgresql的效率问题

在知乎上看到这样一个问题: MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率?修改电商网站,一个商品属性表,几十万条记录,80M ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.