店铺商品id爬取

import requests
from bs4 import  BeautifulSoup
import lxml
import re
import time
import random
import pymysql.cursors
connection = pymysql.connect(host=‘localhost‘,
                             user=‘root‘,
                             password=‘123‘,
                             db=‘asd‘,
                             charset=‘utf8mb4‘,
                             cursorclass=pymysql.cursors.DictCursor)
payload = {
    "Ancoding":"gzip, deflate, sdch, br",
"Accept-Language":"zh-CN,zh;q=0.8",
"Connection":"keep-alive",
"Cookie":"hng=; uss=UIMY14A%2B04Bbq%2BqRxS6C9OzJWudsw14Q1kb5mDDqxW%2BQ3YG%2BUcpgrDRWnRQ%3D; uc3=sg2=AC4AfXCJ7XkLw0gCUD1tD9ZxhXFdweN2A6VfybWadxI%3D&nk2=&id2=&lg2=; t=3c0787f77a28e0854ef28fc360b2c555; cookie2=1c912d33e44bdb2008763748702a61f4; _tb_token_=78577371d8136; l=AiQkmjyCyPnG7qTN1Iu5fBqvdCgWvUgn; isg=AvDwL_qYXdDeegACSXGXiIOKwb7f2NSDXgsSOepBvMsepZFPkkmkE0aNixo_; pnm_cku822=; cna=T7gREcWMLDsCAavWmjBJPJpS; Hm_lvt_c478afee593a872fd45cb9a0d7a9da3b=1495496950; Hm_lpvt_c478afee593a872fd45cb9a0d7a9da3b=1495496950",
"Host":"tanggulake.tmall.com",
"Referer":"https://tanggulake.tmall.com/search.htm?spm=a220o.1000855.w5002-15900729481.1.b3kpys&search=y",
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",
"X-Requested-With":"XMLHttpRequest"}

with connection.cursor() as cursor:
    # Create a new
    sql = "select * from 竞店"
    cursor.execute(sql)
    q = cursor.fetchall()
    # connection is not autocommit by default. So you must commit to save
    # your changes.
    connection.commit()

for i in q:
    url =i["地址"]
    url_re = requests.get(url+"1", params=payload)
    soup = BeautifulSoup(url_re.text, "lxml")
    pig=soup.select("div >  div > div > div > span:nth-of-type(1)")
    get_pig=(pig[2].text.split("/"))[1]
    print(get_pig)
    ids=[]
    for pij in range(1,int(get_pig)+1):
        time.sleep(random.randrange(1,5))
        ur1=i["地址"]+str(pij)
        url_re1=requests.get(ur1,params=payload)
        soup=BeautifulSoup(url_re1.text,"lxml")
        date = soup.select("div > div > div > dl")
        for spid in date:
            ids.append(re.sub("\D", "", spid.get("data-id")))

    with connection.cursor() as cursor:
            # Create a new
        sql = ‘select id from‘+" " +i["店铺名称"]
        cursor.execute(sql)
        q = cursor.fetchall()
        q = [i["id"] for i in q]
        for w in ids:
            if w not in q:

                sql = "INSERT INTO "+i["店铺名称"]+ "(`id`) VALUES (%s)"
                cursor.execute(sql, w)

                    # connection is not autocommit by default. So you must commit to save
                    # your changes.
    connection.commit()

时间： 2024-10-06 12:27:56

店铺商品id爬取的相关文章

亚马逊商品页面爬取

通过来源审查,访问错误,不支持直接访问: 更改头信息,重新定义 user-agent,模拟浏览器(Mozilla/5.0浏览器标识字段,页面信息不全,可以成功访问): 全代码: import requests url="https://www.amazon.cn/?tag=baidu250-23&hvadid={creative}&ref=pz_ic_22fvxh4dwf_e" try: kv={'user-agent':'Mozilla/5.0

Java爬虫爬取天猫淘宝京东搜索页和商品详情

Java爬虫爬取天猫淘宝京东搜索页和商品详情先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包  <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>3.10-FINAL</version> </

用JAVA制作一个爬取商品信息的爬虫（爬取大众点评）

很多企业要求利用爬虫去爬取商品信息,一般的开发模型如下: for i=1;i<=最大页号;i++ 列表页面url=商品列表页面url+?page=i(页号) 列表页面=爬取(列表页面url) 商品链接列表=抽取商品链接(列表页面) for 链接 in 商品链接列表: 商品页面=爬取(链接) 抽取(商品页面); 这样的模型看似简单,但是有一下几个问题: 1)爬虫没有线程池支持. 2)没有断点机制. 3)没有爬取状态存储,爬取商品网站经常会出现服务器拒绝链接(反问次数过多),导致一旦出现拒绝链接

python爬虫：爬取京东商品信息

''' 初级版 ''' import time from selenium import webdriver from selenium.webdriver.common.keys import Keys driver = webdriver.Chrome(r'C:\Users\Auraro\Desktop/chromedriver.exe') num = 1 try: driver.implicitly_wait(10) driver.get('https://www.jd.com/') in

用 Python 爬取网易严选妹子内衣信息，探究妹纸们的偏好

今天继续来分析爬虫数据分析文章,一起来看看网易严选商品评论的获取和分析. ? 网易商品评论爬取分析网页 ? 评论分析进入到网易严选官网,搜索“文胸”后,先随便点进一个商品. ? 在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页面切换到评价标签下,选择一个评论文字,如“薄款.穿着舒适.满意”,在 Network 中搜索. ? 可以发现,评论文字是通过 listByItemByTag.json 传递过来的,点击进入该请求,并拷贝出该请求的 URL: https:/

python学习之爬虫(一) ——————爬取网易云歌词

接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is better than perfect"的态度硬着头皮开始了这篇文章的撰写!好了,废话不多说! 先说一下今天我们的目的,作为一个音痴但不影响我对于音乐的执着,所以今天我们爬取的是网易云音乐,我们将会通过代码爬取歌词并写入到本地. 作为新手,我很本能就打开页面复制了url,然后用Beautifulsou

目标爬取社会信用码

目标爬取社会信用码 http://125.35.6.84:81/xk/# 1.首先界面是一个简单的分页查询 2.刷新一下,发现数据是ajax请求的 3.查相关参数 4.点击一条记录进去 5.发现数据也是ajax请求的 6.查看参数发现,是根据之前的ID查询的 7.开始work,首先爬取前面数据的ID,在根据ID爬取社会信用码 import json import requests import re all_count=0 page_count=[1] page_size=15 data_id=

spark学习进度6-Python爬取数据的四个简单实例

今天本来想把昨天安装的intellij配置好,但是一直显示没有网络,网上查了相关资料也没有查出来解决办法. 然后暂停了intellij的配置,开始做了几个Python爬取简单数据的实例,先做了几个最简单的,以后再加大难度(用idle编码): (1)京东商品页面爬取: 链接:https://item.jd.com/2967929.html 代码解析: 首先r是一个response对象: r.status_code返回一个值,如果是200的话则正常,如果时候503的话,则抛出异常,调用该方法的目的是

Python爬虫：爬取某网站关键词对应商品ID，且存入DB2数据库

公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID. 其中还学会了用Python操作DB2数据库.Python发送邮件.写日志文件.处理浏览器访问限制. #!/usr/bin/python# -*- encoding:utf-8 -*- import requestsfrom lxml import etreeimport ibm_dbimport loggingimport sysimport timeimport smtplib #配置写入日志logging.basicConfig