python多线程爬虫：亚马逊价格

import re
import requests

import threading
import time
from time import ctime,sleep

from queue import Queue

keywords_a=[
    ‘ELPLP80‘,
    ‘ELPLP23‘,
    ‘ELPLP29‘,
    ‘NP14LP‘,
    ‘POA-LMP126‘,
    ‘ELPLP66‘,
]

keywords_b=[
    ‘VIP230W0.8E20.8‘,
    ‘VIP240W0.8E20.9N‘,
    ‘NP30LP‘,
    ‘LMP-C162‘,
    ‘VT70LP‘,
]

keywords_c= [
    ‘TLPLV4‘,
    ‘POA-LMP131‘,
    ‘BL-FP240A‘,
    ‘VLT-XD3200LP‘,
    ‘ET-LAD35‘,
    ‘BL-FU240A‘,
    ‘20-01032-20‘,

]

keywords_d =[
    ‘ELPLP76‘,
    ‘VLT-HC3800LP‘,
    ‘BL-FP240C‘,
    ‘5811116765-S‘,
    ‘ELPLP69‘,
    ‘BL-FP200H‘,

]

keywords_e = [
    ‘5100MP‘,
    ‘RLC-057‘,
    ‘ELPLP71‘,
    ‘ELPLP64‘,
    ‘BL-FS300B‘,
]

Re_rule = ‘<span class="a-size-base a-color-price s-price a-text-bold">(.*?)</span>‘  ＃正则表达式匹配价格

headers_am = {‘User-Agent‘:‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.86 Safari/537.36‘}
＃浏览器页面headers
def Scraper(kw):
    for i in kw:
        url_keyword = ‘https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords={}‘.format(i)        ＃亚马逊页面链接
        url_Epharos = ‘http://www.amazon.com/s/ref=nb_sb_noss?url=srs%3D9143518011%26search-alias%3Dspecialty-aps&field-keywords={}‘.format(i)
        ＃店铺链接
        response = requests.get(url_keyword,headers=headers_am)
        ＃requests.get(url,params=params) 可以提交表单用request.post(url,params=params）
                response_a = requests.get(url_Epharos,headers=headers_am)
        price = re.findall(Re_rule,response.text)
        price_e = re.findall(Re_rule,response_a.text)

        print(‘--------------------------{0}爬去完毕at{1}j结果:\n\n市场价:{2}\n\nEpharos:{3}‘.format(i,time.ctime(),price[0],price_e[0]))
    time.sleep(1)

threads = []

t1 = threading.Thread(target=Scraper,args=(keywords_a,)) ＃args为元祖
threads.append(t1)
t2 = threading.Thread(target=Scraper,args=(keywords_b,))
threads.append(t2)
t3 = threading.Thread(target=Scraper,args=(keywords_c,))
threads.append(t3)
t4 = threading.Thread(target=Scraper,args=(keywords_d,))
threads.append(t4)
t5 = threading.Thread(target=Scraper,args=(keywords_e,))
threads.append(t5)

if __name__ == ‘__main__‘:
    for t in threads:
        t.setDaemon(True)  #守护线程
        t.start()
    for t in threads:
        t.join()         #等待子线程

    print ("all over %s" %ctime())

时间： 2024-12-22 21:39:46

python多线程爬虫：亚马逊价格的相关文章

利用Python抓取亚马逊评论列表数据

前段时间,我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来.1000个用户,要一个个的去看再记录下来,而且并不是每个评论用户都会将个人的联系方式留下来.那么问题来了,这样费时费力的工作如果人工去做的话,那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做),然后累的够呛的.本着心疼的原则(程序猿能找到妹子就很不错了,所以得心疼着),就想帮着她做点事. 我本身的工作是做游戏客户端开发的,主要使用的开发语言是lua和c++,并没有接触过网页.网站相

用python爬取亚马逊物品列表

1. 仔细分析亚马逊查询详细界面可以看出来,主要关键部分有三个地方,这三个地方分别控制了查询列表的页面和关键字,所以修改这几个参数可以改变列表页数以及模糊查询的结果 http://www.amazon.cn/s/ref=sr_pg_3?rh=n%3A658390051%2Ck%3Aphp&page=3&keywords=Java&ie=UTF8&qid=1459478790 2. 通过基础链接以及正则表达式匹配的方法进行替换的方式改变爬取页面,注意由于使用了正则表达式匹配,

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │ ├── __init__.py │ ├── __init__.pyc │ ├── items.py │ ├── items.pyc │ ├── msic │ │ ├── __init__.py │ │ └── pad_urls.py │

python 脚本开发实战-当当亚马逊图书采集器转淘宝数据包

开发环境python2.7.9 os:win-xp exe打包工具pyinstaller 界面tkinter ============================================= 最近有个朋友让我写个小功能,采集当当网数据,生成淘宝数据包需要采集出版社,作者,主图,价格采集方式是搜索书名或者ISBN编号废话不多说,老司机开始上路了首先,分析当当网数据,这里祭出大杀器,firefox下fire-bug,查看网络数据不再话下查看源码 <ul id="compon

亚马逊是如何颠覆商业软件高昂价格这座”柏林墙”的

编者注:本文英文版来自VentureBeat,作者Chris Haroun是美国著名风投公司ARTIS Ventures的合伙人.中文版由天地会珠海分舵进行编译.1987年,里根总统曾呼吁戈尔巴乔夫推倒妨碍世界往前发展的那座柏林墙.2005年,亚马逊缔造者杰夫·贝索斯则通过AWS的发布,呼吁微软的鲍尔默先生等,推倒商业软件这座价格高的离谱的高墙- 亚马逊的网络服务AWS,通过其"类沃尔玛"式低价战略,凭借一己之力一举颠覆了商用软件的定价模式,并创造出本世纪最重要的"物美价廉&

（转）通天塔导游讲述C，C++，Lisp，Java，Perl，(我们在亚马逊用到的所有语言)，Ruby (我就是喜欢)，和Python

https://code.google.com/archive/p/windows-config/wikis/TourDeBabel.wiki 通天塔导游 (译注:圣经记载:在远古的时候,人类都使用一种语言,全世界的人决定一起造一座通天的塔,就是巴别塔,后来被上帝知道了,上帝就让人们使用不同的语言,这个塔就没能造起来. 巴别塔不建自毁,与其说上帝的分化将人类的语言复杂化,不如说是人类自身心灵和谐不再的分崩离析.之所以后来有了翻译,不仅是为了加强人类之间的交流,更寄达了一种愿望,希望能以此消除人际

新浪云、阿里云、百度云、谷歌云、亚马逊云

新浪云:http://sae.sina.com.cn/ 阿里云:http://www.aliyun.com/百度云:http://yun.baidu.com/谷歌云:https://developers.google.com/appengine/?hl=zh-cn亚马逊云:http://aws.amazon.com/ @云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备. (引自wikipedia) 具

如何做好亚马逊站内广告？

做亚马逊站内广告的三个基本条件广告是亚马逊站内引流的重要方式之一,好广告能为店铺带来较为可观的流量,但这种方式也并非适合所有的亚马逊卖家. Skyla根据多年的运营经验整合出了三点做广告所需满足的条件,亚马逊卖家可根据自身情况判断店铺是否满足以下情况. 第一,看你的listing有没有BUYBOX,这是一切的开始和动力源泉. 第二,看你的listing有没有好评量和好评率,这是做广告的前提. "如果listing没有好评量和好评率,那么花费再多的钱做广告都没有任何的意义的."Skyl

亚马逊经营中的高价运营策略

随着越来越多的卖家进入,亚马逊平台的竞争也越来越激烈,而对于大部分的新进入者,往往会抱着"简单选品,试销观望"的态度,"简单选品"意味着会直接选择当前平台热销产品,导致的直接后果就是同质化竞争越来越严重,"试销观望"意味着很多新卖家会选择跟卖或者以低价值产品为入口的方式作为主打的销售方式,这就造成低价产品优先进入跟卖者的视野,同时也必然加剧了低价产品区域的竞争热度. 所以,对于有长期目标长远计划的卖家来说,面对如此情况,最好的方式,防不如疏,与其