交作业啊,python爬取58的页面

第一次写博文,好紧张啊,写这么烂怎么给别人看啊先做下总结:  刚开始学习python,自我感觉python写起来确实很方便,各种库,各种语法糖,不过刚接触,一下子记不下来这么多东西,总感觉乱乱的,用的多了熟悉之后应该就好了吧  这次作业基本完成了作业的要求,但是由于是在上班期间抽时间写的,可能有些乱。个人感觉这次作业的难度不大,唯一麻烦的地方就是找浏览量接口,  一开始我以为58会把浏览量的值直接发过来,通过选择器直接去修改页面的值,于是试了各种选择方式去js代码里搜,结果搜了半天也没找到,最后只好通过查看哪次网络请求之后浏览量就会出现的方式  来定位出获取浏览量的接口,总结完了。后面是全部代码

from collections import Iteratorfrom bs4 import BeautifulSoupimport requestsimport reimport time

header = {    ‘Host‘: ‘jst1.58.com‘,    ‘User - Agent‘: ‘Mozilla / 5.0 (Windows NT 6.1; WOW64;rv:46.0) Gecko / 20100101 Firefox / 46.0‘,    ‘Accept‘: ‘* / *‘,    ‘Accept-Language‘: ‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3‘,    ‘Accept-Encoding‘: ‘gzip, deflate‘,    ‘Referer‘: ‘http://bj.58.com/pingbandiannao/24063857671738x.shtml?adtype=1&entinfo=24063857671738_0&psid=157472432191615221843458468‘,    ‘Cookie‘: ‘id58=vDg6HFci7MbdAHOifdgN2Q==; utm_source=market; spm=b-31580022738699-me-f-824.bdpz_biaoti; mcity=bj; city=bj; 58home=bj; 58tj_uuid=e0c574ac-c792-4b29-a6b6-0add83b27579; new_session=0; new_uv=1; init_refer=http%253A%252F%252Fbzclk.baidu.com%252Fadrc.php%253Ft%253D0fKL00c00f7ngK60jUPi0nW_R0jDeaFg00000r7J01300000XL2vy9.THYdr0K85yF9pywdpAqVuNqsusK15y7BujD1mycknj0snWmzuHf0IHYvPHDYfWf4nDD4nYDYwRf1fW7DfWFjwjb4nWu7wRmkf6K95gTqFhdWpyfqnWm4rHc1nHT3niusThqbpyfqnHmhULFG5HDhTLNBULFG5iusThbqn6K-5y9YIZ0lQzqJIydsQhkdUhD8PH68mvqVQLnOTLKV5ycVn1Ddrj0snWcLn16vrHbVUyRVuBY3nWfhmv6qmhwsX-qBpy7EIAb0mLFW5HRYn1bL%2526tpl%253Dtpl_10085_12986_1%2526l%253D1040411361%2526wd%253D58%2526issp%253D1%2526f%253D8%2526ie%253Dutf-8%2526tn%253Dbaiduhome_pg%2526inputT%253D850; als=0; ipcity=bj%7C%u5317%u4EAC%7C0; myfeet_tooltip=end; bj58_new_session=0; bj58_init_refer=""; bj58_new_uv=1; bj58_id58s="UC1sYXcxM1I3ajhtMTY5OQ=="; sessionid=d8c0d2b1-ea07-4ace-b038-1b367908784c; final_history=24063857671738%2C25843657514315‘,    ‘Connection‘: ‘keep-alive‘,    ‘Cache-Control‘: ‘max-age=0‘}‘‘‘爬取详情页‘‘‘def getDetail(url):    requests.adapters.DEFAULT_RETRIES = 5    infoid = re.sub(‘^.*/(.*)x\.shtml.*$‘, lambda m: ‘{}‘.format(m.group(1)), url)

    ‘‘‘网络不好时改用此方式,报错就两秒之后继续爬‘‘‘    # while True:    #     try:    #         time.sleep(2)    #         response = requests.get(url)    #         count = requests.get(‘http://jst1.58.com/counter?infoid={}‘.format(infoid), headers=header)    #         break    #     except BaseException:    #         print(‘错误‘)    #         pass

    time.sleep(2)    response = requests.get(url)    count = requests.get(‘http://jst1.58.com/counter?infoid={}‘.format(infoid), headers=header)    html = BeautifulSoup(response.text,‘lxml‘)    count = re.sub(‘^.*Counter58.total=(.*)$‘,lambda m:‘{}‘.format(m.group(1)),count.text)    area = getFirst(html.select(‘#content div.col_sub.sumary ul li:nth-of-type(3) div.su_con span‘))

    return {       ‘title‘ : getFirst(html.select(‘#content div.col_sub.mainTitle > h1‘)).get_text(),        ‘category‘ : getFirst(html.select(‘span.crb_i a:nth-of-type(1)‘)).get_text(),#span.crb_i:nth-child(3)        ‘time‘ : getFirst(html.select(‘#index_show li.time‘)).get_text(),        ‘price‘ : getFirst(html.select(‘#content div.col_sub.sumary li:nth-of-type(1) div.su_con span‘)).get_text(),        ‘chengse‘ : getFirst(getFirst(html.select(‘#content div.col_sub.sumary ul li:nth-of-type(2) div.su_con span‘)).stripped_strings),       ‘area‘ : ‘‘.join(‘‘ if area == None else area.stripped_strings),       ‘count‘:count    }

‘‘‘获取列表或生成器的第一个值‘‘‘def getFirst(obj):    if isinstance(obj, list) and len(obj) != 0 :        return obj[0]    if isinstance(obj, Iterator):        return next(obj)    return None

‘‘‘爬取列表页‘‘‘def getListPage():    urls = (‘http://bj.58.com/pbdn/0/pn{}/‘.format(i) for i in range(1,200))    for url in urls:        response = requests.get(url)        html = BeautifulSoup(response.text, ‘lxml‘)        detailUrls = html.select(‘#infolist > table.tbimg > tr‘)

        ‘‘‘如果为空,则说明页数超出,停止继续爬取‘‘‘        if 0 == len(detailUrls):            break

        for dUrl in detailUrls:            if ‘zzinfo‘ == getFirst(dUrl.get(‘class‘)):                continue            href = getFirst(dUrl.select(‘.img > a‘)).get(‘href‘)            # 打印出来结果            print(getDetail(href))

getListPage()
时间: 2024-10-14 16:55:58

交作业啊,python爬取58的页面的相关文章

利用python爬取58同城简历数据

最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但是在制作的时候,发现内容不能被存储在本地变量 response 中.当我通过shell载入网页后,虽然内容能被储存在response中,用xpath对我需要的数据进行获取时,返回的都是空值.考虑到数据都在源码中,于是我使用python里的beautifulSoup通过下载源码的方式去获取数据,然后插入到数据库. 需要的python包ur

使用python爬取MedSci上的影响因子排名靠前的文献

使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn/sci的交互过程.可以使用谷歌或火狐浏览器的“审查元素-->Network”,然后就可以看到操作页面就可以看到网站的交互信息.当在网页上点击“我要查询”时,网页会发送一个POST消息给服务器,然后,服务器返回查询结果 然后,将查询到的结果使用正则表达式提取出需要的数据. 最后将提取出的数据输出到文

利用Python爬取豆瓣电影

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中 我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE 有3个字段是非常重要的: 1.sort=T 2.range=0,10 3.tag

python爬取B站千万级数据,发现了这些热门UP主的秘密!

Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务.它的语法非常简捷和清晰,与其它大多数程序设计语言不一样,它使用缩进来定义语句. Python支持命令式程序设计.面向对象程序设计.函数式编程.面向切面编程.泛型编程多种编程范式.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收

python爬虫教程:《利用Python爬取表情包》

python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!老师带领你使用多线程爬虫一键爬取20w的表情包~ python爬虫教程:<利用Python爬取表情包>,微信没有表情包?不用愁!

使用python爬取csdn博客访问量

最近学习了python和爬虫,想写一个程序练练手,所以我就想到了大家都比较关心的自己的博客访问量,使用python来获取自己博客的访问量,这也是后边我将要进行的项目的一部分,后边我会对博客的访问量进行分析,以折线图和饼图等可视化的方式展示自己博客被访问的情况,使自己能更加清楚自己的哪些博客更受关注,博客专家请勿喷,因为我不是专家,我听他们说专家本身就有这个功能. 一.网址分析 进入自己的博客页面,网址为:http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是cs

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

python爬取某个网页的图片-如百度贴吧

python爬取某个网页的图片-如百度贴吧 作者:vpoet 日期:大约在冬季 注:随意copy,不用告诉我 #coding:utf-8 import urllib import urllib2 import re if __name__ =="__main__": rex=r'src="(http://imgsrc.baidu.com/forum/w%3D580.*?\.jpg)"'; Response=urllib2.urlopen("http://t

Python爬取网页的三种方法

# Python爬取网页的三种方法之一:  使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些