抓取58同城二手手机一个列表页的对应详情页的内容

本来是根据教程上的是区分个人和商家的，但是教程是15年的58同城网站进行了改版，个人的二手物品时跳转转转的，商家的还在58，所以两个详情页面的标签不再通用，没有实现个人和商家页面的跳转。代码如下：

from bs4 import BeautifulSoupimport requestsimport timeurl = ‘http://zhuanzhuan.58.com/detail/883905856824967177z.shtml‘def get_links_from(who_sells):    urls = []    list_view = ‘http://bj.58.com/shouji/{}/‘.format(str(who_sells))    web_date = requests.get(list_view)    soup = BeautifulSoup(web_date.text,‘lxml‘)    for link in soup.select(‘td.t a.t‘):        urls.append(link.get(‘href‘))    return urls

def get_info(who_sells=0):    urls = get_links_from(who_sells)    for url in urls:        web_date = requests.get(url)        soup = BeautifulSoup(web_date.text,‘lxml‘)

data = {            ‘title‘:soup.title.text,            ‘price‘:soup.select(‘span.price_now ‘)[0].text if soup.find_all(‘span‘,‘price_now‘) else None,            ‘area‘: soup.select(‘div.palce_li > span > i ‘)[0].text if soup.find_all(‘div‘,‘palce_li‘) else None,            ‘catr‘:‘个人‘if who_sells==0 else ‘商家‘,            ‘view‘:None,        }        print(data)get_info()

时间： 2024-10-16 18:44:35

抓取58同城二手手机一个列表页的对应详情页的内容的相关文章

【Android 我的博客APP】1.抓取博客首页文章列表内容——网页数据抓取

打算做个自己在博客园的博客APP,首先要能访问首页获取数据获取首页的文章列表,第一步抓取博客首页文章列表内容的功能已实现,在小米2S上的效果图如下: 思路是:通过编写的工具类访问网页,获取页面源代码,通过正则表达式得到匹配的数据进行处理显示到ListView上简单说明下要点:1. 使用Apache HttpClient库实现GET请求.2. 异步请求处理.3. 正则表达式抓取自己需要的数据. 使用Apache HttpClient库实现GET请求. 使用Apache只需简单三步 HttpCli

简单爬虫-抓取博客园文章列表

原文:简单爬虫-抓取博客园文章列表如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了.爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方. 大部分使用httpRequst就能完成,不管是否添加了口令.随即码.请求参数.提交方式get或者post.地址来源.多次响应等等.但是有些网站使用ajax如果是返回json或固定格式的也好处理,如果是很复杂的,可以使用webbrower控件进行抓取,最后正则解析,获取所需要的数据即

【实战】Ozon产品列表页及产品详情页nodejs爬虫

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 { "name": "1", "version": "1.0.0", "description": "", "main": "index.js", "dependencies": { "fs": "^0.

如何设计一个优秀的电子商务产品详情页

http://c.jinhusns.com/cms/c-3256/?type=xcj 如何设计一个优秀的电子商务产品详情页电子商务网站的产品详情页面无疑是设计师和开发人员关注的最重要的网页之一.产品详情页面是客户作出“加入购物车”决定的页面,也是搜索引擎的结果页面.和我们一起去探索什么样的伟大元素可以设计出一个成功的产品详细页吧. 电子商务产品详情页设计(E-commerce Website Design) 设计,可用性和搜索引擎营销的工作对于一个电子商务项目是紧密相联的.是时候开始了,让我们

Python开发网络爬虫抓取某同城房价信息

前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来. 方案:方案思路很简单,先把网页内容获取下来,通过一定规则对内容解析,保存成想要的格式难点是对网页的解析,是一个比较细致的活,必须边输出,边调试. 具体实现: 获取网页内容: def get_page(url): headers = { 'User-Agent': r'Mozilla/5.0 (Window

用Python写爬虫爬取58同城二手交易数据

爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import requests,pymongo main_url = 'http://bj.58.com/sale.shtml' client = pymongo.MongoClient('localhost',27017) tc_58 = client['58tc'] tab_link_list = tc_58['link_

利用Python抓取亚马逊评论列表数据

前段时间,我家妹子公司老板叫她去将法国亚马逊评论列表的前100页共1000个评论用户的联系方式找出来.1000个用户,要一个个的去看再记录下来,而且并不是每个评论用户都会将个人的联系方式留下来.那么问题来了,这样费时费力的工作如果人工去做的话,那么就是花了两天的时间也就找了前30页的数据(还有别的工作要做),然后累的够呛的.本着心疼的原则(程序猿能找到妹子就很不错了,所以得心疼着),就想帮着她做点事. 我本身的工作是做游戏客户端开发的,主要使用的开发语言是lua和c++,并没有接触过网页.网站相

C#.Net使用正则表达式抓取百度百家文章列表

工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 1 public List<string[]> GetUrl() 2 { 3 try 4 { 5 string url = "http://baijia.baidu.com/"; 6 WebRequest webRequest = WebRequest.Create(url); 7 WebResponse web

python爬虫：找房助手V1.0-爬取58同城租房信息

1.用于爬取58上的租房信息,限成都,其他地方的,可以把网址改改: 2.这个爬虫有一点问题,就是没用多线程,因为我用了之后总是会报: 'module' object has no attribute '_strptime'这个奇怪的错误,挣扎了许久,放弃: 如有大神看到这篇帖子,希望可以指点一二,不胜感激,谢谢. 3.我本来打算做成EXE文件的,但是在中文处理方面总是乱码,需要进一步研究: 以下为代码: #!/usr/bin/python # -*- encoding:utf-8 -*- imp