爬取赶集网的租房信息

碰到的问题:

1.list 越界 查询后加了个

try:

except IndexError:    pass

一个简单的爬虫程序

 1 import requests
 2 from lxml import etree
 3 import csv
 4 import os
 5
 6
 7 #创建一个csv文件 如果文件步存在则自动创建
 8 f = open("house3.csv", "w+")
 9
10 #构造一个csv对象
11 csv_file = csv.writer(f)
12
13 # 获取url对应的网页源码
14 head= {
15         ‘User-Agent‘: ‘User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0)‘}
16 def getsource(url):
17
18     sourceHtml = requests.get(url, headers=head)
19     return sourceHtml.text
20
21 # 开始抓取并分析数据
22 def spiderData(url):
23     rtext = getsource(url)
24    # path="C://Users/Administrator/Desktop/picure"
25    # 将服务器返回的内容转换成xml格式
26     html = etree.HTML(rtext)
27     div_list = html.xpath(‘//div[contains(@class, "js-tips-list")]/div[contains(@class, "f-list-item")]‘)
28    # data = []
29     csv_file.writerow(["标题","价格","地址"])
30     for item in div_list:
31
32         try:
33
34             title= item.xpath(‘.//dd[contains(@class, "title")]/a/text()‘)[0]
35             price = item.xpath(‘.//dd[contains(@class,"info")]/div[@class="price"]/span[@class="num"]/text()‘)[0]
36             yue = item.xpath(‘.//dd[contains(@class,"info")]/div[@class="price"]/span[@class="yue"]/text()‘)[0]
37             address= item.xpath(‘.//dd[contains(@class, "address")]//a[@class="address-eara"]/text()‘)[0]
38             img = html.xpath(‘.//div[@class="img-wrap"]//img/@src‘)[0]
39
40             print(title,price+yue,address,img)
41         except IndexError:
42             pass
43         #获取电影的图标
44         img = html.xpath(‘.//div[@class="img-wrap"]//img/@src‘)[0]
45         r = requests.get(img, headers = head)
46     # #保存图片
47         f1 = open("{}.png".format(title), "wb")
48         print(f1)
49         f1.write(r.content)#将服务器返回的内容写入到文件中
50         f1.close()
51
52         try:
53             csv_file.writerow([title,price+yue,address,img])
54         except:
55             pass
56   #  f1.close()
57
58
59 if __name__==‘__main__‘:
60     url="http://cs.ganji.com/zufang/b2/"
61
62     for i in range(2,5):
63
64         src="pn"+str(i)
65         url=url+src+"/?qq-pf-to=pcqq.group‘"
66         spiderData(url)
67
68     

------------恢复内容结束------------

原文地址:https://www.cnblogs.com/industrial-fd-2019/p/12149262.html

时间: 2024-10-09 06:42:38

爬取赶集网的租房信息的相关文章

爬取赶集网二手物品下所有物品的信息

四周爬虫课第二周的练习,爬取赶集网二手物品下所有物品的信息.大致思路:1.爬取频道页url:2.爬取商品详情页url,写入mongodb,url_list表:3.从url_list表读取url,爬取商品信息,写入mongodb,p_info表 分成3个py文件:1.channel_url.py,获取频道页url:2.page_parse.py,主要是2个爬虫函数,分别完成2个数据表的写入:3.main.py,主程序文件,也就是本文件,开启多进程,完成整个工作 最后顺利完成任务,感觉现在赶集真不行

Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/1.爬取租房标题 按照惯例,先来爬下标题试试水,找到标题,复制xpath.多复制几个房屋的标题 xpath 进行对比: //[@id="page_list"]/ul/li[1]/div[2]/div/a/span//[@id="page_list"]/ul/li[2]/div[2]/div/a

爬取当当网的图书信息之结尾

由于当当网上的图书信息很丰富,全部抓取下来工作量很大.只抓取其中的一类 在Main()方法里面 首先用户输入种子URL string starturl = Console.ReadLine(); 构建数据库上下文对象 BookStoreEntities storeDB = new BookStoreEntities(); 获取图书类的URL string html = Tool.GetHtml(starturl); ArrayList list = new ArrayList(); list =

爬取当当网的图书信息之导读

什么是爬虫 爬虫是用来抓取互联网上信息的程序.程序员可以利用爬虫来干很多事,有些挺酷炫,这里贴出知乎相关问题的网址https://www.zhihu.com/question/29372574 爬虫的工作流程 主要的分三步走,第一步把网页下载下来,第二步抽取认为有用的信息,第三步将相关信息保存下来.看是不是很简单嗯. 前期技术储备 1.如何把网页下载下来? 这里我们使用相关的library模拟人使用浏览器对服务器发送请求,然后获得相关网页的源代码.我使用C#语言编程,采用封装强度最高的最简单的W

爬取当当网的图书信息之工作流程介绍

前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富 我们是计算机类图书为例子,那么计算机类图书页面的URL  http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL 当我们进入这个页面可以看到很多计算机类图书,什么都别说了,都抓取下来,然后在进入子品类页面继续抓取信息,我们以程序涉及品类为例 进来之后我们可以看到大量的图书,而且在页面上方我们可以看到100页,可不止这么一点还有99页没有显示出

爬取当当网的图书信息之封装一个工具类

把这个类名取为Tool 封装一个下载网页的方法GetHtml public static string GetHtml(string url) { try { WebClient wb = new WebClient(); return wb.DownloadString(url); } catch { return ""; } } 传入的是这个网页的URL,这个方法能帮我们把网页下载下来封装一个匹配图书类URL的的方法 public static ArrayList GetList(

python爬取科学网基金项目信息

听说学校快开学了...任务再不快点做的话,估计开学要被导师骂死,所以要查一下近年来自己研究领域的基金中标情况! 遇到的问题 导师给了个科学网的网址让我自己查基金,查完告诉他结果,可是! 在科学网查询的时候,发现只要同一IP短时间内访问 10次 左右,网页就会说你 访问太频繁 了...然后 等个10分钟左右才能重新访问 在科学网碰壁后,我先是查了下有没有别的基金查询网站,然后发现在一众网站中,还是科学网的信息更全面一点(nsfc,medsci,letpub等),然后就还是爬虫叭!!! 1. 了解科

跟着锁薇姐姐学的爬取返利网h1标签信息~

# _*_ coding:UTF-8 _*_ import urllib.requestimport urllib.errorimport refrom bs4 import BeautifulSoupimport timeimport socket #获取主页的源码fanly_url = "http://zhide.fanli.com/p" #多页format_url = "http://zhide.fanli.com/detail/1-" #商品链接 class

爬取当当网的图书信息之实体设计

首先新建一个控制台应用程序WebSpider 这里我选用控制台应用程序,使用控制台非常简单,为了方便监控把抓取到的一些信息给打印出来. 实体设计 BookClass public int BookClassId { get; set; } public string BookClassName { get; set; } public string Url { get; set; } public int Pages { get; set; } public virtual List<Book>