爬取赶集网的租房信息

碰到的问题：

1.list 越界查询后加了个

try:

except IndexError:    pass

一个简单的爬虫程序

 1 import requests
 2 from lxml import etree
 3 import csv
 4 import os
 5
 6
 7 #创建一个csv文件 如果文件步存在则自动创建
 8 f = open("house3.csv", "w+")
 9
10 #构造一个csv对象
11 csv_file = csv.writer(f)
12
13 # 获取url对应的网页源码
14 head= {
15         ‘User-Agent‘: ‘User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0)‘}
16 def getsource(url):
17
18     sourceHtml = requests.get(url, headers=head)
19     return sourceHtml.text
20
21 # 开始抓取并分析数据
22 def spiderData(url):
23     rtext = getsource(url)
24    # path="C://Users/Administrator/Desktop/picure"
25    # 将服务器返回的内容转换成xml格式
26     html = etree.HTML(rtext)
27     div_list = html.xpath(‘//div[contains(@class, "js-tips-list")]/div[contains(@class, "f-list-item")]‘)
28    # data = []
29     csv_file.writerow(["标题","价格","地址"])
30     for item in div_list:
31
32         try:
33
34             title= item.xpath(‘.//dd[contains(@class, "title")]/a/text()‘)[0]
35             price = item.xpath(‘.//dd[contains(@class,"info")]/div[@class="price"]/span[@class="num"]/text()‘)[0]
36             yue = item.xpath(‘.//dd[contains(@class,"info")]/div[@class="price"]/span[@class="yue"]/text()‘)[0]
37             address= item.xpath(‘.//dd[contains(@class, "address")]//a[@class="address-eara"]/text()‘)[0]
38             img = html.xpath(‘.//div[@class="img-wrap"]//img/@src‘)[0]
39
40             print(title,price+yue,address,img)
41         except IndexError:
42             pass
43         #获取电影的图标
44         img = html.xpath(‘.//div[@class="img-wrap"]//img/@src‘)[0]
45         r = requests.get(img, headers = head)
46     # #保存图片
47         f1 = open("{}.png".format(title), "wb")
48         print(f1)
49         f1.write(r.content)#将服务器返回的内容写入到文件中
50         f1.close()
51
52         try:
53             csv_file.writerow([title,price+yue,address,img])
54         except:
55             pass
56   #  f1.close()
57
58
59 if __name__==‘__main__‘:
60     url="http://cs.ganji.com/zufang/b2/"
61
62     for i in range(2,5):
63
64         src="pn"+str(i)
65         url=url+src+"/?qq-pf-to=pcqq.group‘"
66         spiderData(url)
67
68

------------恢复内容结束------------

原文地址：https://www.cnblogs.com/industrial-fd-2019/p/12149262.html

时间： 2024-10-09 06:42:38

爬取赶集网的租房信息的相关文章

爬取赶集网二手物品下所有物品的信息

四周爬虫课第二周的练习,爬取赶集网二手物品下所有物品的信息.大致思路:1.爬取频道页url:2.爬取商品详情页url,写入mongodb,url_list表:3.从url_list表读取url,爬取商品信息,写入mongodb,p_info表分成3个py文件:1.channel_url.py,获取频道页url:2.page_parse.py,主要是2个爬虫函数,分别完成2个数据表的写入:3.main.py,主程序文件,也就是本文件,开启多进程,完成整个工作最后顺利完成任务,感觉现在赶集真不行

Python爬虫入门 | 5 爬取小猪短租租房信息

小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/1.爬取租房标题按照惯例,先来爬下标题试试水,找到标题,复制xpath.多复制几个房屋的标题 xpath 进行对比: //[@id="page_list"]/ul/li[1]/div[2]/div/a/span//[@id="page_list"]/ul/li[2]/div[2]/div/a

爬取当当网的图书信息之结尾

由于当当网上的图书信息很丰富,全部抓取下来工作量很大.只抓取其中的一类在Main()方法里面首先用户输入种子URL string starturl = Console.ReadLine(); 构建数据库上下文对象 BookStoreEntities storeDB = new BookStoreEntities(); 获取图书类的URL string html = Tool.GetHtml(starturl); ArrayList list = new ArrayList(); list =

爬取当当网的图书信息之导读

什么是爬虫爬虫是用来抓取互联网上信息的程序.程序员可以利用爬虫来干很多事,有些挺酷炫,这里贴出知乎相关问题的网址https://www.zhihu.com/question/29372574 爬虫的工作流程主要的分三步走,第一步把网页下载下来,第二步抽取认为有用的信息,第三步将相关信息保存下来.看是不是很简单嗯. 前期技术储备 1.如何把网页下载下来? 这里我们使用相关的library模拟人使用浏览器对服务器发送请求,然后获得相关网页的源代码.我使用C#语言编程,采用封装强度最高的最简单的W

爬取当当网的图书信息之工作流程介绍

前往http://book.dangdang.com/我们可以看到当当网上面的图书种类非常丰富我们是计算机类图书为例子,那么计算机类图书页面的URL http://book.dangdang.com/01.54.htm?ref=book-01-A是我们的种子URL 当我们进入这个页面可以看到很多计算机类图书,什么都别说了,都抓取下来,然后在进入子品类页面继续抓取信息,我们以程序涉及品类为例进来之后我们可以看到大量的图书,而且在页面上方我们可以看到100页,可不止这么一点还有99页没有显示出

爬取当当网的图书信息之封装一个工具类

把这个类名取为Tool 封装一个下载网页的方法GetHtml public static string GetHtml(string url) { try { WebClient wb = new WebClient(); return wb.DownloadString(url); } catch { return ""; } } 传入的是这个网页的URL,这个方法能帮我们把网页下载下来封装一个匹配图书类URL的的方法 public static ArrayList GetList(

python爬取科学网基金项目信息

听说学校快开学了...任务再不快点做的话,估计开学要被导师骂死,所以要查一下近年来自己研究领域的基金中标情况! 遇到的问题导师给了个科学网的网址让我自己查基金,查完告诉他结果,可是! 在科学网查询的时候,发现只要同一IP短时间内访问 10次左右,网页就会说你访问太频繁了...然后等个10分钟左右才能重新访问在科学网碰壁后,我先是查了下有没有别的基金查询网站,然后发现在一众网站中,还是科学网的信息更全面一点(nsfc,medsci,letpub等),然后就还是爬虫叭!!! 1. 了解科

跟着锁薇姐姐学的爬取返利网h1标签信息~

# _*_ coding:UTF-8 _*_ import urllib.requestimport urllib.errorimport refrom bs4 import BeautifulSoupimport timeimport socket #获取主页的源码fanly_url = "http://zhide.fanli.com/p" #多页format_url = "http://zhide.fanli.com/detail/1-" #商品链接 class

爬取当当网的图书信息之实体设计

首先新建一个控制台应用程序WebSpider 这里我选用控制台应用程序,使用控制台非常简单,为了方便监控把抓取到的一些信息给打印出来. 实体设计 BookClass public int BookClassId { get; set; } public string BookClassName { get; set; } public string Url { get; set; } public int Pages { get; set; } public virtual List<Book>