Python写一个简单的爬虫

code

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from lxml import etree

class Main:
    def __init__(self):
        self.headers = {
            ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
        }
        self.url = "https://beijing.anjuke.com/sale/?pi=baidu-cpc-bj-tyong1&kwid=2341817153&utm_term=%e6%89%be%e6%88%bf&bd_vid=9128294385511928514"

    def lord(self):
        response = requests.get(url=self.url, headers=self.headers).text
        tree = etree.HTML(response)
        # 将页面源码数据中的房子的名称和价格进行爬取
        li_list = tree.xpath(‘//ul[@class="houselist-mod houselist-mod-new"]/li‘)
        # 将li标签表示的局部页面内容指定数据进行解析
        for li in li_list:
            title = li.xpath(‘./div[2]/div[1]/a/text()‘)[0].strip()
            describe = li.xpath(‘./div[2]/div[2]/span/text()‘)
            site = li.xpath(‘./div[2]/div[3]/span/text()‘)[0].split()[1]
            price = li.xpath(‘./div[3]/span[1]/strong/text()‘)
            print(‘标题：{}\n描述：{}\n地点：{}\n价格{}万\n‘.format(title, describe, site, price))
            with open(‘date.txt‘,‘a+‘,encoding=‘utf-8‘) as f1:
                f1.write(‘标题：{}\n描述：{}\n地点：{}\n价格{}万\n\n‘.format(title, describe, site, price))
                f1.close()

if __name__ == ‘__main__‘:
    obj = Main()
    obj.lord()

输出结果

原文地址：https://www.cnblogs.com/HByang/p/12260813.html

时间： 2024-10-08 00:39:30

Python写一个简单的爬虫的相关文章

如何用python写一个简单的find命令

对一个运维来说可能会经常去查找目录下的一些文件是否存在,最常用的就是find命令,它不仅可以查找文件也可以查找目录,find命令用法查找文件 [[email protected] opt]# find /usr/ -type f -name df /usr/bin/df 查找目录 [[email protected] opt]# find /usr/ -type d -name python /usr/share/gcc-4.8.2/python 现在就讲一些如何用python实现这个简单功能

python写一个简单的接口

写一个接口: 1.用到的模块是flask,flask是一个python的一个web框架,可以用来开发接口和web页面 2. 启动服务的效果是这样的: 用postman测试的结果:

python初尝试，写一个简单的爬虫程序

1.首先因为mac自带python,版本为python2.7.10 2.安装pip,因为已经有了,所以不能用brew install.这里用sudo easy_install pip 3.安装beatifulsoup4,sudo -H pip install beautifulsoup4. BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. 4.安装html5lib,sudo pip insta

python实现一个简单的爬虫

今天第一次写爬虫,感觉非常有趣!,中途也遇到了许多问题,所以写篇博客- 目标:爬取豆瓣编程类书籍中9分以上的刚接触爬虫,说下我的认识(不一定准确^_^) 我们知道网页的呈现也是用编程语言写出来的,有源码,每个网页我们都可以查看它的源码,我的浏览器快捷键是Ctrl+U, 一般点击右键就可以看见查看源码.因为要爬取豆瓣的数据,那看看下图豆瓣图书页面的部分源码它所对应的数据是这样的那么我们知道了,网页上所能看见的每个数据在源码上都能找到,有的点击会跳转也是因为源码上链接着其他地方. 所以我们直接

Python运维三十六式：用Python写一个简单的监控系统

市面上有很多开源的监控系统:Cacti.nagios.zabbix.感觉都不符合我的需求,为什么不自己做一个呢用Python两个小时徒手撸了一个简易的监控系统,给大家分享一下,希望能对大家有所启发首先数据库建表建立一个数据库“falcon”,建表语句如下: 1 CREATE TABLE `stat` ( 2 `id` int(11) unsigned NOT NULL AUTO_INCREMENT, 3 `host` varchar(256) DEFAULT NULL, 4 `mem_fr

如何用python写一个简单的12306抢票软件

所谓抢票实际上是在开始放票的一瞬间第一个发出请求并点击预订.作为程序员的我们,完全可以让程序来做这件事.我花了几个小时写了一个demo.用到的工具集有:Python3.6, Selenium, chromdriver. 程序本身就是流程性的东西,没有什么可介绍的.代码如下 #coding=utf-8 from selenium import webdriver from time import sleep import traceback TICKET_URI = 'https://kyfw.1

随笔写一个简单的爬虫

目标:爬取damai网上即将上演的信息 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import requests, re 5 from bs4 import BeautifulSoup 6 7 DOWNLOAD_URL = "http://www.damai.cn/bj/" 8 9 #获取url页面内容 10 def download_page(url): 11 headers = {'User-Agent':'Mozilla/

python实现一个简单的爬虫搜索功能

html.parser HTMLParser urllib.request urlopen urllib parse LinkParser(HTMLParser): handle_starttag(, tag, attrs): tag == : (key, value) attrs: key == : newUrl = parse.urljoin(.baseUrl, v

python 一个简单的爬虫（1）

1.一个简单的爬虫:爬取豆瓣的热门电影的信息技能:获取网页源码,正则表达式,函数调用,全局变量的定义 1 #! /usr/bin/env python 2 # -*- coding=utf-8 -*- 3 import requests 4 import json 5 import re 6 import sys 7 reload(sys) 8 sys.setdefaultencoding("utf-8") 9 classinfo = [] 10 f = open('info.txt