链家信息爬取

一、数据库封装

import pymysql

class MysqlHelper(object):
    def __init__(self):
        self.db = pymysql.connect(host=‘127.0.0.1‘, port=3306, user=‘root‘, password=‘abc123‘, database=‘py1011‘, charset=‘utf8‘)
        self.cursor = self.db.cursor()

def execute_modify_sql(self,sql, data):
        self.cursor.execute(sql, data)
        self.db.commit()

def __del__(self):
        self.cursor.close()
        self.db.close()

if __name__ == ‘__main__‘:
    conn = MysqlHelper()
    conn.execute_modify_sql(‘insert into lianjiaxinxi(title) VALUE (%s)‘, data=(‘huzeqi hehehe‘))

二、链家信息爬取

import requests
from lxml import etree
import mysqlhelper

# 这是我们分页的url, 所以叫base_url
base_url = ‘https://bj.lianjia.com/zufang/pg%srp1/‘
myhelper = mysqlhelper.MysqlHelper()
sql = ‘INSERT INTO lianjiaxinxi (title, region, zone, meters, location, price) VALUES‘ \
      ‘ (%s, %s, %s, %s, %s, %s)‘

for i in range(1, 4):
    url = base_url % i
    response = requests.get(url)
    html_ele = etree.HTML(response.text)

# ./div[2]/h2/a
    # ul 所有信息
    li_list = html_ele.xpath(‘//ul[@id="house-lst"]/li‘)
    for li_ele in li_list:
        title = li_ele.xpath(‘./div[2]/h2/a‘)[0].text
        print(title)
        region = li_ele.xpath(‘./div[2]/div[1]/div[1]/a/span‘)[0].text
        print(region)
        # div[2]/div[1]/div[1]/span[1]/
        zone = li_ele.xpath(‘./div[2]/div[1]/div[1]/span[1]/span‘)[0].text
        print(zone)
        meters = li_ele.xpath(‘./div[2]/div[1]/div[1]/span[2]‘)[0].text
        print(meters)
        location = li_ele.xpath(‘./div[2]/div[1]/div[1]/span[3]‘)[0].text
        print(location)
        price = li_ele.xpath(‘.//div[@class="price"]/span‘)[0].text
        print(price)
        import re
        res_match = re.match(‘\d+‘, meters)
        meters = res_match.group(0)
        data = (title, region, zone, meters, location, price)
        myhelper.execute_modify_sql(sql, data)

原文地址:https://www.cnblogs.com/luwanhe/p/9500547.html

时间: 2024-11-09 17:06:14

链家信息爬取的相关文章

链家数据爬取

爬取杭州在售二手房的数据 https://hz.lianjia.com/ershoufang/这是首页地址,我们可以看见有翻页栏,总共100页,每一页30条数据, 第二页地址https://hz.lianjia.com/ershoufang/pg2/,对比可以发现多了一个参数pg2,这样就可以找到规律,1-100页请求地址都可以找到 使用正则表达式提取每一页的数据 '<li.*?LOGCLICKDATA.*?class="info clear".*?title.*?<a.*

爬虫系列之链家的信息爬取及数据分析

关于链家的数据爬取和分析 已经实现 1.房屋数据爬取并下载 2.房屋按区域分析 3.房屋按经纪人分析 4.前十经纪人 5.经纪人最有可能的位置分析 6.实现以地区划分房屋 目前存在的问题: 1.多线程下载的时候会出现个别文件不继续写入了(已经解决) 2.未考虑经纪人重名问题 3.查询中发现不是每次都能 get 到 url 的数据,具体原因可能跟header有关,或者网站反扒(已经解决,手机端的header有时候访问pc端会出现None的情况) 4.守护线程那里应该出问题了,如果有文件储存完成,其

【Python】博客信息爬取-微信消息自动发送

1.环境安装 python -m pip install --upgrade pip pip install bs4 pip install wxpy pip install lxml 2.博客爬取及发送 from bs4 import BeautifulSoup from threading import Timer import requests import traceback from wxpy import * url = '' nIndex = 6 my_groups = None

抖音分享页用户信息爬取

其实这个是有客户要求做的,但我完成的不够完美.过来分享出来好了~ 首先,你知道抖音有一个用户分享页吧? 像这样的:https://www.douyin.com/share/user/58841646784 F12查看代码. ok,可以看到有数字的地方都做了字体反爬,比如抖音id上的数字啊,粉丝数这些. 那我们这样子,先把它的这个字体文件下载下来 在开发者工具中选择Network筛选font后刷新网页就能找到这个字体了,如下图: 然后复制链接到新窗口打开就能下载字体了. 这是我下到的字体 下一步就

requests+re(正则)之猫眼top100排名信息爬取

这篇博客介绍怎么爬取猫眼top100的排名,网址,评分等.使用的是爬虫技术最基础的requests请求加re(正则)提取. 有时候我们看电影会不知道看什么电影比较好,一般打开电影排名,还得一下下的点击到电影排行页面.所以就有了这个爬虫,直接就能得到猫眼的电影排名和他的网址,岂不乐哉. 我们先打开到猫眼的top100页面:https://maoyan.com/board/4? 然后点击到第二页:https://maoyan.com/board/4?offset=10 点击第三页:https://m

Python-wxpy信息爬取发送至微信(小白级)

Wxpy初体验 1.1 安装wxpy 在这里默认大家以及安装好了pip,我们需要安装wxpy 以及wechat_sender 两个包,这里推荐使用国内的豆瓣源,如果大家网速过硬 请忽略.. 1 2 pip install wxpy -i "https://pypi.doubanio.com/simple/" pip install wechat_sender -i "https://pypi.doubanio.com/simple/" 1.2 wxpy 登陆 wxp

汽车之家数据爬取:文章链接//图片//标题

(1)打印出来的东西乱码,如何处理这个问题? import requests response=requests.get( url='https://www.autohome.com.cn/beijing/' #最新的地址是可以出来的 # url='https://www.autohome.com.cn/news/' #老的地址会出现乱码问题 ) print(response.text) (2) import requests response=requests.get( # url='http

Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计

一.数据分析截图(weka数据分析截图 ) 本例实验,使用Weka 3.7对豆瓣电影网页上所罗列的上映电影信息,如:标题.主要信息(年份.国家.类型)和评分等的信息进行数据分析,Weka 3.7数据分析如下所示: 图1-1  数据分析主界面 图1-2  OneR数据分析界面 图1-3  ZeroR数据分析界面 图1-4 Visualize数据分析界面 二.数据分析结论:(将数据之间的关系用文字性描述) 如图2-1所示,显而易见,电影类型的趋势增量随着标题的繁杂而日益增长,仅对于整个国家层次来说,

抖音用户信息爬取案例 &#197057;

原文: http://blog.gqylpy.com/gqy/416 置顶:来自一名75后老程序员的武林秘籍--必读(博主推荐) 来,先呈上武林秘籍链接:http://blog.gqylpy.com/gqy/401/ 你好,我是一名极客!一个 75 后的老工程师! 我将花两分钟,表述清楚我让你读这段文字的目的! 如果你看过武侠小说,你可以把这个经历理解为,你失足落入一个山洞遇到了一位垂暮的老者!而这位老者打算传你一套武功秘籍! 没错,我就是这个老者! 干研发 20 多年了!我也年轻过,奋斗过!我