P2P爬虫-拍拍贷

# -*- coding: utf-8 -*-
import urllib2
import re
import os
import sqlite3
import winsound

# 打开数据库文件

ppdai_db = sqlite3.connect(r‘C:\Users\Jian Fang\Desktop\ppdai.db‘)
cursor = ppdai_db.cursor()

# 建表
# cursor.execute(‘DROP TABLE IF EXISTS tradelog‘)
# cursor.execute(‘CREATE TABLE tradelog (user_id varchar(16), money varchar(10), rate varchar(10), date varchar(12), time varchar(10))‘)

# 定义正则表达式
pattern = re.compile(r"""<tr>[^<]*                                                  """
	                  """  <td>[^<]*                                                """
                      """    <a\W*href=‘/user/[^>]*>(?P<user>[^<]*)</a>[^<]*        """
                      """  </td>[^<]*                                               """
                      """  <td>\s*                                             """
                      """    (?P<rate>\S*)[^<]*                                 """
                      """  </td>[^<]*                                               """
                      """  <td>\s*                                             """
                      """    (?P<amount>\S*)[^<]*                             """
                      """  </td>[^<]*                                               """
                      """  <td>\s*                                             """
                      """    (?P<date>\S*)\s*(?P<time>\S*)[^<]*        """
                      """  </td>[^<]*                                               """
                      """ </tr>""",
                      re.VERBOSE | re.MULTILINE)

# 定义查找函数,返回一个dict类型
def parse(url):
    req = urllib2.Request(url, None, {‘User-Agent‘: ‘Mozilla/5.0‘})  #pretend to be a browser
    try:
        html = urllib2.urlopen(req).read()
        return [ m.groupdict() for m in pattern.finditer(html)]
    except:
        return None

page_start = 226153
page_end = 300000
index = 1
try:
	for page_index in range (page_start,page_end):
		sName = ‘%d‘ %page_index
		sUrl = ‘http://www.ppdai.com/list/‘+sName
		mat1 = parse(sUrl)
		print sName
		if mat1 != None:
			for x in mat1:			# 循环打印输出其中的每个元素
				if x[‘amount‘][6:] != ‘0‘:
					index = index + 1
					cursor.execute(‘INSERT INTO tradelog (user_id, money, rate, date, time) VALUES (?,?,?,?,?)‘, (x[‘user‘], x[‘amount‘][6:], x[‘rate‘], x[‘date‘], x[‘time‘]))
				if index == 1000:
					index = 1
					ppdai_db.commit() 	# 保存数据库
					print ‘1000 records has been submitted!!!!!!!‘

	ppdai_db.commit()	# 保存数据库
	print ‘jobes done!‘
except:
	print ‘there is an error at‘+sName

  

时间: 2024-08-07 04:18:46

P2P爬虫-拍拍贷的相关文章

P2P爬虫-人人贷

# -*- coding: utf-8 -*- import re import urllib2 import sqlite3 import os import xlrd import sqlite3 # 打开数据库文件 rrdai_db = sqlite3.connect(r'C:\Users\SX1489\Desktop\rrdai.db') cursor = rrdai_db.cursor() # 建表 # cursor.execute('DROP TABLE IF EXISTS loan

感谢拍拍贷!让我从银行活期“大客户”成长为理财小达人

开门要见山,账户总览图奉上: 5 天前 上传 下载附件 (85.53 KB) 也许看到这里,大家已经觉得没意思了,投资额不高,收益率一般,不过客官暂且留点耐心,往下面看看. 我在拍拍贷初始投资的时候像各位刚刚接触P2P网贷的投资人一样, 抱着试探的心态只投8%-9%的安全标,后期对拍拍逐渐有所认识, 并且累计了一些经验后,才投高利率的标.所以,综合来看,总体的收益率我还是比较满意的.http://www.ppdai.com/zixun/zt_xinlangwaihui 我不喜欢长篇大论,关于我在

我的拍拍贷投资心路分享

坏账,在拍拍贷基本是避免不了,还是要相对乐观地看待这个问题,首先可以看下自己能够承受多大的坏账,比如在我看来,坏账在收益的10%以下我觉得可以接受,这样来看每个月的收益和坏账心情相对会好很多,如果坏账超标了,那就反思为什么会这么高,如何更好地做风控,适当降低投资利率投向更保险的标的,如果坏账远未达到预期,那可以更加激进地投资.有些是习惯的问题,我们从来不曾在借贷这块愿意承担坏账,所以只要看到坏账心情就比较糟糕,而不会理会坏账的数量和比例到底有多少,心情好最重要,就当坏账是捐了吧. http://

我在拍拍贷的投资经验分享(净值200W+)

1,结缘: 2013.6.27日无意间在CCTV2上看到了拍拍贷在介绍,模糊的记得光头强(张俊)吹虚着他的拍拍贷.咦!这不正是我想要的.于是当晚就注册了账号,并充值1000元试水.挑了几个个人感觉还不错的标,每个人大方的投了他们50元.然后就没理他了.一个月后回来发现那些人挺守信用的,按时按量还款了.不错!得给赞.于是在论坛认真学习了一个月,期间认识了大鬼,JIANGMUXI,炮哥,qingyehanchuang,SK等高手,和他们交流中学习了不少投标技巧.在此感谢老友们的帮助. http://

高手晋级篇在拍拍贷实现高收益的指南技术贴

与拍拍贷的首次结缘,是在2013年7月.由于余额宝开始关注理财,作为一个技术宅工作多年省吃俭用的也有了点闲钱,一次偶然与同事闲聊的机会下,知道了拍拍贷.经过了一年多的摸爬滚打,每天勤劳的找标投标总结,自己和看到别人也交了不少学费,在拍拍贷也算是老兵一枚了,坏账率和收益率在PPD都属于领先水平.趁着这次拍拍贷活动,给大家分享下,也可以帮助新人少走弯路. http://www.ppdai.com/zixun/zt_shidajijingongsi 如何看自己的坏账率        要比较不同人群的坏

利用R分析拍拍贷数据

拍拍贷数据集分析 ```{r echo=FALSE, message=FALSE, warning=FALSE} # 加载你最终使用的所有组件 # 在这个代码块的分析中. # 注意,在这个代码块中,将参数 "echo" 设为假. # This prevents the code from displaying in the knitted HTML output.这可以避免代码混入 HTML 输出显示. # 应当在文件中,对所有代码块设为 echo=FALSE . library(gg

第四届拍拍贷魔镜杯冠军方案分享

## 1.介绍 ? 队员:@回头是岸,@林萧, @观想,作者:@[一休](https://www.zhihu.com/people/qlmx-61/activities) ## 2. 赛题背景 资金流动性管理迄今仍是金融领域的经典问题.在互联网金融信贷业务中,单个资产标的金额小且复杂多样,对于拥有大量出借资金的金融机构或散户而言,资金管理压力巨大,精准地预测出借资金的流动情况变得尤为重要.本次比赛以互联网金融信贷业务为背景,以<现金流预测>为题,希望选手能够利用我们提供的数据,精准地预测资产组

杂碎知识点

第三方支付平台 举例     支付宝     国付宝   连连支付 (推荐) 易宝支付       p2p : 拍拍贷  陆金所  温商贷  玖富   360金融   点融网  原文地址:https://www.cnblogs.com/qinning/p/9961025.html

带你认识“货真价实”的P2P网贷风控

文/杨帆 说起P2P,多数金融圈内人士已经并不陌生.国内现有近千家的P2P网贷平台,动辄打出高息诱人的收益率宣传口号以及眼花缭乱的安全承诺.但是在这些浮华表面的背后,关于P2P的风控很多人仍然是一知半解,甚至不少长期P2P圈内的资深玩家对此也是"既没吃过猪肉,也没见过猪跑". 但是不可否认的是,作为一种跳过银行间接贷款融资模式的.一种在借款人和出借人之间直接发生借贷关系的业务模式,P2P业务的核心正在于团队自身的风险定价能力,即风险管理能力是P2P公司的核心竞争力.那么,P2P公司是如