Python大数据:信用卡逾期分析

# -*- coding:utf-8 -*-
# 数据集成

import csv
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt  

#客户信息
basicInfo = pd.DataFrame.from_csv(‘datas/basicInfo_train.csv‘, header=0, sep=‘,‘, index_col=0, parse_dates=True, encoding=None, tupleize_cols=False, infer_datetime_format=False)
#历史还款记录
historyInfo = pd.DataFrame.from_csv(‘datas/history_train.csv‘, header=0, sep=‘,‘, index_col=0, parse_dates=True, encoding=None, tupleize_cols=False, infer_datetime_format=False)
#历史逾期情况
defaultInfo = pd.DataFrame.from_csv(‘datas/default_train.csv‘, header=0, sep=‘,‘, index_col=0, parse_dates=True, encoding=None, tupleize_cols=False, infer_datetime_format=False)
combineInfo = pd.concat([basicInfo,historyInfo,defaultInfo],axis=1)
#查看前10条数据
combineInfo[:10]
#性别分析
gender = combineInfo.groupby(‘SEX‘)[‘Default‘].mean().reset_index()
plt.xticks((0,1),(u"Male",u"Female"))
plt.xlabel(u"Gender")
plt.ylabel(u"Counts")
plt.bar(gender.SEX,gender.Default,0.1,color=‘green‘)
plt.show()
#教育程度与default值的相关性分析
edu = combineInfo.groupby(‘EDUCATION‘)[‘Default‘].mean()
plt.plot(edu)
plt.show()
#婚姻状况分析
marriage = combineInfo.groupby(‘MARRIAGE‘)[‘Default‘].mean().reset_index()
plt.bar(marriage.MARRIAGE,marriage.Default,0.5,color=‘green‘)
plt.show()

原文地址:https://www.cnblogs.com/blackice/p/8613012.html

时间: 2024-08-10 08:30:51

Python大数据:信用卡逾期分析的相关文章

Spark2.x+Python大数据机器学习视频课程

Spark2.x+Python大数据机器学习视频课程下载地址:https://pan.baidu.com/s/1imjFFStyjbRqyMtnboPgpQ 提取码: 32pb 本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型,帮助读者开发并部署高效可拓展的实时Spark解决方案. 第一章.搭建Spark 2.x+Python开发环境及基本开发入门 1.快速环境搭建:导入Windows7虚拟机至VMWARE及启动系统和远程桌面连接2.快速环境搭建:Windo

.NET批量大数据插入性能分析及比较

原文:.NET批量大数据插入性能分析及比较 数据插入使用了以下几种方式 1. 逐条数据插入2. 拼接sql语句批量插入3. 拼接sql语句并使用Transaction4. 拼接sql语句并使用SqlTransaction5. 使用DataAdapter6. 使用TransactionScope及SqlBulkCopy7. 使用表值参数 数据库使用SQL Server,脚本如下 create table TestTable(Id int ,Name nvarchar(20)) 程序中生成测试Dat

大数据和预测分析:数据是否越多越好?

Michael Berry对大数据的浮夸之词颇不以为然.身为旅游网站TripAdvisor的分析总监,他认为更多的数据未必带来正面的业务影响,比如大数据和预测分析的例子. “很多预测分析的应用其实并不需要所有的数据.”Berry在Predictive Analytics World做主题演讲时说到.因此,对于数据科学家来说,重要的不是想着怎样分析所有的数据,而是看通过哪些数据可以得出真正有价值的结果.那么到底该怎么办呢?“对于这个问题,没有直截了当的答案.”Berry说. 但是,通过每次增加一些

Python大数据与机器学习之NumPy初体验

本文是Python大数据与机器学习系列文章中的第6篇,将介绍学习Python大数据与机器学习所必须的NumPy库. 通过本文系列文章您将能够学到的知识如下: 应用Python进行大数据与机器学习 应用Spark进行大数据分析 实现机器学习算法 学习使用NumPy库处理数值数据 学习使用Pandas库进行数据分析 学习使用Matplotlib库进行Python绘图 学习使用Seaborn库进行统计绘图 使用Plotly库进行动态可视化 使用SciKit-learn处理机器学习任务 K-Means聚

《零起点Python大数据与量化交易》中文PDF+源代码

下载:https://pan.baidu.com/s/1JWmwMFHZV0mYAyAl-HkPyw 更多资料:http://blog.51cto.com/3215120 <零起点Python大数据与量化交易>中文PDF+源代码中文PDF,带目录和书签,655页,文字可以复制粘贴.配套源代码. 本书是国内关于Python大数据与量化交易的原创图书. 如图: 原文地址:http://blog.51cto.com/4820691/2311108

能源管控系统开发,BI大数据可视化管理分析平台开发

能源管理系统是以帮助工业生产企业在扩大生产的同时,合理计划和利用能源,降低单位产品能源消耗,提高经济效益为目的信息化管理系统.通过能源计划,能源监控,能源统计,能源消费分析,重点能耗设备管理,能源计量设备管理等多种手段,是企业管理者对企业的能源成本比重发展趋势有准确的掌握,并将企业的能源消费计划任务分解到各个单位,是节能工作责任明确,促进企业健康稳定发展.针对我国工业生产线中的在线计量.功效检测技术和节能控制技术严重缺乏等问题.研究开发工业生产线关键点在线电能计量.加工功效有效性分析技术,工业生

Spark2.x+Python大数据机器学习实战视频教程

提取码:6o68 课程学习:https://pan.baidu.com/s/13kOswCBRsnXBJWsPGBZDqQ 机器学习是近二十来年兴起的多领域学科,机器学习算法可从数据中建立模型,并利用模型对未知数据进行预测.机器学习技术不断进步,应用相当广泛,例如推荐引擎.定向广告.需求预测.垃圾邮件过滤.医学诊断.自然语言处理.搜索引擎.诈骗侦测.证券分析.视觉辨识.语音识别.手写识别等. 为什么近年来机器学习变得如此热门,各大公司都争相投入?因为机器学习需要大量数据进行训练.大数据的兴起带来

大数据技术之_18_大数据离线平台_01_项目开发流程+大数据常用应用/分析平台/业务处理方式+数据分析平台的数据来源+数据处理的流程+项目集群的规模+需求分析+技术架构/选型

一.项目开发流程1.1.项目调研1.2.项目需求分析1.3.方案设计1.3.1.概要设计1.3.2.详细设计1.4.编码实现1.4.1.单元测试1.4.2.集成测试1.4.3.压力测试1.4.4.用户测试二.大数据常用应用2.1.数据出售2.2.数据分析2.2.1.百度统计2.2.2.友盟2.2.3.其他统计分析组织2.3.搜索引擎2.3.1.solr2.3.2.luence2.3.3.luence & solr 对比2.4.推荐系统(高数)2.4.1.技术2.4.2.算法2.5.精准营销2.5

消费大数据公司“重分析-强应用”引领企业大数据营销

近日,消费大数据公司信柏科技树立"大数据-重分析-强应用"理念发布新一代大数据业务平台,以大数据为基础.软硬件结合的方案来辅助企业进行经营决策与精准营销.该大数据业务平台定位于"人群 ."内容"."行业 "与"地域"精准分析与挖掘,覆盖到企业营销中较为关注的用户特征画像.精准人群标定.定向数据采集内容监听 .采集内容的关联分析.行业报告与市场动态.竞品分析.新店开张选址报告.指定地区常驻人群特征分析等业务,致力于成为

支付行业,如何通过日志大数据实现深度分析及风控

本文主要讲述针对支付行业,日志易产品如何通过日志大数据实现业务深度分析及风险控制.伴随新的支付方式出现,近年来移动支付蓬勃发展,如何分析.利用海量交易数据,已成为当前支付企业面对的巨大难题.日志作为数据的载体,蕴含着丰富的信息,传统的日志分析方式低效而固化,无法应对数据体量大.格式不统一.增长速度快的现状,在交易出现异常及失败时,更难以满足实时处理.快速响应的需求.本文讲述某支付公司采用日志易后,通过日志大数据实现业务深度分析及风险控制的实践经验. 图片来自:前瞻网 本次分享结合企业自身对支付行