大数据统计笔记

# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import json

s = pd.Series([1,3,5,np.nan,6,8]);
print(s);
s = pd.Series([1,3],["a","b"]);
print(s);

#循环查询日期范围内数据
dates = pd.date_range(‘20130101‘,periods=6);
print(dates);

df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(‘ABCD‘))

print("LIMIT:============");
print(df.head(3));
print(df.tail(3));

print("反转XY显示 :============");
print(df.T);

#排序
#df.sort_index(axis=1, ascending=False)
#df.sort(columns=‘B‘)

########################选择器#############################
print("指定列 :============");
print(df[[‘A‘,‘B‘]]);

print("df[行范围,列范围]:============");
print(df[0:3]);

print("指定索引主键 :============");
print(df[‘20130103‘:‘20130104‘]);

print("布尔过滤 :============");
print(df[df.A>0.5]);

#print(df[0:3,0:1]);

########################距阵操作 #############################
print("距阵操作 :============");
print(df*2);
print(np.exp(df));
########################TABLE 元素#############################

#以二维数组显示
#df.values

#列描述
#df.columns

#索引
#df.index
#对象类型
#df.dtypes

print("字典(JSON)转换距阵 :============");
sdata = {‘Ohio‘: 35000, ‘Texas‘: 71000, ‘Oregon‘: 16000, ‘Utah‘: 5000};
df = pd.Series(sdata);
print(df);

sdata = [{‘Ohio‘: 35000, ‘Texas‘: 71000, ‘Oregon‘: 16000, ‘Utah‘: 5000}];
df = pd.DataFrame(sdata);
df.columns = [‘Ohio‘, ‘Texas‘, ‘Oregon‘, ‘Utah‘];
print(df);
df = df.fillna(0) #将缺失值都替换为0

#入门
#http://pandas.pydata.org/pandas-docs/stable/10min.html
#http://pda.readthedocs.org/en/latest/chp5.html
#blog
#http://cloga.info/#wat_e_eb3d32d8-f59a-4a08-bf96-6f706d89c097_zss_

#大数据
#http://www.17bigdata.com/?cat=22
#优化
#http://1.aisensiy.sinaapp.com/2014/03/%E6%9C%80%E8%BF%91%E4%BD%BF%E7%94%A8-pandas-%E7%9A%84%E6%80%BB%E7%BB%93/
df.to_csv(‘E:\\py\\foo.csv‘)

######################JSON###########################

print("josn====================");
j = [{‘0‘:{"a":"a"},‘1‘:{"b":"b"}}];
elevations = json.dumps(j);
df = pd.read_json(elevations );
print(df);

大数据统计笔记

时间： 2024-10-11 22:32:15

大数据统计笔记的相关文章

1.大数据统计（原创）

大数据统计 1.项目需求,统计海量数据中某一参数的概率分布 2.实现过程 #!/usr/bin env python # -*- coding:utf-8 -*- import re def preprocess(fileName, pattern): ''' 将数据集进行预处理,比如取出RSSI那一列的数据 :param fileName: 接收相对路径 :param pattern: 接收正则表达式的模板 :return: 返回Region of interest数据集 ''' with o

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

1.python小项目：大数据统计

据大数据统计，就业薪资最高和最低的20个专业。

大数据统计薪酬网公布2018年中国内地大学毕业生薪酬排行榜TOP200,其中,清华大学2017届毕业生平均薪酬最高,达到9065元.北京大学和北京外国语大学分别位居第二和第三位,平均薪酬分别为9042元与9020元.榜单通过对包括39所985工程院校和112所211工程院校在内的近百所高校2017届.2015届.2013届本科毕业生进行调研(调研样本数量达到281万人),计算出了各高校毕业生的薪酬状况.位居前十的高校还包括上海交通大学.对外经济贸易大学.外交学院.复旦大学.浙江大学.同济大学.中

大数据学习笔记1--hadoop简介和入门

Hadoop简介: 分布式.可扩展.可靠的.分布式计算框架. 组件: common:公共组件 hdfs:分布式文件系统 yarn:运行环境 mapreduce:mr计算模型生态系统: Ambari:操作界面 avro:通用的序列化机制.与语言无关 cassandra:数据库 chukwa:数据收集系统 hbase:分布式大表数据库 hive:基于sql的分析系统 matout:机器学习算法库 pig:脚本语言 spark:快速通用的计算引擎,主要用于迭代计算 tez:数据流框架 zookeep

【大数据论文笔记】大数据系统和分析技术综述

1.大数据处理与系统简介特征典型应用代表性的处理系统适用场景批量数据处理系统首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标 1.数据体量巨大2.数据精确度高3.数据价值密度低 1.互联网领域: a.社交网络 b.电子商务 c.搜索引擎2.安全领域 a.IT安全 b.欺诈检测 c.识别恶意软件和网络攻击模式3.公共服务领域 a.能源(eg.石油

大数据学习笔记

转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine 大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐.本文将讲述Hadoop系统中的一个新成员:Impala. Impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL 语义,能查询存储在Hadoop的HDFS和H

大数据学习笔记7·城市计算(1)

前言众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的

大数据学习笔记2--hdfs工作原理及源码分析

windows下配置hadoop hadoop 安装包解压,路径不要有特殊字符 lib和bin直接解压出来的不可用,需要自己重新编译配置环境变量:HADOOP_HOME,path中添加:bin目录 namenode 整个文件系统的管理节点.它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表.接收用户的操作请求. 响应客户端的请求,上传文件: client申请上传文件,namenode查看元数据信息,查看客户端申请的路径是否已存在 namenode返回可用的datan