大数据统计笔记

# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import json

s = pd.Series([1,3,5,np.nan,6,8]);
print(s);
s = pd.Series([1,3],["a","b"]);
print(s);

#循环查询日期范围内数据
dates = pd.date_range(‘20130101‘,periods=6);
print(dates);

df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list(‘ABCD‘))

print("LIMIT:============");
print(df.head(3));
print(df.tail(3));

print("反转XY显示 :============");
print(df.T);

#排序
#df.sort_index(axis=1, ascending=False)
#df.sort(columns=‘B‘)

########################选择器#############################
print("指定列 :============");
print(df[[‘A‘,‘B‘]]);

print("df[行范围,列范围]:============");
print(df[0:3]);

print("指定索引主键 :============");
print(df[‘20130103‘:‘20130104‘]);

print("布尔过滤 :============");
print(df[df.A>0.5]);

#print(df[0:3,0:1]);

########################距阵操作 #############################
print("距阵操作 :============");
print(df*2);
print(np.exp(df));
########################TABLE 元素#############################

#以二维数组显示
#df.values

#列描述
#df.columns

#索引
#df.index
#对象类型
#df.dtypes

print("字典(JSON)转换距阵 :============");
sdata = {‘Ohio‘: 35000, ‘Texas‘: 71000, ‘Oregon‘: 16000, ‘Utah‘: 5000};
df = pd.Series(sdata);
print(df);

sdata = [{‘Ohio‘: 35000, ‘Texas‘: 71000, ‘Oregon‘: 16000, ‘Utah‘: 5000}];
df = pd.DataFrame(sdata);
df.columns = [‘Ohio‘, ‘Texas‘, ‘Oregon‘, ‘Utah‘];
print(df);
df = df.fillna(0) #将缺失值都替换为0

#入门
#http://pandas.pydata.org/pandas-docs/stable/10min.html
#http://pda.readthedocs.org/en/latest/chp5.html
#blog
#http://cloga.info/#wat_e_eb3d32d8-f59a-4a08-bf96-6f706d89c097_zss_

#大数据
#http://www.17bigdata.com/?cat=22
#优化
#http://1.aisensiy.sinaapp.com/2014/03/%E6%9C%80%E8%BF%91%E4%BD%BF%E7%94%A8-pandas-%E7%9A%84%E6%80%BB%E7%BB%93/
df.to_csv(‘E:\\py\\foo.csv‘)

######################JSON###########################

print("josn====================");
j = [{‘0‘:{"a":"a"},‘1‘:{"b":"b"}}];
elevations = json.dumps(j);
df = pd.read_json(elevations );
print(df);

大数据统计笔记

时间: 2024-10-11 22:32:15

大数据统计笔记的相关文章

1.大数据统计(原创)

大数据统计 1.项目需求,统计海量数据中某一参数的概率分布 2.实现过程 #!/usr/bin env python # -*- coding:utf-8 -*- import re def preprocess(fileName, pattern): ''' 将数据集进行预处理,比如取出RSSI那一列的数据 :param fileName: 接收相对路径 :param pattern: 接收正则表达式的模板 :return: 返回Region of interest数据集 ''' with o

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

1.python小项目:大数据统计

大数据统计 1.项目需求,统计海量数据中某一参数的概率分布 2.实现过程 #!/usr/bin env python # -*- coding:utf-8 -*- import re def preprocess(fileName, pattern): ''' 将数据集进行预处理,比如取出RSSI那一列的数据 :param fileName: 接收相对路径 :param pattern: 接收正则表达式的模板 :return: 返回Region of interest数据集 ''' with o

据大数据统计,就业薪资最高和最低的20个专业。

大数据统计薪酬网公布2018年中国内地大学毕业生薪酬排行榜TOP200,其中,清华大学2017届毕业生平均薪酬最高,达到9065元.北京大学和北京外国语大学分别位居第二和第三位,平均薪酬分别为9042元与9020元.榜单通过对包括39所985工程院校和112所211工程院校在内的近百所高校2017届.2015届.2013届本科毕业生进行调研(调研样本数量达到281万人),计算出了各高校毕业生的薪酬状况.位居前十的高校还包括上海交通大学.对外经济贸易大学.外交学院.复旦大学.浙江大学.同济大学.中

大数据学习笔记1--hadoop简介和入门

Hadoop简介: 分布式.可扩展.可靠的.分布式计算框架. 组件: common:公共组件 hdfs:分布式文件系统 yarn:运行环境 mapreduce:mr计算模型 生态系统: Ambari:操作界面 avro:通用的序列化机制.与语言无关 cassandra:数据库 chukwa:数据收集系统 hbase:分布式大表数据库 hive:基于sql的分析系统 matout:机器学习算法库 pig:脚本语言 spark:快速通用的计算引擎,主要用于迭代计算 tez:数据流框架 zookeep

【大数据论文笔记】大数据系统和分析技术综述

1.大数据处理与系统   简介 特征 典型应用 代表性的处理系统 适用场景 批量数据处理系统 首要任务:1.利用批量数据挖掘合适的模式2.得出具体的含义3.制定明智的决策4.做出有效的应对措施5.实现业务目标 1.数据体量巨大2.数据精确度高3.数据价值密度低 1.互联网领域:      a.社交网络      b.电子商务      c.搜索引擎2.安全领域      a.IT安全      b.欺诈检测      c.识别恶意软件和网络攻击模式3.公共服务领域      a.能源(eg.石油

大数据学习笔记

转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine 大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐.本文将讲述Hadoop系统中的一个新成员:Impala. Impala架构分析 Impala是Cloudera公司主导开发的新型查询系统,它提供SQL 语义,能查询存储在Hadoop的HDFS和H

大数据学习笔记7·城市计算(1)

前言 众所周知,快速的城市化使得很多人的生活变得现代化,同时也产生了很多挑战,如交通拥挤.能源消耗和空气污染. 城市的复杂性使得应对这些挑战看起来几乎是不可能的.近来,传感技术和大规模计算基础设施的进步产生了各种各样的大数据,从社会化媒体数据到交通数据,从地理数据到气象数据.如果使用得当,我们可以使用这些数据去应对城市中面临的各种挑战. 受到这个机会的激励,我们提出了城市计算的解决方案.它把城市传感.城市数据管理.城市数据分析和服务提供变成一个对人的生活.城市运行系统和环境进行不断重复但不显眼的

大数据学习笔记2--hdfs工作原理及源码分析

windows下配置hadoop hadoop 安装包解压,路径不要有特殊字符 lib和bin直接解压出来的不可用,需要自己重新编译 配置环境变量:HADOOP_HOME,path中添加:bin目录 namenode 整个文件系统的管理节点.它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表.接收用户的操作请求. 响应客户端的请求,上传文件: client申请上传文件,namenode查看元数据信息,查看客户端申请的路径是否已存在 namenode返回可用的datan