Python基本数据统计(二)

1. 便捷数据获取

  1.2 网络数据获取:

    1.2.1 urllib, urllib2, httplib, httplib2和正则表达式(python3中为urllib.request, http.client)

获取AXP近一年的股票数据

2. 数据准备和整理

3. 数据显示

4. 数据选择

  4.1 选择行

    4.1.1 索引

obj.ix[val

    4.1.2 切片

obj[‘xx‘:‘xxx‘]

  4.2 选择列

obj[‘xx‘]

obj.xx

  4.3 行、列  - 标签label ( loc )

In [64]: djidf.loc[1:5,]
Out[64]:
   code                      name lasttrade
1   AXP  American Express Company    76.200
2    BA        The Boeing Company   159.530
3   CAT          Caterpillar Inc.    94.580
4  CSCO                    思科系?公司    30.100
5   CVX       Chevron Corporation   115.600

In [65]: djidf.loc[:,[‘code‘,‘lasttrade‘]]
Out[65]:
    code lasttrade
0   AAPL   120.000
1    AXP    76.200
2     BA   159.530
3    CAT    94.580
...
29   XOM    85.890

obj.loc[x : xx, [‘y‘,‘yy‘] ]

  4.4 行和列的区域  - 标签label ( loc 和 at )

In [66]: djidf.loc[1:5,[‘code‘,‘lasttrade‘]]
Out[66]:
   code lasttrade
1   AXP    76.200
2    BA   159.530
3   CAT    94.580
4  CSCO    30.100
5   CVX   115.600

In [67]: djidf.loc[1,‘lasttrade‘]
Out[67]: ‘76.200‘

In [68]: djidf.at[1,‘lasttrade‘]
Out[68]: ‘76.200‘

obj.loc[x, ‘y‘]

  4.5 行、列和区域 ( iloc 和 iat )

In [69]: djidf.loc[1:5,[‘code‘,‘lasttrade‘]]
Out[69]:
   code lasttrade
1   AXP    76.200
2    BA   159.530
3   CAT    94.580
4  CSCO    30.100
5   CVX   115.600

In [70]: djidf.iloc[1:6,[0,2]]
Out[70]:
   code lasttrade
1   AXP    76.200
2    BA   159.530
3   CAT    94.580
4  CSCO    30.100
5   CVX   115.600

In [71]: djidf.loc[1,‘lasttrade‘]
Out[71]: ‘76.200‘

In [72]: djidf.at[1,‘lasttrade‘]
Out[72]: ‘76.200‘

In [73]: djidf.iloc[1,2]
Out[73]: ‘76.200‘

In [74]: djidf.iat[1,2]
Out[74]: ‘76.200‘

obj.iloc[ a:b, [c,d] ]

  4.5 条件筛选

In [77]: quotesdf[quotesdf.index >= ‘2016-12-20‘]
Out[77]:
                 open      close       high        low     volume
2016-12-20  74.681487  74.741230  75.179363  74.213482  3244900.0
...
2017-01-20  75.989998  76.199997  76.910004  75.389999  8382000.0

In [78]: quotesdf[(quotesdf.index >= ‘2016-12-20‘) & (quotesdf.close >=76)]
Out[78]:
                 open      close       high        low     volume
2017-01-04  75.260002  76.260002  76.550003  75.059998  4635800.0
...
2017-01-20  75.989998  76.199997  76.910004  75.389999  8382000.0

quotesdf[(quotesdf.index >= ‘2016-12-20‘) & (quotesdf.close >=76)]

5. 简单统计与处理

6. Grouping

7. Merge

时间: 2024-10-16 00:35:55

Python基本数据统计(二)的相关文章

Python基本数据统计

1. 便捷数据获取 1.1 本地数据获取:文件的打开,读写和关闭(另外的单独章节) 1.2 网络数据获取: 1.2.1 urllib, urllib2, httplib, httplib2 (python3中为urllib.request, http.client) 正则表达式(另外的单数章节) 1.2.2 通过matplotlib.finace模块获取雅虎财经上的数据 In [7]: from matplotlib.finance import quotes_historical_yahoo_

统计学习方法与Python实现(二)——k近邻法

统计学习方法与Python实现(二)——k近邻法 iwehdio的博客园:https://www.cnblogs.com/iwehdio/ 1.定义 k近邻法假设给定一个训练数据集,其中的实例类别已定.分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测.k近邻法不具有显式的学习过程,而实际上是利用训练数据集对特征空间进行划分,并作为其分类的模型.k近邻法的三个基本要素是 k值的选择.距离度量和分类决策规则. k近邻法的模型是将特征空间划分成一些称为单元的子空间,并且

Python基础(二)

Python基础(二) Python 运算符(算术运算.比较运算.赋值运算.逻辑运算.成员运算) 基本数据类型(数字.布尔值.字符串.列表.元组.字典.set集合) for 循环 enumrate range和xrange 编码与进制转换 Python 运算符 1.算术运算: 2.比较运算: 3.赋值运算: 4.逻辑运算:  5.成员运算: 基本数据类型 1.数字 int(整型) 在32位机器上,整数的位数为32位,取值范围为-2**31-2**31-1,即-2147483648-2147483

Python机器学习实战<二>:机器学习概述

1.机器学习的真实含义是利用数据来彰显数据背后的真实含义. 2.机器学习的一般用例:人脸识别.手写数字识别.垃圾邮件过滤.产品推荐等等. 3.机器学习的主要任务是分类,即将实例数据划分到合适的分类中.另一项任务是回归,主要用于预测数值型数据.分类和回归属于监督学习,之所以称为监督学习,是因为这类算法必须知道预测什么,即目标的分类信息.另一种机器学习方式是无监督学习,此时数据没有类别信息,也没有给定的目标.在无监督学习中,将数据集合分成由类似对象组成的多个类成为聚类,将寻找数据统计值的过程称为密度

python/MySQL练习题(二)

python/MySQL练习题(二) 21.查询各科成绩前三名的记录:(不考虑成绩并列情况) 1 select score.sid,score.course_id,score.num,T.first_num,T.second_num from score left join 2 ( 3 select 4 sid, 5 (select num from score as s2 where s2.course_id = s1.course_id order by num desc limit 0,1

python数据处理技巧二

python数据处理技巧二(掌控时间) 首先简单说下关于时间的介绍其中重点是时间戳的处理,时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数.这里这个知识只做了解,接下来会用python三个关于时间的模块来定位时间,计算时间等. 首先让我们来验证下时间戳及怎么换算时间戳 1.要使用time方法首先要导入方法包import time 2.获取当前时间戳的方法是print time.time()就可以得到当前执行这个方法

Python爬虫进阶二之PySpider框架安装配置

关于 首先,在此附上项目的地址,以及官方文档 PySpider 官方文档 安装 1. pip 首先确保你已经安装了pip,若没有安装,请参照 pip安装 2. phantomjs PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API.它全面支持web而不需浏览器支持,其快速.原生支持各种Web标准:DOM 处理.CSS 选择器.JSON.Canvas 和 SVG. PhantomJS 可以用于页面自动化.网络监测.网页截屏以及无界面测试等. 安装 以上附有官方安

Python之路【第三篇】:Python基础(二)

Python之路[第三篇]:Python基础(二) 内置函数 一 详细见python文档,猛击这里 文件操作 操作文件时,一般需要经历如下步骤: 打开文件 操作文件 一.打开文件 1 文件句柄 = file('文件路径', '模式') 注:python中打开文件有两种方式,即:open(...) 和  file(...) ,本质上前者在内部会调用后者来进行文件操作,推荐使用 open. 打开文件时,需要指定文件路径和以何等方式打开文件,打开后,即可获取该文件句柄,日后通过此文件句柄对该文件操作.

Python基础之二:数据类型

四.Python数据类型 数字 字符串 列表 元祖 字典 1.数字类型 整型 表示范围:-2147483648到2147483647,超过该范围的会被当作长整型 示例:num=123 type(num)-返回<type 'int'>,用来测试变量的类型 长整型 表示范围:任意大整数,后跟L或l与整型区别 示例:num=1l type(num)-返回<type 'long'> 浮点型 示例:num=12.0 type(num) -返回<type'float'> 复数型 示