python 数据分类

#!/usr/bin/env python
# coding: utf-8

import six

def sort_items_by_key(items, key):
    result = {}
    for k, v in key.items():
        if isinstance(v, (six.string_types, six.integer_types)):
            tmp = filter(lambda x: x.get(k) == v, items)
            result.setdefault(v, []).extend(tmp)
        elif isinstance(v, (list, set, tuple)):
            for vv in v:
                tmp = filter(lambda x: x.get(k) == vv, items)
                result.setdefault(vv, []).extend(tmp)
    return result

def test_items_key():
    items = [
        {"id": 1, "name": "atom", "age": 25},
        {"id": 2, "name": "shylock", "age": 26},
        {"id": 3, "name": "john", "age": 26}
    ]

    key = {"id": [1,2,3], "age": 26}

    print(sort_items_by_key(items, key))

if __name__ == "__main__":
    test_items_key()
output:
    {1: [{‘age‘: 25, ‘id‘: 1, ‘name‘: ‘atom‘}], 26: [{‘age‘: 26, ‘id‘: 2, ‘name‘: ‘shylock‘}, {‘age‘: 26, ‘id‘: 3, ‘name‘: ‘john‘}], 3: [{‘age‘: 26, ‘id‘: 3, ‘name‘: ‘john‘}], 2: [{‘age‘: 26, ‘id‘: 2, ‘name‘: ‘shylock‘}]}
时间: 2024-12-29 23:15:50

python 数据分类的相关文章

将基因组数据分类并写出文件,python,awk,R data.table速度PK

由于基因组数据过大,想进一步用R语言处理担心系统内存不够,因此想着将文件按染色体拆分,发现python,awk,R 语言都能够非常简单快捷的实现,那么速度是否有差距呢,因此在跑几个50G的大文件之前,先用了244MB的数据对各个脚本进行测试,并且将其速度进行对比. 首先是awk处理,awk进行的是逐行处理,具有自己的语法,具有很大的灵活性,一行代码解决,用时24S, 1 #!/usr/bin/sh 2 function main() 3 { 4 start_tm=date 5 start_h=`

Python基本数据分类方式

一. 内存模型 依据变量在内存中的组织分类 Python的类型, 就象绝大多数其它语言一样,能容纳一个或多个值.一个能保存单个字面对象的类型我们称它为原子或标量存储,那些可容纳多个对象的类型,我们称之为容器存储.(容器对象有时会在文档中被称为复合对象,不过这些对象并不仅仅指类型,还包括类似类实例这样的对象) 存储模型 分类                      Python 类型          标量/原子类型 数值(所有的数值类型)字符串(全部是文字)            容器类型 

华为机试题-数据分类处理/python实现

题目描述 信息社会,有海量的数据需要分析处理,比如公安局分析身份证号码. QQ 用户.手机号码.银行帐号等信息及活动记录. 采集输入大数据和分类规则,通过大数据分类处理程序,将大数据分类输出. 输入描述: 一组输入整数序列I和一组规则整数序列R,I和R序列的第一个整数为序列的个数(个数不包含第一个整数):整数范围为0~0xFFFFFFFF,序列个数不限 输出描述: 从R依次中取出R<i>,对I进行处理,找到满足条件的I<j>: I<j>整数对应的数字需要连续包含R<

机器学习系列(9)_机器学习算法一览(附Python和R代码)

本文资源翻译@酒酒Angie:伊利诺伊大学香槟分校统计学同学,大四在读,即将开始计算机的研究生学习.希望认识更多喜欢大数据和机器学习的朋友,互相交流学习. 内容校正调整:寒小阳 && 龙心尘 时间:2016年4月 出处:http://blog.csdn.net/han_xiaoyang/article/details/51191386 http://blog.csdn.net/longxinchen_ml/article/details/51192086 声明:版权所有,转载请联系作者并注

机器学习三 -- 用Python实现K-近邻算法

Python语言实现机器学习的K-近邻算法 写在前面 额...最近开始学习机器学习嘛,网上找到一本关于机器学习的书籍,名字叫做<机器学习实战>.很巧的是,这本书里的算法是用Python语言实现的,刚好之前我学过一些Python基础知识,所以这本书对于我来说,无疑是雪中送炭啊.接下来,我还是给大家讲讲实际的东西吧. 什么是K-近邻算法? 简单的说,K-近邻算法就是采用测量不同特征值之间的距离方法来进行分类.它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即

python机器学习《入门》

写在前面的废话: 好吧,不得不说鱼C的markdown文本编辑器挺不错的,功能齐全.再次感谢小甲鱼哥哥的python视频让我去年大三下学期的时候入门了编程,爱上了编程这门语言,由于是偏冷门的统计学,在实习以后就决定把方向放在数据挖掘方面了,越来越发现专业课的重要性.在大家都忙着参加各种培训的日子里面,我就在去年寒冷的冬天把甲鱼哥的python视频一字不落的看完了:现在,在别人拼命参加校招的日子里,我就来学习“机器学习”这里面的算法了(ps:工科学校的理科妹子表示很难找到数据分析工作,人家只要研究

利用 Python 练习数据挖掘

覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具. 第一节 介绍 数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式.它使用广泛,并且是众多应用的技术基础. 本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具.近些年来,Python在开发以数据为中心的应用中被用的越来越多.感谢大型科学计算社区的支持以及大大丰富的数据分析函数库.尤其是,我们可以看到如何: ? 导入和可视化数据 ? 数据分类 ? 使用回归分析和相关测量法发现数据之间的关系 ? 数据降维

&lt;转&gt;机器学习系列(9)_机器学习算法一览(附Python和R代码)

转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习. – 埃里克 施密特(谷歌首席执行官) 当计算从大型计算机转移至个人电脑再转移到云的今天,我们可能正处于人类历史上最关键的时期.之所以关键,并不是因为已经取得的成就,而是未来几年里我们即将要获得的进步和成就. 对我来说,如今最令我激动的就是计算技术和工具的普及,从而带

机器学习经典算法详解及Python实现--决策树(Decision Tree)

(一)认识决策树 1,决策树分类原理 近来的调查表明决策树也是最经常使用的数据挖掘算法,它的概念非常简单.决策树算法之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它是如何工作的.直观看上去,决策树分类器就像判断模块和终止块组成的流程图,终止块表示分类结果(也就是树的叶子).判断模块表示对一个特征取值的判断(该特征有几个值,判断模块就有几个分支). 如果不考虑效率等,那么样本所有特征的判断级联起来终会将某一个样本分到一个类终止块上.实际上,样本所有特征中有一些特征