PyCon 2014:机器学习应用占据Python的半壁江山

来自http://www.infoq.com/cn/news/2014/07/pycon-2014

今年的PyCon于4月9日在加拿大蒙特利尔召开,凭借快速的原型实现能力, Python在学术界得到了广泛应用。最近其官方网站发布了大会教程部分的视频和幻灯片,其中有很多(接近一半数量)跟数据挖掘和机器学习相关的内容,本文对此逐一介绍。

如何形式化一个科学问题然后用Python进行分析

目前有很多很强大Python数据挖掘库,比如Python语言的交互开发环境IPython,Python机器学习库Scikit-learn和网络库NetworkX等。但是却没有一个教程告诉人们该如何将自己的问题很好的形式化处理,从而用科学的方法来逐步完成数据挖掘过程。本教程的作者就曾经经历了这么一个痛苦的过程,因此愿意为更多的爱好者贡献自己的力量。这个教程主要针对那些对数据分析感兴趣但又不知从何下手的人们。

机器学习入门

非常初级的一个讲稿,介绍了机器学习相关的基本概念,如什么是模型,还有机器学习的基本步骤:设定目标和评测标准、收集和清洗数据、探索和分析、训练模型、测试模型。作者以线性模型为例子给出了Python语言环境下使用Scikit-learn库进行机器学习的方法最后作者介绍了机器学习的应用实例如手写体识别、搜索引擎、Facebook朋友推荐、欺诈检测、天气预测、人脸识别等等

贝叶斯统计学习初步

贝叶斯统计模型变得越来越普遍和重要,但是对于初学者来讲,还是缺少入门教程。本教程旨在为Python开发人员提供一个交互式的入门材料。教程首先会用几个简单的程序展示贝叶斯统计学习的概念,然后将其应用到几个具体的例子中。教程的材料来自奥莱利出版社的Think Bayes。

信息检索初步

在信息如此泛滥的时代,如何高效的获取有用的信息,是很多人经常思考的问题。本教程就教我们如何从无到有编程实现一个搜索引擎,来获取自己所需要的数据。教程以一个项目的形式存在,先给我们介绍一些搜索的简单理论,然后教我们使用Whoosh库写一个索引和检索维基百科文档的代码,让我们从这个过程中学到如何在遍布噪声的数据中找到自己想要的数据。

用Scikit-learn库探索机器学习

机器学习是计算机科学的重要分支,关注于如何利用之前观察到的数据做出对未来数据的预测。机器学习技术在多个领域都有广泛而深入的应用,如搜索引擎优化、股票价格预测甚至对宇宙本身的研究。这个教程提供了机器学习核心概念的介绍,从监督和非监督学习这两个宽泛的分类开始,逐步深入到分类、回归、聚类和降维等核心技术,进而讲解比较常用和经典的具体算法,以及特征选择、模型有效性验证等高级内容。在学完这个教程以后,参与者会对机器学习本身和Scikit-learn库有个比较清楚的认识。整个过程使用Scikit-learn库的API进行,都配有真实数据上的应用实例。Scikit-learn机器学习库的优点在于整洁、统一、文档详实的编程接口,底层还实现了大量经典和实用的机器学习算法。

在IPython Notebook程序中挖掘社会网络API

社交网站如Twitter、Facebook、领英网等等,除了可以服务普通用户的日常需求以外,还有着巨大的研究价值。本教程以社会网络数据挖掘一书中的例子为切入点,逐步讲解如何探索和挖掘社交网站背后的高价值数据。

教程将整个挖掘过程分为四个步骤,如下:

  • 假设:数据科学实验的首要环节,需要设定一个目标,回答一个问题或者验证一个假设;
  • 获取:获取和存储验证过程中所需要的数据;
  • 分析:使用基本的数据挖掘技术来分析数据;
  • 总结:以简单明了的形式展示挖掘结果;

整个教程以基于Vagrant虚拟机的形式存在,预装了所需的第三方软件,参与者几乎是不费丝毫力气就可以开始,这让他们更加聚焦于数据挖掘本身。

用Python参加Kaggle数据挖掘竞赛

本教程旨在让数据挖掘爱好者了解并参与到数据挖掘竞赛中。首先会快速的通过一些简单的竞赛问题和数据集来学习一些经典算法。然后深入分析Kaggle竞赛,选择正确的特征,编写正确的算法,最后完成结果的提交。在学习时长大约三个小时的教程以后,爱好者能对排名前五的挖掘算法有一个很好的了解,并且将其中一两个应用与Kaggle的竞赛题上,比如Facebook的招聘竞赛、GE飞行优化竞赛以及StumbleUpon分类竞赛。

使用Python构建数据爬虫系统

本教程旨在教会Python开发者一些初步的数据爬虫技术,讲到了三个主流爬虫系统,然后交互式地展示如何使用它们。学习了本教程以后,我们就可以爬取一些不同内容的网站,甚至自动提交表单数据,然后会介绍爬取API、CSV和XML格式的数据。教程的最后会介绍当前业界爬虫系统的最佳实践。

社会学家的Python语言应用

随着大数据时代的到来,越来越多的传统的棘手的社会学问题可以通过大数据进行验证。本教程以世界银行的数据集为例,对整个过程进行详细的讲解:首先会展示如何从CSV格式文件中将数据倒入,然后利用Matplotlib绘图库将数据可视化,并展示时间序列数据。

如何使用Pydata构建一个轻量级推荐系统

推荐系统是一个通过分析大量交易数据或者用户数据来为用户推荐相关产品、信息和内容的软件系统,在人们的日常生活中应用非常广泛。本教程介绍推荐系统的概念和定义,然后以交互的方式构建一个轻量级推荐系统。在这个过程中,我们会学习Python科学计算相关的库NumPy和pandas。

画图与可视化利器:Matplotlib

很多人第一次听说Matplotlib的时候,都觉得用它制作的图像太简单,生成之后还需要使用PhotoShop等工具进行美化。本教程旨在纠正这一错误认识,为我们展示如何通过Matplotlib的color、ticker、cm、axes等功能来逐步美化可视化结果。以一个实际的地理信息例子着手,通过绘制点和多边形,教程教我们如何设置Matplotlib图表的各个部分,尤其会着重讲解其绘制模型,包括子图、布局等,然后会讲解如何配制图表的标记、直线、标签字体、位置等等。

用机器学习制作个性化Hacker News阅读器

Hacker News,著名的Y Combinator出品的创业资讯网站,深受程序员的喜爱。然而网站的信息量对于个人来讲还是很多,因此,本文作者使用Scikit-learn机器学习库为自己构建了一个个性化的资讯选择器,达到了只看自己喜爱文章的目的。作者将机器学习的过程分为四部分:获取数据、处理数据、训练和调试模型、使用模型。首先他通过http request和lxml将网站数据获取到本地,然后提取其标题、提交人、排序、投票数目、评论等文字特征,以及是不是垃圾文章的标记。然后通过一些简单的自然语言处理技术如词袋(bag
of words)、n-grams、停用词等技术来提取输入模型的特征。最后采用Scikit-learn自带的支持向量机分类器来学习自己的喜好,并用输出的模型来预测新文章中自己喜欢的那些。

IPython深入探索:高效率交互和并行化

始于2001年的IPython项目,刚开始的时候只是一个更易用的Python命令行而已。过去的十几年中,它逐步发展成了包含众多强大功能的交互式开发环境。今天的IPython,由一个可执行用户代码的内核以及一个基于ZeroMQ消息队列的通信协议构成,这使得它能够同时支持多种客户端访问,如命令行中输入ipython命令得到的增强型python命令行,以及基于Qt的图形化界面,内置图片显示功能,还有一个基于Web的Notebook系统,包含丰富的文字、图标甚至数学公式的呈现能力。本教程以IPython的设计思想和架构入手,为我们讲解IPython高性能低延迟的并行计算环境。在这个环境中,计算进程间通过ZeroMQ消息队列通信,还对大数据如numpy数组的拷贝进行了优化。该环境可以通过交互方式操作,也可以运行在批量处理模式。

时间: 2024-08-07 04:09:58

PyCon 2014:机器学习应用占据Python的半壁江山的相关文章

机器学习算法与Python实践之(二)支持向量机(SVM)初级

机器学习算法与Python实践之(二)支持向量机(SVM)初级 机器学习算法与Python实践之(二)支持向量机(SVM)初级 [email protected] http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 在这一节我们主要是

机器学习算法与Python实践之(三)支持向量机(SVM)进阶

机器学习算法与Python实践之(三)支持向量机(SVM)进阶 机器学习算法与Python实践之(三)支持向量机(SVM)进阶 [email protected] http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 在这一节我们主要是

机器学习算法与Python实践之(四)支持向量机(SVM)实现

机器学习算法与Python实践之(四)支持向量机(SVM)实现 机器学习算法与Python实践之(四)支持向量机(SVM)实现 [email protected] http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 在这一节我们主要是

机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)

机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 这节学习的是逻辑回归(Logistic Regression),也算进入了比较正统的机器学习算法.啥叫正统呢?我概念里面机器学习算法一般是这样一个步骤: 1)对于一个问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等

【机器学习】多项式回归python实现

[机器学习]多项式回归原理介绍 [机器学习]多项式回归python实现 [机器学习]多项式回归sklearn实现 使用python实现多项式回归,没有使用sklearn等机器学习框架,目的是帮助理解算法的原理. 使用一个简单的数据集来模拟,只有几条数据. 代码 从数据集中读取X和y. 为X添加二次方项,用Z替换. 给Z添加 1 列,初始化为 1 ,用来求偏置项. 划分训练集和测试集. 将Z和y的训练集转换为矩阵形式. 和线性回归类似,使用正规方程法,先验证矩阵的可逆性. 去掉Z中全为1的列. 使

机器学习实战笔记(Python实现)-03-朴素贝叶斯

--------------------------------------------------------------------------------------- 本系列文章为<机器学习实战>学习笔记,内容整理自书本,网络以及自己的理解,如有错误欢迎指正. 源码在Python3.5上测试均通过,代码及数据 --> https://github.com/Wellat/MLaction -----------------------------------------------

机器学习三 -- 用Python实现K-近邻算法

Python语言实现机器学习的K-近邻算法 写在前面 额...最近开始学习机器学习嘛,网上找到一本关于机器学习的书籍,名字叫做<机器学习实战>.很巧的是,这本书里的算法是用Python语言实现的,刚好之前我学过一些Python基础知识,所以这本书对于我来说,无疑是雪中送炭啊.接下来,我还是给大家讲讲实际的东西吧. 什么是K-近邻算法? 简单的说,K-近邻算法就是采用测量不同特征值之间的距离方法来进行分类.它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即

1.2机器学习基础下--python深度机器学习

1. 机器学习更多应用举例: 人脸识别 2. 机器学习就业需求: LinkedIn所有职业技能需求量第一:机器学习,数据挖掘和统计分析人才 http://blog.linkedin.com/2014/12/17/the-25-hottest-skills-that-got-people-hired-in-2014/ 3.  深度学习(Deep Learning) 3.1 什么是深度学习? 深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加

机器学习基础:(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章.在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具.我会解释当使用统计模型时,通常将模型拟合在训练集上,以便对未被训练的数据进行预测. 在统计学和机器学习领域中,我们通常把数据分成两个子集:训练数据和测试数据,并且把模型拟合到训练数据上,以便对测试数据进行预测.当做到这一点时,可能会发生两种情况:模型的过度拟合或欠拟合.我们不希望出现这两种情况,因为这会影响模型的可预测性.我们有