[Spark][Python]Wordcount 例子

[[email protected] ~]$ hdfs dfs -cat cats.txt

The cat on the mat
The aardvark sat on the sofa
[[email protected] ~]$

mydata001=sc.textFile(‘cats.txt‘)

mydata002=mydata001.flatMap(lambda line: line.split(" "))

In [12]: mydata002.take(1)
Out[12]: [u‘The‘]

In [13]: mydata002.take(2)
Out[13]: [u‘The‘, u‘cat‘]

mydata003=mydata002.map(lambda word : (word,1))

In [10]: mydata003.take(1)
Out[10]: [(u‘The‘, 1)]

In [11]: mydata003.take(2)
Out[11]: [(u‘The‘, 1), (u‘cat‘, 1)]

mydata004 = mydata003.reduceByKey(lambda x,y : x+y)

In [15]: mydata004.take(1)
Out[15]: [(u‘on‘, 2)]

In [16]: mydata004.take(2)
Out[16]: [(u‘on‘, 2), (u‘mat‘, 1)]

In [17]: mydata004.take(3)
Out[17]: [(u‘on‘, 2), (u‘mat‘, 1), (u‘sofa‘, 1)]

时间： 2024-10-07 08:27:17

[Spark][Python]Wordcount 例子的相关文章

[Spark][Python]sortByKey 例子

[Spark][Python]sortByKey 例子: [[email protected] ~]$ hdfs dfs -cat test02.txt00002 sku01000001 sku93300001 sku02200003 sku88800004 sku41100001 sku91200001 sku331[[email protected] ~]$ mydata001=sc.textFile("test02.txt")mydata002=mydata001.map(lam

[Spark][Python]groupByKey例子

[Spark][Python]sortByKey 例子的继续: In [29]: mydata003.collect() Out[29]: [[u'00001', u'sku933'], [u'00001', u'sku022'], [u'00001', u'sku912'], [u'00001', u'sku331'], [u'00002', u'sku010'], [u'00003', u'sku888'], [u'00004', u'sku411']] In [30]: mydata00

[Spark][python]RDD的collect 作用是什么？

[Spark][Python]sortByKey 例子的继续 RDD的collect() 作用是什么? “[Spark][Python]sortByKey 例子”的继续 In [20]: mydata004.collect() Out[20]: [[u'00001', u'sku933'], [u'00001', u'sku022'], [u'00001', u'sku912'], [u'00001', u'sku331'], [u'00002', u'sku010'], [u'00003',

Spark Python 索引页

为了查找方便,建立此页 === RDD 基本操作: [Spark][Python]groupByKey例子

Spark(Python) 从内存中建立 RDD 的例子

Spark(Python) 从内存中建立 RDD 的例子: myData = ["Alice","Carlos","Frank","Barbara"]myRdd = sc.parallelize(myData)myRdd.take(2) ----In [52]: myData = ["Alice","Carlos","Frank","Barbara"

spark机器学习系列：（三）用Spark Python构建推荐系统

上一篇博文详细介绍了如何使用Spark Python进行数据处理和特征提取,本系列从本文开始,将陆续介绍用Spark Python对机器学习模型进行详细的探讨. 推荐引擎或许是最为大众所知的一种机器学习模型.人们或许并不知道它确切是什么,但在使用Amazon.Netflix.YouTube.Twitter.LinkedIn和Facebook这些流行站点的时候,可能已经接触过了.推荐是这些网站背后的核心组件之一,有时还是一个重要的收入来源. 推荐引擎背后的想法是预测人们可能喜好的物品并通过探寻物品

spark机器学习笔记：（五）用Spark Python构建分类模型（下）

声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmode=contents 博主简介:风雪夜归子(英文名:Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台,对数据.Machine Learning和Artificial Intelligence有兴趣的童鞋可以一起探讨哦,

fasttext的基本使用 java 、python为例子

fasttext的基本使用 java .python为例子今天早上在地铁上看到知乎上看到有人使用fasttext进行文本分类,到公司试了下情况在GitHub上找了下,最开始是c++版本的实现,不过有Java.Python版本的实现了,正好拿下来试试手, python情况: python版本参考,作者提供了详细的实现,并且提供了中文分词之后的数据,正好拿下来用用,感谢作者,代码提供的数据作者都提供了,点后链接在上面有百度盘,可下载,java接口用到的数据也一样: [html] view plai

spark 的 wordcount

记录spark的Wordcount小程序: 前提:hdfs已经打开创建一个name为wc.input的文件,上传到hdfs中的/user/hadoop/spark/中,内容如上图 [[email protected] hadoop-2.6.0-cdh5.4.0]# bin/hdfs dfs -put wc.input /user/hadoop/spark/ 上传 [[email protected] hadoop-2.6.0-cdh5.4.0]# bin/hdfs dfs