计算人口平均年龄

创建实验数据:

from pyspark import SparkContext

import random

OutputFile = "file:///usr/local/spark/mycode/exercise/people"

sc = SparkContext(‘local‘,‘createPeopleAgeData‘)

peopleAge = []

for i in range(1,1001):

rand = random.randint(1,100)

peopleAge.append(str(i)+" "+str(rand))

RDD = sc.parallelize(peopleAge)

RDD.saveAsTextFile(OutputFile)

from pyspark import SparkContext

#配置sc

sc = SparkContext(‘local‘,‘CountAverAge‘)

#创建RDD 读入数据

RDD = sc.textFile("file:///usr/local/spark/mycode/exercise/peopleAge.txt")

#得到数据总条数

Count =RDD.count()

#对数据进行切割,只取年龄部分,然后把年龄字符串转成Int,然后用reduce函数累加

Average = RDD.map(lambda line : line.split(" ")[1]).map(lambda a: int(a)).reduce(lambda a,b :(a+b))

print(Count)

print(Average)

print("平均年龄为:{0}".format(Average / Count))

原文地址:https://www.cnblogs.com/SoftwareBuilding/p/9473533.html

时间: 2024-11-09 18:46:30

计算人口平均年龄的相关文章

[spark程序]统计人口平均年龄(本地文件)(详细过程)

一.题目描述 (1)编写Spark应用程序,该程序可以在本地文件系统中生成一个数据文件peopleage.txt,数据文件包含若干行(比如1000行,或者100万行等等)记录,每行记录只包含两列数据,第1列是序号,第2列是年龄.效果如下: 1 89 2 67 3 69 4 78 (2)编写Spark应用程序,对本地文件系统中的数据文件peopleage.txt的数据进行处理,计算出所有人口的平均年龄. 二.实现 1.生成数据文件peopleage.txt 1)创建程序的目录结构 创建一个存放代码

[spark程序]统计人口平均年龄(HDFS文件)(详细过程)

一.题目描述 (1)请编写Spark应用程序,该程序可以在分布式文件系统HDFS中生成一个数据文件peopleage.txt,数据文件包含若干行(比如1000行,或者100万行等等)记录,每行记录只包含两列数据,第1列是序号,第2列是年龄.效果如下: 1 89 2 67 3 69 4 78 (2)请编写Spark应用程序,对分布式文件系统HDFS中的数据文件peopleage.txt的数据进行处理,计算出所有人口的平均年龄. 二.实现 1.在分布式文件系统HDFS中生成一个数据文件peoplea

计算概论(A)/基础编程练习2(8题)/1:求平均年龄

1 #include<stdio.h> 2 int main() { 3 // 声明与初始化 4 int n, count=1, s=0, age=0; 5 6 // 输入学生人数 7 scanf("%d", &n); 8 9 // 循环读入 加和 10 while(count<=n) { 11 scanf("%d",&age); 12 s+=age; 13 count++; 14 } 15 16 // 计算平均年龄输出 17 pr

Openjudge-计算概论(A)-求平均年龄

描述: 班上有学生若干名,给出每名学生的年龄(整数),求班上所有学生的平均年龄,保留到小数点后两位. 输入第一行有一个整数n(1<= n <= 100),表示学生的人数.其后n行每行有1个整数,表示每个学生的年龄,取值为15到25.输出输出一行,该行包含一个浮点数,为要求的平均年龄,保留到小数点后两位.样例输入 2 18 17 样例输出 17.50 提示要输出浮点数.双精度数小数点后2位数字,可以用下面这种形式: printf("%.2f", num);来源2005~200

求平均年龄

总时间限制:  1000ms 内存限制:  65536kB 描述 班上有学生若干名,给出每名学生的年龄(整数),求班上所有学生的平均年龄,保留到小数点后两位. 输入 第一行有一个整数n(1<= n <= 100),表示学生的人数.其后n行每行有1个整数,表示每个学生的年龄,取值为15到25. 输出 输出一行,该行包含一个浮点数,为要求的平均年龄,保留到小数点后两位. 样例输入 2 18 17 样例输出 17.50 提示 要输出浮点数.双精度数小数点后2位数字,可以用下面这种形式: printf

C#根据身份证号码,计算生日、年龄、性别

朋友谈及身份证相关的信息,才了解到原来省份证号码中包含了年龄和性别. 这样在数据库中,就不必单独留字段存放它们了(不过,要根据具体情况来,要是读取频率较高,还是单独列出为好),这样顺带解决了年龄变更的问题. 程序仅仅为了实现这个功能,里面还是需要数据验证的,用户输入的信息,毕竟在猿类看来,都是“非法的”.废话不多说了,贴上我写的程序,还请路过的大神斧正: using System; using System.Collections.Generic; using System.Linq; usin

原创:一个由计算采购平均单价引发的学案【第二季】

原创:一个由计算采购平均单价引发的学案[第二季] 背景:                    上集讲到接到朋友请求,要统计2012年每月的平均采购单价,按要求统计完,发给他之后:刚刚抽了根烟,朋友说还有2013和2014年的也要统计:问我能否把方法告诉他,考虑到sumpoduct函数用起来稍有些复杂,担心电话里说不清楚,就没有讲: 想想帮人就帮到底,干脆就帮他把2013和2014年的也直接帮他统计好了,发给了他: 启发:                    后来想到这个案例还是蛮经典的,也是

数据分析小实践:统计每个国家存在心理健康问题的平均年龄

# -*- coding:utf-8 -*- """ 统计每个国家存在心理健康问题的平均年龄 """ import csv import matplotlib.pyplot as plt import numpy as np import matplotlib data_depth = "./data/survey.csv" dict = {} result = {} matplotlib.use('qt4agg')#指定默认

//输入学生人数,挨个输入姓名,身高,年龄,求平均年龄,然后按身高降序排列输出

13:52:49N U L L 2014/12/19 13:52:49using System;using System.Collections;using System.Collections.Generic;using System.Linq;using System.Text; namespace _1120_1210{    class JieGouTi    {        //输入学生人数,挨个输入姓名,身高,年龄,求平均年龄,然后按身高降序排列输出        public s