1.大数据统计(原创)

大数据统计

1.项目需求,统计海量数据中某一参数的概率分布

2.实现过程

#!/usr/bin env python
# -*- coding:utf-8 -*-
import re

def preprocess(fileName, pattern):
    ‘‘‘
    将数据集进行预处理,比如取出RSSI那一列的数据
    :param fileName: 接收相对路径
    :param pattern:  接收正则表达式的模板
    :return:         返回Region of interest数据集
    ‘‘‘
    with open(fileName, ‘r‘, encoding=‘utf-8‘) as f, open(‘laterText.txt‘, ‘w‘, encoding=‘utf-8‘) as f2:
        for line in f:
            result = re.findall(pattern, line)    #‘.*(-\d{2}),‘
            if result:
                newContent = result[0] + ‘\n‘
                f2.write(newContent)
    return ‘laterText.txt‘

def sort(fileName):
    ‘‘‘
    将Region of interest数据集内容取出来放进一个列表
    再将列表进行排序,然后再对列表的内容进行统计
    :param fileName: ROI数据集的路径
    :return:
    ‘‘‘
    s1 = []
    s_result = []
    with open(fileName, ‘r‘, encoding=‘utf-8‘) as f:
        for line in f:
            line = line.split()[0]
            s1.append(line)

    s1 = sorted(s1)

    for i in s1:
        flage = False
        for j in s_result:
            if i in j:
                a, b = j.split(‘:‘)
                new_j = a + ‘:‘ + str(int(b) + 1)
                s_result.remove(j)
                s_result.append(new_j)
                flage = True
            else:
                continue

        if flage == False:
            new_str = i + ‘:‘ + ‘1‘
            s_result.append(new_str)
    return s_result

def finalText(list1):
    ‘‘‘
    将统计后的列表写入文件,结果更加直观
    :param list1: 统计之后的列表
    :return: True
    ‘‘‘
    with open(‘result.txt‘, ‘w‘, encoding=‘utf-8‘) as f2:
        for i in list1:
            new_line = i + ‘\n‘
            f2.write(new_line)
    return True

if __name__ == ‘__main__‘:
    inputFile = input(‘Enter a file path:‘)  # 输入文件的相对路径    例  trainText.csv
    pattern = input(‘Enter a re expression:‘) #输入正则表达式       例  .*(-\d{2}),
    laterText = preprocess(inputFile, pattern)  # laterText接收预处理文件的路径 ‘laterText.txt‘
    list1 = sort(laterText)  # 将预处理后的文件内容取出,放入列表进行排序并统计列表中各个元素出现的次数,并返回一个列表
    if finalText(list1):  # 将列表里面的元素放入一个result.txt里面
        print(‘统计完毕,结果参考result.txt‘)

  

3.Demo

-47:1
-48:2
-49:7
-50:7
-51:23
-52:22
-53:33
-54:58
-55:157
-56:81
-57:200
-58:149
-59:214
-60:269
-61:603
-62:256
-63:636
-64:427
-65:525
-66:585
-67:1233
-68:483
-69:1127
-70:654
-71:676
-72:735
-73:1133
-74:432
-75:766
-76:418
-77:411
-78:395
-79:519
-80:184
-81:321
-82:137
-83:146
-84:138
-85:128
-86:110
-87:96
-88:36
-89:38
-90:20
-91:7
-92:11
-93:1

  

时间: 2024-12-03 15:22:06

1.大数据统计(原创)的相关文章

1.python小项目:大数据统计

大数据统计 1.项目需求,统计海量数据中某一参数的概率分布 2.实现过程 #!/usr/bin env python # -*- coding:utf-8 -*- import re def preprocess(fileName, pattern): ''' 将数据集进行预处理,比如取出RSSI那一列的数据 :param fileName: 接收相对路径 :param pattern: 接收正则表达式的模板 :return: 返回Region of interest数据集 ''' with o

大数据统计笔记

# -*- coding: utf-8 -*- import pandas as pd import numpy as np import matplotlib.pyplot as plt import json s = pd.Series([1,3,5,np.nan,6,8]); print(s); s = pd.Series([1,3],["a","b"]); print(s); #循环查询日期范围内数据 dates = pd.date_range('20130

据大数据统计,就业薪资最高和最低的20个专业。

大数据统计薪酬网公布2018年中国内地大学毕业生薪酬排行榜TOP200,其中,清华大学2017届毕业生平均薪酬最高,达到9065元.北京大学和北京外国语大学分别位居第二和第三位,平均薪酬分别为9042元与9020元.榜单通过对包括39所985工程院校和112所211工程院校在内的近百所高校2017届.2015届.2013届本科毕业生进行调研(调研样本数量达到281万人),计算出了各高校毕业生的薪酬状况.位居前十的高校还包括上海交通大学.对外经济贸易大学.外交学院.复旦大学.浙江大学.同济大学.中

大数据统计脚本, 分城市订单统计

date_parameter <- "2016-08-01"start_date<-as.Date(date_parameter)dayCount_parameter = 1array = strsplit(as.character(start_date),"-")year = as.character(array[1])month=as.character(array[2]) hiveContext <- sparkRHive.init(sc)s

锤死虚假流量,还得从数据统计开始!

前段时间,一篇控诉微博大V虚假流量的公众号文章,刷爆了互联网人的朋友圈,在文中,作者说她选择了微博领域流量的头部机构进行广告投放,这个机构手持多个微博大号,一条微博投放的价格就有几十万,当事人提出先选择一个拥有380万粉丝博主,发布内含广告内容的原创VLOG视频,测试一下看看效果怎么样.而满怀等待的看着微博发出后,但是却惊诧愤怒地发现,视频的浏览量为353万,但是他们店铺的流量和成交数几乎为0! 沟通过后,对方推诿,于是就写文开骂,作者文中最后说因为合同问题,告不了对方,但是也要曝光出上一口气.

Spark大型项目实战:电商用户行为分析大数据平台

本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分析出来的数据,辅助公司中的PM(产品经理).数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务.最终达到用大数据技术来帮助提升公司的业绩.营业额以及市场占有率的目标. 1.课程研发环境 开发工具: Eclipse Linux:CentOS 6

大数据,只看这个就够了

2016年5月25日上午,由贵州省政府举办的以"大数据开启智能时代"为主题的中国大数据产业峰会在贵阳开幕,国务院总理李克强发表主旨演讲.腾讯集团马化腾,高通公司总裁Derek Aberle,百度公司李彦宏,微软全球陆奇,京东集团刘强东,阿里巴巴王坚,滴滴出行程维,HTC王雪红,戴尔Michael Dell等重要嘉宾出席会议并发言.至此,大数据发展已经上升到国家战略层次,其热度可见一斑.如图一为李克强总理发表讲话: 图一 自2016年起,大数据与人工智能,虚拟现实相继重新进入了我们的视线

大数据将对网络诈骗产生威慑力,360网络骗子地图备受关注

随着移动互联网的迅猛发展,这年头网络诈骗案例是越来越多了,那句"骗子太多,傻子不够用"的网络俗语形象的反映了网络诈骗的盛行.而在这种背景下,如何预防网络诈骗.保障网民权益就成为社会各界讨论的重要话题. 在笔者看来,预防网络诈骗需要多方协作,首先,网民自己应该增强安全防范意识,避免网络骗子有机可乘:其次,相关部门应该加强对网络诈骗的打击力度,提升其违法成本:其三,对互联网企业而言,也应该通过不断完善产品和服务,通过技术创新弥补网络漏洞,降低网络诈骗的发生率,基于这一点,最近360推出了中

国家统计局初尝大数据“甜头”

大数据时代已经悄悄来临,谁掌握了大数据,谁就可以抢占市场先机.自2012年以来,大数据已经成为一个浪潮儿,“大数据”即将成为“明日之星”.目前,我国各个行业,包括金融.电商.政府等都在使用大数据.大数据帮助政府企业等解决了及其多的海量数据,可视化的效果还帮助他们更加清晰的分析局面,做出及时有效的决策. 一.亲身体验大数据 大数据澎湃的浪潮,在人们不经意间,以迅雷不及掩耳之势汹涌而来.反应迅速的中国政府统计,真诚而执着地追随着大数据发展的脚步,一刻也不曾停歇. 不能否认,大数据应用是“一把手工程”