spark1.统计句子中特定内容

    val logFile = "./README.md"  // Should be some file on your server.    val conf = new SparkConf().setAppName("Simple Application").setMaster("local")    val sc = new SparkContext(conf)    val logData = sc.textFile(logFile, 2).cache()//    val numAs = logData.filter(line => line.contains("h")).count()//    val numBs = logData.filter(line => line.contains("j")).count()    var  params = List("h","j","c","w");

    var searchAnylisay =   params.map(item => logData.filter(line => line.contains(item)).count() )

    println("searchAnylisay length  : %s,".format(searchAnylisay.length))

    searchAnylisay.foreach( x => println(x))
时间: 2024-12-22 08:52:54

spark1.统计句子中特定内容的相关文章

linux shell 脚本获取和替换文件中特定内容

1.从一串字符串中获取特定的信息 要求1:获取本机IP:menu.lst为系统镜象的IP配置文件,需要从中获取到本机IP信息(从文件获取信息) 1 timeout 1 2 default 0 3 4 title live 5 find --set-root /casper/vmlinuz 6 kernel /casper/vmlinuz boot=casper ignore_uuid showmounts ip=eth0,10.0.66.66,255.255.240.0,10.0.64.3 7

转载:js实现统计字符串中特定字符出现个数的方法

//js统计字符串中包含的特定字符个数 function getPlaceholderCount(strSource) {   //统计字符串中包含{}或{xxXX}的个数   var thisCount = 0;   strSource.replace(/\{[xX]+\}|\{\}/g, function (m, i) {     //m为找到的{xx}元素.i为索引     thisCount++;   });   return thisCount; }

统计句子中的不同单词个数(句子中含有标点符号,单词不区分大小写)

#include<iostream> #include<sstream> #include<string> #include<cctype> #include<set> using namespace std; set<string> dict; int main() { string s,buf; while(getline(cin,s)) { dict.clear(); for(int i=0;i<s.length();i+

C语言:统计输入的一行英文句子中的字母及单词个数,带注解!

//通过键盘输入一行英文句子,统计其中的英文字母和单词的数量,单词之间用空格分开(标点符号不算单词):#include<stdio.h> #include<string.h>#include<stdlib.h>main(){ char string[100];//根据拟从键盘输入的字串的长度需要适当调整,要避免输入的长度超出设定的范围.  char c; int i, num=0,sum=0,word=0; //定义 word 用来指示一个单词是不是结束或新单词是否开始

使用C#反序列化HTML并获取HTML中的特定内容

最近有一个项目,要把别人网站上一些数据扒下来.(其实就是一个查课表) 通过HTTP GET得到网页HTML源码倒是不难……难点在于这个网页内容非常混乱,有的时候格式都会发生变化. 我最开始用Python做,可以直接把网页建立Dom.最简单的方法还是用jQuery,轻轻松松就可以把网站上的特定内容处理掉. 但这个项目是用ASP.Net结合C#语言做的.我找了很多方案,都很费劲. 下面这几个方案都是挺费劲的示例……告诉大家不要学啊 方案一:根据网站建立对应的类.然后过XML反序列化 这个方法很作死,

统计文本中重复的内容

1.统计一个文本中重复的内容 package count; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileReader; import java.io.InputStreamReader; import java.util.HashMap; import java.util.Iterator; import java.util.Map;

三种方法实现统计一个句子中的字母数 (setdefault、defaultdict的使用)

最常见的方法,构建一个字典,对于句子中出现的字母,如果是首次出现,则值置为1,后后面再出现就加1. def letter_frequency_1(sentence): frequencies={} for letter in sentence: if letter not in frequencies: frequencies[letter]=1 else: frequencies[letter]+=1 return frequencies 对于setdefault方法,如果键在字典中,该方法的

Python统计列表中的重复项出现的次数的方法

前言 在实际工作和学习中,经常会遇到很多重复的数据,但是我们又必须进行统计,所及这里简单介绍一下统计列表中重复项的出现次数的简单方法. 实例 本文实例展示了Python统计列表中的重复项出现的次数的方法,是一个很实用的功能,适合Python初学者学习借鉴.具体方法如下: #方法1: mylist = [1,2,2,2,2,3,3,3,4,4,4,4] myset = set(mylist)  #myset是另外一个列表,里面的内容是mylist里面的无重复 项 for item in myset

javascript如何统计页面中标签的数量

javascript如何统计页面中标签的数量:本章节介绍一下如何统计页面中标签的数量,当然标签是可以重复的,虽然不常用,不过寄希望能够给大家带来或多或少的帮助.代码如下: <!DOCTYPE html> <html> <head> <meta charset=" utf-8"> <meta name="author" content="http://www.softwhy.com/" />