Scala 运算符和集合转换操作示例

Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作。

一、常用操作符(操作符其实也是函数)

++ ++[B](that: GenTraversableOnce[B]): List[B] 从列表的尾部添加另外一个列表++: ++:[B >: A, That](that: collection.Traversable[B])(implicit bf: CanBuildFrom[List[A], B, That]): That 在列表的头部添加一个列表+: +:(elem: A): List[A] 在列表的头部添加一个元素:+ :+(elem: A): List[A] 在列表的尾部添加一个元素:: ::(x: A): List[A] 在列表的头部添加一个元素::: :::(prefix: List[A]): List[A] 在列表的头部添加另外一个列表:\ :[B](z: B)(op: (A, B) ⇒ B): B 与foldRight等价
val left = List(1,2,3)
val right = List(4,5,6)

//以下操作等价
left ++ right   // List(1,2,3,4,5,6)
left ++: right  // List(1,2,3,4,5,6)
right.++:(left)    // List(1,2,3,4,5,6)
right.:::(left)  // List(1,2,3,4,5,6)

//以下操作等价
0 +: left    //List(0,1,2,3)
left.+:(0)   //List(0,1,2,3)

//以下操作等价
left :+ 4    //List(1,2,3,4)
left.:+(4)   //List(1,2,3,4)

//以下操作等价
0 :: left      //List(0,1,2,3)
left.::(0)     //List(0,1,2,3)
看到这里大家应该跟我一样有一点晕吧,怎么这么多奇怪的操作符,这里给大家一个提示,任何以冒号结果的操作符,都是右绑定的,即 0 :: List(1,2,3) = List(1,2,3).::(0) = List(0,1,2,3) 从这里可以看出操作::其实是右边List的操作符,而非左边Int类型的操作符

二、常用变换操作

1.mapmap[B](f: (A) ⇒ B): List[B]定义一个变换,把该变换应用到列表的每个元素中,原列表不变,返回一个新的列表数据Example1 平方变换
val nums = List(1,2,3)
val square = (x: Int) => x*x
val squareNums1 = nums.map(num => num*num)    //List(1,4,9)
val squareNums2 = nums.map(math.pow(_,2))    //List(1,4,9)
val squareNums3 = nums.map(square)            //List(1,4,9)
Example2 保存文本数据中的某几列
val text = List("Homeway,25,Male","XSDYM,23,Female")
val usersList = text.map(_.split(",")(0))
val usersWithAgeList = text.map(line => {
    val fields = line.split(",")
    val user = fields(0)
    val age = fields(1).toInt
    (user,age)
})
2.flatMap, flattenflatten: flatten[B]: List[B] 对列表的列表进行平坦化操作 flatMap: flatMap[B](f: (A) ⇒ GenTraversableOnce[B]): List[B] map之后对结果进行flatten定义一个变换f, 把f应用列表的每个元素中,每个f返回一个列表,最终把所有列表连结起来

val text = List("A,B,C","D,E,F") val textMapped = text.map(_.split(",").toList) // List(List("A","B","C"),List("D","E","F")) val textFlattened = textMapped.flatten // List("A","B","C","D","E","F") val textFlatMapped = text.flatMap(_.split(",").toList) // List("A","B","C","D","E","F")
3.reducereduce[A1 >: A](op: (A1, A1) ⇒ A1): A1定义一个变换f, f把两个列表的元素合成一个,遍历列表,最终把列表合并成单一元素Example 列表求和

val nums = List(1,2,3) val sum1 = nums.reduce((a,b) => a+b) //6 val sum2 = nums.reduce(_+_) //6 val sum3 = nums.sum //6
4.reduceLeft,reduceRightreduceLeft: reduceLeft[B >: A](f: (B, A) ⇒ B): BreduceRight: reduceRight[B >: A](op: (A, B) ⇒ B): BreduceLeft从列表的左边往右边应用reduce函数,reduceRight从列表的右边往左边应用reduce函数

Example:

val nums = List(2.0,2.0,3.0) val resultLeftReduce = nums.reduceLeft(math.pow) // = pow( pow(2.0,2.0) , 3.0) = 64.0 val resultRightReduce = nums.reduceRight(math.pow) // = pow(2.0, pow(2.0,3.0)) = 256.0
5.fold,foldLeft,foldRightfold: fold[A1 >: A](z: A1)(op: (A1, A1) ⇒ A1): A1 带有初始值的reduce,从一个初始值开始,从左向右将两个元素合并成一个,最终把列表合并成单一元素。foldLeft: foldLeft[B](z: B)(f: (B, A) ⇒ B): B 带有初始值的reduceLeftfoldRight: foldRight[B](z: B)(op: (A, B) ⇒ B): B 带有初始值的reduceRight

val nums = List(2,3,4) val sum = nums.fold(1)(_+_) // = 1+2+3+4 = 9 

val nums = List(2.0,3.0) val result1 = nums.foldLeft(4.0)(math.pow) // = pow(pow(4.0,2.0),3.0) = 4096 val result2 = nums.foldRight(1.0)(math.pow) // = pow(1.0,pow(2.0,3.0)) = 8.0
6.sortBy,sortWith,sortedsortBy: sortBy[B](f: (A) ⇒ B)(implicit ord: math.Ordering[B]): List[A] 按照应用函数f之后产生的元素进行排序sorted: sorted[B >: A](implicit ord: math.Ordering[B]): List[A] 按照元素自身进行排序sortWith: sortWith(lt: (A, A) ⇒ Boolean): List[A] 使用自定义的比较函数进行排序

val nums = List(1,3,2,4) val sorted = nums.sorted //List(1,2,3,4) 

val users = List(("HomeWay",25),("XSDYM",23)) val sortedByAge = users.sortBy{case(user,age) => age} //List(("XSDYM",23),("HomeWay",25)) val sortedWith = users.sortWith{case(user1,user2) => user1._2 < user2._2} //List(("XSDYM",23),("HomeWay",25))
7.filter, filterNotfilter: filter(p: (A) ⇒ Boolean): List[A]filterNot: filterNot(p: (A) ⇒ Boolean): List[A]filter 保留列表中符合条件p的列表元素 , filterNot,保留列表中不符合条件p的列表元素

val nums = List(1,2,3,4) val odd = nums.filter( _ % 2 != 0) // List(1,3)val even = nums.filterNot( _ % 2 != 0) // List(2,4)
8.countcount(p: (A) ⇒ Boolean): Int计算列表中所有满足条件p的元素的个数,等价于 filter(p).lengthval nums = List(-1,-2,0,1,2) val plusCnt1 = nums.count( > 0) val plusCnt2 = nums.filter( > 0).length 

9. diff, union, intersectdiff:diff(that: collection.Seq[A]): List[A] 保存列表中那些不在另外一个列表中的元素,即从集合中减去与另外一个集合的交集union : union(that: collection.Seq[A]): List[A] 与另外一个列表进行连结intersect: intersect(that: collection.Seq[A]): List[A] 与另外一个集合的交集

val nums1 = List(1,2,3) val nums2 = List(2,3,4) val diff1 = nums1 diff nums2 // List(1) val diff2 = nums2.diff(num1) // List(4) val union1 = nums1 union nums2 // List(1,2,3,2,3,4) val union2 = nums2 ++ nums1 // List(2,3,4,1,2,3) val intersection = nums1 intersect nums2 //List(2,3)
10.distinctdistinct: List[A] 保留列表中非重复的元素,相同的元素只会被保留一次

val list = List("A","B","C","A","B") val distincted = list.distinct // List("A","B","C")
11.groupBy, groupedgroupBy : groupBy[K](f: (A) ⇒ K): Map[K, List[A]] 将列表进行分组,分组的依据是应用f在元素上后产生的新元素 grouped: grouped(size: Int): Iterator[List[A]] 按列表按照固定的大小进行分组

val data = List(("HomeWay","Male"),("XSDYM","Femail"),("Mr.Wang","Male")) val group1 = data.groupBy(_._2) // = Map("Male" -> List(("HomeWay","Male"),("Mr.Wang","Male")),"Female" -> List(("XSDYM","Femail"))) val group2 = data.groupBy{case (name,sex) => sex} // = Map("Male" -> List(("HomeWay","Male"),("Mr.Wang","Male")),"Female" -> List(("XSDYM","Femail"))) val fixSizeGroup = data.grouped(2).toList // = Map("Male" -> List(("HomeWay","Male"),("XSDYM","Femail")),"Female" -> List(("Mr.Wang","Male")))
12.scanscan[B >: A, That](z: B)(op: (B, B) ⇒ B)(implicit cbf: CanBuildFrom[List[A], B, That]): That由一个初始值开始,从左向右,进行积累的op操作,这个比较难解释,具体的看例子吧。

val nums = List(1,2,3) val result = nums.scan(10)(_+_) // List(10,10+1,10+1+2,10+1+2+3) = List(10,11,13,16)
13.scanLeft,scanRightscanLeft: scanLeft[B, That](z: B)(op: (B, A) ⇒ B)(implicit bf: CanBuildFrom[List[A], B, That]): ThatscanRight: scanRight[B, That](z: B)(op: (A, B) ⇒ B)(implicit bf: CanBuildFrom[List[A], B, That]): ThatscanLeft: 从左向右进行scan函数的操作,scanRight:从右向左进行scan函数的操作

val nums = List(1.0,2.0,3.0) val result = nums.scanLeft(2.0)(math.pow) // List(2.0,pow(2.0,1.0), pow(pow(2.0,1.0),2.0),pow(pow(pow(2.0,1.0),2.0),3.0) = List(2.0,2.0,4.0,64.0) val result = nums.scanRight(2.0)(math.pow) // List(2.0,pow(3.0,2.0), pow(2.0,pow(3.0,2.0)), pow(1.0,pow(2.0,pow(3.0,2.0))) = List(1.0,512.0,9.0,2.0)
14.take,takeRight,takeWhiletake : takeRight(n: Int): List[A] 提取列表的前n个元素 takeRight: takeRight(n: Int): List[A] 提取列表的最后n个元素 takeWhile: takeWhile(p: (A) ⇒ Boolean): List[A] 从左向右提取列表的元素,直到条件p不成立

val nums = List(1,1,1,1,4,4,4,4) val left = nums.take(4) // List(1,1,1,1) val right = nums.takeRight(4) // List(4,4,4,4) val headNums = nums.takeWhile( _ == nums.head) // List(1,1,1,1)
15.drop,dropRight,dropWhiledrop: drop(n: Int): List[A] 丢弃前n个元素,返回剩下的元素 dropRight: dropRight(n: Int): List[A] 丢弃最后n个元素,返回剩下的元素 dropWhile: dropWhile(p: (A) ⇒ Boolean): List[A] 从左向右丢弃元素,直到条件p不成立

val nums = List(1,1,1,1,4,4,4,4) val left = nums.drop(4) // List(4,4,4,4) val right = nums.dropRight(4) // List(1,1,1,1) val tailNums = nums.dropWhile( _ == nums.head) // List(4,4,4,4)
16.span, splitAt, partitionspan : span(p: (A) ⇒ Boolean): (List[A], List[A]) 从左向右应用条件p进行判断,直到条件p不成立,此时将列表分为两个列表splitAt: splitAt(n: Int): (List[A], List[A]) 将列表分为前n个,与,剩下的部分partition: partition(p: (A) ⇒ Boolean): (List[A], List[A]) 将列表分为两部分,第一部分为满足条件p的元素,第二部分为不满足条件p的元素

val nums = List(1,1,1,2,3,2,1) val (prefix,suffix) = nums.span( _ == 1) // prefix = List(1,1,1), suffix = List(2,3,2,1) val (prefix,suffix) = nums.splitAt(3) // prefix = List(1,1,1), suffix = List(2,3,2,1) val (prefix,suffix) = nums.partition( _ == 1) // prefix = List(1,1,1,1), suffix = List(2,3,2)
17.padTopadTo(len: Int, elem: A): List[A]将列表扩展到指定长度,长度不够的时候,使用elem进行填充,否则不做任何操作。

val nums = List(1,1,1) val padded = nums.padTo(6,2) // List(1,1,1,2,2,2)
18.combinations,permutationscombinations: combinations(n: Int): Iterator[List[A]] 取列表中的n个元素进行组合,返回不重复的组合列表,结果一个迭代器permutations: permutations: Iterator[List[A]] 对列表中的元素进行排列,返回不重得的排列列表,结果是一个迭代器

val nums = List(1,1,3) val combinations = nums.combinations(2).toList //List(List(1,1),List(1,3)) val permutations = nums.permutations.toList // List(List(1,1,3),List(1,3,1),List(3,1,1))
19.zip, zipAll, zipWithIndex, unzip,unzip3zip: zip[B](that: GenIterable[B]): List[(A, B)] 与另外一个列表进行拉链操作,将对应位置的元素组成一个pair,返回的列表长度为两个列表中短的那个zipAll: zipAll[B](that: collection.Iterable[B], thisElem: A, thatElem: B): List[(A, B)] 与另外一个列表进行拉链操作,将对应位置的元素组成一个pair,若列表长度不一致,自身列表比较短的话使用thisElem进行填充,对方列表较短的话使用thatElem进行填充zipWithIndex:zipWithIndex: List[(A, Int)] 将列表元素与其索引进行拉链操作,组成一个pairunzip: unzip[A1, A2](implicit asPair: (A) ⇒ (A1, A2)): (List[A1], List[A2]) 解开拉链操作unzip3: unzip3[A1, A2, A3](implicit asTriple: (A) ⇒ (A1, A2, A3)): (List[A1], List[A2], List[A3]) 3个元素的解拉链操作

val alphabet = List("A",B","C") val nums = List(1,2) val zipped = alphabet zip nums // List(("A",1),("B",2)) val zippedAll = alphabet.zipAll(nums,"*",-1) // List(("A",1),("B",2),("C",-1)) val zippedIndex = alphabet.zipWithIndex // List(("A",0),("B",1),("C",3)) val (list1,list2) = zipped.unzip // list1 = List("A","B"), list2 = List(1,2) val (l1,l2,l3) = List((1, "one", ‘1‘),(2, "two", ‘2‘),(3, "three", ‘3‘)).unzip3 // l1=List(1,2,3),l2=List("one","two","three"),l3=List(‘1‘,‘2‘,‘3‘)
20.sliceslice(from: Int, until: Int): List[A] 提取列表中从位置from到位置until(不含该位置)的元素列表

val nums = List(1,2,3,4,5) val sliced = nums.slice(2,4) //List(3,4)
21.slidingsliding(size: Int, step: Int): Iterator[List[A]] 将列表按照固定大小size进行分组,步进为step,step默认为1,返回结果为迭代器

val nums = List(1,1,2,2,3,3,4,4) val groupStep2 = nums.sliding(2,2).toList //List(List(1,1),List(2,2),List(3,3),List(4,4)) val groupStep1 = nums.sliding(2).toList //List(List(1,1),List(1,2),List(2,2),List(2,3),List(3,3),List(3,4),List(4,4))
22.updatedupdated(index: Int, elem: A): List[A] 对列表中的某个元素进行更新操作

val nums = List(1,2,3,3) val fixed = nums.updated(3,4) // List(1,2,3,4)
 
时间: 2024-12-21 12:14:56

Scala 运算符和集合转换操作示例的相关文章

好程序员大数据学习路线分享Scala系列之集合操作函数

好程序员大数据学习路线继续为大家分享Scala系列之集合操作函数4.6 集合的重要函数4.6.1sum/max/min/count在序列中查找最大或最小值是一个极常见的需求,如下:val numbers = Seq(11, 2, 5, 1, 6, 3, 9) numbers.max //11 numbers.min //1 更高级的例子,其中包含一个书的序列case class Book(title: String, pages: Int) val books = Seq( Book("Futu

python学习列表字符串字典集合文件操作字符串编码与转换

一.列表 1 names = "ZhangYang GuYun XiangPeng XuLiangchen" 2 names = ["ZhangYang", "GuYun", "XiangPeng", "ChengRongHua","XuLiangchen"] 3 names.append("LeiHaiDong") #在列表最后追加一个元素 4 names.inse

十四、C# 支持标准查询运算符的集合接口

支持标准查询运算符的集合接口. System.Linq.Enumeralbe类提供的一些常用的API 来执行集合处理 1.匿名类型 2.隐匿类型的局部变量 3.集合初始化器 4.集合 5.标准查询运算符 本章主要讨论泛型集合接口. 非泛型的集合类,待查. 一.匿名类型和隐式类型的局部变量声明 C#3.0增强. 1.匿名类型 一种特殊的数据类型,它最终是由编译器声明的,而非通过已定义好的类来声明的. 和匿名函数相似,当编译器看到一个匿名类型时,会自动执行一些后台操作,生成必要的代码, 允许像显式声

Scala学习(三)----数组相关操作

数组相关操作 摘要: 本篇主要学习如何在Scala中操作数组.Java和C++程序员通常会选用数组或近似的结构(比如数组列表或向量)来收集一组元素.在Scala中,我们的选择更多,不过现在我们先假定不关心其他选择,而只是想马上开始用数组.本篇的要点包括: 1. 若长度固定则使用Array,若长度可能有变化则使用ArrayBuffer 2. 提供初始值时不要使用new 3. 用()来访问元素 4. 用for (elem<-arr)来遍历元素 5. 用for (elem<-arr if…)…yie

Scala详解---------数组相关操作

Scala中提供了一种数据结构-数组,其中存储相同类型的元素的固定大小的连续集合.数组用于存储数据的集合,但它往往是更加有用认为数组作为相同类型的变量的集合. 取替声明单个变量,如number0, number1, ..., 和number99,声明一个数组变量,如号码和使用numbers[0],numbers[1],...,numbers[99]表示单个变量.本教程介绍了如何声明数组变量,创建数组和使用索引的过程变量数组.数组的第一个元素的索引是数字0和最后一个元素的索引为元素的总数减去1.

python集合相关操作

集合相关操作 集合是一个无序的,不重复的数据组合,它有着两个主要作用:去重以及关系测试. 去重指的是当把一个列表变成了集合,其中重复的内容就自动的被去掉了 关系测试指的是,测试两组数据之间的交集.差集.并集等关系. 去重测试代码如下: # 创建一个列表 -- 里面存在一些重复值 test_list = [1,2,3,4,2,2,3,4,3,2,3,4] # 利用集合将列表中重复的内容去掉 test_list = set(test_list) # 打印测试并且查看test_list 被赋予新值后的

python 集合相关操作

集合相关操作 集合是一个无序的,不重复的数据组合,它有着两个主要作用:去重以及关系测试. 去重指的是当把一个列表变成了集合,其中重复的内容就自动的被去掉了 关系测试指的是,测试两组数据之间的交集.差集.并集等关系. 去重测试代码如下: # 创建一个列表 -- 里面存在一些重复值 test_list = [1,2,3,4,2,2,3,4,3,2,3,4] # 利用集合将列表中重复的内容去掉 test_list = set(test_list) # 打印测试并且查看test_list 被赋予新值后的

Scala的映射和元组操作

映射和元组操作 构造Map // 构造一个不可变的MAP映射,类似与key -> value这样的组合叫做对偶 val score = Map("Jack" -> 12, "Bob" -> 20) // 也可以这种创建一个Map映射 val score1 = Map(("Jack", 12), ("Bob", 20)) // 根据key获取value,类似java中的map.get(key)若是获取一个不存在

java目录相关操作 示例代码

package org.rui.io; import java.io.File; import java.io.FilenameFilter; import java.util.Arrays; import java.util.regex.Pattern; /** * 目录列表器 测试 * * @author lenovo * */ //Args:"C:/Users/lenovo/Pictures/screen/*\.jpg" public class DirList { public