Spark 分析网站排名热度

需求:

/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》

// 前面有一个wordCount---》 算出次数出来  --》 考虑什么作为key

//算的一个网站下面,每个子模块下面的网页热度前2名 :

// 算的一个网站下面,每个子模块下面的网页热度前2名 --》 每个子模块下面的网页的次数的前2名

// 在实际开发中,真正代码时间可能只占20-30% ,其他时间都在理解需求,想思路

import java.net.URL
import org.apache.spark.{SparkConf, SparkContext}
object Data_anlysis {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val linesRDD = sc.textFile("d://web_data.log")
    val rdd01 =linesRDD.map(line => {
      val lineSplited = line.split("\t")
      (lineSplited(1),1)
    })
    val rdd02 = rdd01.reduceByKey(_+_)
    val rdd03 = rdd02.map(tup => {
      val url = tup._1;
      val host = new URL(url).getHost
      (host,url,tup._2)
    })
    val rdd04 = rdd03.groupBy(_._1)
    val rdd05 = rdd04.mapValues(iter => {
      iter.toList.sortBy(_._3).reverse.take(2)
    })
    println(rdd05.collect().toBuffer)
    sc.stop()
  }
}

运行结果会把网站的日志数据按照某一模块的要求列出排名前2个结果展示出来。

时间: 2024-08-25 21:27:12

Spark 分析网站排名热度的相关文章

学会分析优秀竞争对手的网站加速网站排名

seo优化如何让网站快速进入百度前5页 引言:分析同行优秀的竞争对手的网站可以让你的网站少走弯路,取其优点,进入百度优质站点行列,快速进入百度前5页 为什么要分析优秀竞争对手的网站?(百度第一页的网站) 任何事物的存在必有其存在的理由 网站排在第一位,说明百度认可该网站,说明网站的布局.内容质量.内外链接都符合百度的优质站点标准 百度在分析网站的时候,会建主题模型,提取优秀站点中某一些做的好的特征作为对同类型网站优质站点识别的参考数据,所以我们要分析优秀站点,从中去其糟粕,取其精华. 我们如何分

如何提高网站排名 广州外贸网站建设经验分享

奇亿网络成立于2006年,是一家专注于广州外贸网站建设,在广州我们为2000多个客户提供网站建设与优化,或许会有人问,我们今天所讲的是如何提高网站排名,为什么会提到奇亿网络的发展史,我们之所以提是想说明我们拥有优化排名的核心技术.我们在这儿的经验分享值得大家借鉴.本文所讲的是入门篇,如果你是大神级的就请见笑了! 网站排名是一个很复杂的过程,在这个过程中,百度蜘蛛先通过抓取我们的网页,再进行分析.存档.排名等一系列的复杂过程,在这一过程中,我们只能寻找一些漏洞,进行优化,从而达到排名靠前的目的,我

百度索引量、百度收录、网站排名和关键词流量

数天前,百度站长平台发布"正确理解索引量工具"一文,称索引量仅指被百度搜索引擎建立了索引的网页总量,表示网站中有多少页面可以作为搜索候选结果,不同网页因内容重要性.稀缺性不同,被展现的几率有很大差别.换句话说,既使你的网站有1亿个网页被建立索引,也许真正能获得流量的仅有100个页面. 该文章一经发布,就引起业界热议,那么百度索引量真正的意义是什么呢?百度限于是代表百度搜索引擎官方,有些事情可能无法说透彻?SEO营销大师为大家分析一下. 首先:百度索引值仅仅是网站在百度数据库中的一个指标

SEOer该怎样掌控网站排名收录率

导语:SEOer们一个老生常谈的问题就是"网站的收录.排名怎么样啊?"几乎每天都会分析,但是随着百度算法的不断更新,对收录内容的质量也是要求越来越 高,如何提高网站收录排名率呢? 一.是否知道这个页面的存在 对页面进行收录当然首先就必须要知道有这个页面,蜘蛛都不知道这个页面,谈何收录?这一点主要分为2大类:搜索引擎找不到网页入口和不让搜索引擎抓 取. 1.搜索引擎找不到网页入口 很多时候不是你更新了文章搜索引擎就要来抓取收录的,要怎么让蜘蛛知道你的更新呢?除了有规律的更新,可以向百度站

网站排名最快最实用的三个技巧

网站排名最快最实用的三个技巧 如何让网站更快的获取排名,缩短关键词排名的周期,提升网站更多的流量入口,只需要了解搜索引擎的规则. 一个网站做关键词排名,一切都围绕这个目的,任何操作都是要获的排名. 1.综合评分: 网站各项数据指标具体指:基础代码优化,网站布局拉网等等. 百度统计:跳出率,停留时间在综合评分里在很大比重, 跳出率太高了怎么处理?比如小说类型网跳出率很低,电影网站是停留时间,问答类跳出率就高. 跳出率取决内链是否做得好?推荐是否是用户需要的? 随便打开一个网站,查找一篇资料后会有相

[大数据从入门到放弃系列教程]第一个spark分析程序

文章施工中,由于部分网站会在我还没有写完就抓取到这篇文章,导致你看到的内容不完整,请点击这里: 或者复制访问 http://www.cnblogs.com/blog5277/p/8580007.html 来查看更完整的内容 [大数据从入门到放弃系列教程]第一个spark分析程序 原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 *********************分割线******************

SEO提高网站排名快速见效的方法

SEO如何提升网站排名?seo中文名称搜索引擎优化,是提升网站排名的一种技术手段,常用的手段就是优化标签,内链外链等等,最核心的优化方向,"关键词".最常见的表现形式就是软文,但是有的时候就算你做了很多,也不见得有效果?其实想提高网站排名不是一时半会的功夫,那是要日积月累的,下面犀牛代理IP给大家简单的说是所SEO提高网站排名快速见效的方法 seo做排名不是像竞价那么快的,自然排名的是上升需要一个周期,一般来讲这个周期的稳定时间大致需要3个月,3个月的大周期还分味几个小周期,小周期期间

哪些SEO算法因素会影响网站排名?

哪些seo算法因素在影响着网站排名?为什么同一篇文章发布在两个不同的网站上排名会有特别大的差距?本文将为你一一揭晓. 一.网站设计对SEO和用户友好 网站设计的要简洁大方,框架结构及url设计合理,站点稳定性好;内容真实.完整.丰富.对用户有意义有帮助;用户浏览体验好. 二.网站标题出现关键词 网站标题出现关键词是影响排名的最重要因素之一.网站上的每个页面和帖子都应该有自己独特的标题,标题上出现该页的关键字. 三.H1.H2标签出现关键词 网站上的H1和H2标签要融入关键词,通常来说网站标题是H

网站排名总是上不去的原因

网站排名需要经过系统的SEO优化,才能有排名.并不是任何一个网站都能达到好的排名. 需要考虑的问题有很多,例如:网站的优化情况.时间.规模.关键词热度.竞争对手情况等等.想要有好的排名一定要进行适当优化,但并不是意味着,网站优化了就一定会排名第一,排名是一个互相竞争的过程,对方做得比你好,他就会被排在你前面.你做得比他好,你就会排名在他前面. 那么如何做得好呢?一方面从用户角度,你要让你的网站比对方好:另一方面,你要系统阅读和学习SEO基本知识,懂得如何更好的表达你自己,让搜索引擎更好理解你的网