大数据之文章分类

记下来 不然以后又忘记了。

  

AnalysisEntry:总体调动,调类的顺序;
WordFrequenceInDoc:提取中文,分词,去停词,统计词频;
在去停词时,要做一个词库,my.dic或者stopword.dic
WordCountsInDoc:统计每个文档的单词数目;
WordsInCorpusTFIDF: 统计单词在多少个文档出现,计算TFIDF,建立词表;

SortTFIDF: 对TFIDF进行排序;

CombinationKey,类是合成一个键(两个字段或多个字段合成为一个key),以键排序,在SortTFIDF中调用;
DefinedComparator 定义一个比较器,排序的时候就要调用此定义进行比较;
DefinedPartition 定义分区,Partitioner的作用是对Mappper产生的中间结果进行分片,以便将同一分组的数据交给同一个Reducer处理,它直接影响Reduce阶段的负载均衡。这里定义的DefinePartition就是为了按Key来分片;

DocVetorBuild :建立词向量 这是因为在使用SVM算法的时候,输入时,使用的是向量
UseSVM :调用SVM算法,进行分类;
SVM属于监督类算法,需要把数据做为两部分,一部分时作为训练集,一部分作为测试集(也就是说,
先人工分好一部分数据,作为标准训练,而来新的数据的时候,就用来测试(预测);

Test.java 用来测试一些功能,测试好后,在用;

时间: 2024-10-05 22:50:07

大数据之文章分类的相关文章

大数据学习文章

ZooKeeper: ZooKeeper浅析:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.html HDFS: MapReduce程序的工作过程: http://www.aboutyun.com/thread-15494-1-2.html HDFS小文件处理解决方案总结:http://www.aboutyun.com/thread-14227-1-1.html Hadoop 学习总结之一:HDFS简介:http://

大数据系列文章汇总 - 更新到15篇

转自:http://blog.csdn.net/matthewei6/article/details/50615816 大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS大数据(三) - YARN大数据(四) - MapReduce大数据(五) - HBase大数据(六) - ZooKeeper大数据(七) - Flume大数据(八) - Sqoop大数据(九) - Hive大数据(十) - Pig大数据(十一) - Mahout大数据(十二) - Oozie大数据(十三

大数据系列文章-Hadoop的HDFS读写流程(二)

在介绍HDFS读写流程时,先介绍下Block副本放置策略. Block副本放置策略 第一个副本:放置在上传文件的DataNode:如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点. 第二个副本:放置在与第一个副本不同的机架的节点上. 第三个副本:与第二个副本相同机架的节点. 更多副本:随机节点. HDFS写流程 客户端发请求给NameNode,我想保存一个文件A,这时候在NameNode会有一个标识,标识为A_copy(文件不可用). 根据副本放置策略,返回三个副本的可放置位置列表

100篇大数据文章[转]

摘要:PayPal高级工程总监Anil Madan写了篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手. 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用.另一方面,开源也给大数据技术构建了一个异常复杂的生态系统.每一天,都有一大堆"新"框架."新"类库或"新"工具,犹如雨后春笋般涌

大数据架构和模式(一)——大数据分类和架构简介

概述 大数据可通过许多方式来存储.获取.处理和分析.每个大数据来源都有不同的特征,包括数据的频率.量.速度.类型和真实性.处理并存储大数据时,会涉及到更多维度,比如治理.安全性和策略.选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素. 这个 “大数据架构和模式” 系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务.因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案. 从分类大数据到选择大数据解

大数据架构和模式(一)大数据分类和架构简介

本文收藏于:http://kb.cnblogs.com/page/510978/ 作者: Divakar等  来源: DeveloperWorks  发布时间: 2015-01-29 18:19  阅读: 3294 次  推荐: 8   原文链接   [收藏] 摘要:大数据问题的分析和解决通常很复杂.大数据的量.速度和种类使得提取信息和获得业务洞察变得很困难.以下操作是一个良好的开端:依据必须处理的数据的格式.要应用的分析类型.使用的处理技术,以及目标系统需要获取.加载.处理.分析和存储数据的数

学习大数据技术,需要具备哪些【数学知识】?你了解了吗?

谈起大数据技术,很多人都觉得是高大上的一门技术,学起来应该是困难重重!其实对于大数据技术而言,难的不是大数据技术本身,而是需要太多的基础知识,比如说:数学知识.英语能力.编程基础等等. 数学,我们从小就开始学习,一直在跟各种数据打交道,各种公式等等,是大数据学习的必备技术之一. 英语,对于大数据技术文章,比较先进的还是外文比较多,需要一定的英语基础,当然了翻译软件是个好东西,但必要的英语能力也是必须的. 编程,这个就不用我多说了吧,计算机语言,你学不会,该如何向电脑发布指令! 好了,回归我们今天

MES应慎谈大数据

突然之间,“工业4.0”.“中国制造2025”.“大数据”.“智能制造”.“智慧工厂”等词汇变得流行起来,仿佛不谈新词汇就变得落伍了,仿佛传统MES已经不适应新时代了. 可是真的是这样的吗?真的有几个人能把这些新词汇说清楚吗? 以我个人多年做MES项目的经验,我觉得中国制造现在还处在工业2.0,顶多在工业2.5,多数的企业还远远没有实现自动化,更不要说智能化. 要想直接走工业4.0,实现弯道超车,这是一个很丰满的理想,但是却受到基础设施.成本.人才.管理体系等诸多因素的制约,因而很难落地. 比如

推荐一本大数据的书籍,非技术类

因为关注大数据,也写过若干关于大数据的文章,做过若干关于大数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣.过去几年,在这方面读过十几本书,上百篇论文和文章.相对而言,舍恩伯格的<大数据时代>是迄今为止我读过的最好的一本专著,中英文都算上. 此书的一大贡献是在大数据方兴未艾,众说纷纭的时刻,进一步阐述和厘清了大数据的基本概念和特点,这对许多以为大数据就是数据大的人来说很有帮助. 在人类历史长河中,即使是现代社会日新月异的发展中,人们还主要是依赖抽样数据,局部数据,片面数据,甚至是在无法获得