如何使用Hadoop实现不同复杂度的遥感产品算法

MapReduce模型可分为单Reduce模式、多Reduce模式以及无Reduce模式，对于不同复杂度的指数产品生产算法，应根据需求选择不同的MapReduce计算模式。

1) 复杂度较低的产品生产算法

针对复杂度较低的遥感产品生产算法，一般只需使用一个MapReduce计算任务，此时应选择多Reduce模式或者无Reduce模式。

当指数产品算法涉及到的输入数据只包含一个文件时（如生产一景全球环境监测指数产品，只需用到一景HDF格式的Modis陆地二级产品数据），可选择无Reduce模式。其中，Map阶段负责实现指数产品的核心算法。具体计算流程如下图：

当指数产品算法涉及到的输入数据包含多个文件时（如生产一景草原干旱指数产品，需要用到地表反射率、地表温度、降雨量等不同产品），应选择多Reduce模式。其中，Map阶段负责整理输入的数据，Reduce阶段负责实现指数产品的核心算法。具体计算流程如下图：

2）复杂度较高的产品生产算法

针对复杂度较高的遥感产品生产算法，一个MapReduce计算任务往往难以满足生产需求，此时需要使用多个MapReduce任务共同完成产品的生产任务。针对这种情况，可通过使用Oozie工作流引擎来控制多个MapReduce计算任务的工作流程，解决任务之间的依赖问题。oozie的介绍及安装教程可参考另一篇博文：http://blog.csdn.net/until_v/article/details/40682205

时间： 2024-08-08 06:44:33

如何使用Hadoop实现不同复杂度的遥感产品算法的相关文章

java文本相似度计算(Levenshtein Distance算法(中文翻译：编辑距离算法))----代码和详解

算法代码实现: package com.util; public class SimFeatureUtil { private static int min(int one, int two, int three) { int min = one; if (two < min) { min = two; } if (three < min) { min = three; } return min; } public static int ld(String str1, String str2)

hadoop Mahout中相似度计算方法介绍(转）

来自:http://blog.csdn.net/samxx8/article/details/7691868 相似距离(距离越小值越大) 优点缺点取值范围 PearsonCorrelation 类似于计算两个矩阵的协方差不受用户评分偏高或者偏低习惯影响的影响 1. 如果两个item相似个数小于2时无法计算相似距离. [可以使用item相似个数门限来解决.] 没有考虑两个用户之间的交集大小[使用weight参数来解决] 2. 无法计算两个完全相同的items [-1, 1] Euclid

Hadoop学习笔记—12.MapReduce中的常见算法

一.MapReduce中有哪些常见算法 (1)经典之王:单词计数这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. (3)排序:按某个Key进行升序或降序排列 (4)TopK:对源数据中所有数据进行排序,取出前K个数据,就是TopK. 通常可以借助堆(Heap)来实现TopK问题. (5)选择:关系代数基

算法复杂度分析方法以及算法概述

算法定义:解决特定问题的求解步骤的描述. 算法特性:有穷性.确定性.可行性.输入.输出算法的设计要求:正确性.可读性.健壮性.高效率和低存储量需求算法度量方法:事后统计方法(不科学).事前分析估算方法函数的渐近增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么我们说f(n)的增长渐近快于g(n). 于是,可以得出结论:判定一个算法好不好,可以对比算法的关键执行次数函数的渐近增长性,基本就可以分析出:某一个算法,随着n的变大,它会越

常见的Hadoop十大应用误解

常见的Hadoop十大应用误解 1. (误解) Hadoop什么都可以做 (正解) 当一个新技术出来时,我们都会去思考它在各个不同产业的应用,而对于平台的新技术来说,我们思考之后常会出现这样的结论 “这个好像什么都能做”, 然而,更深入的去想,你就会发现“好像什么都需要重头做”. 对于Hadoop,我常喜欢举Database来当例子. 三十年前数据库(Database)刚出来时,上面并没有什么现成的应用方案(Application),所以厂商在销售的过程中常需要花很多的时间去告诉客

Hadoop、Pig、Hive、NOSQL 学习资源收集

(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blog.csdn.net/ruby97/article/details/7423088 http://blog.csdn.net/savechina/article/details/5656937 2.hadoop 伪分布式安装: http://www.thegeekstuff.com/2012/02/

Hadoop详解 - HDFS - MapReduce - YARN - HA

为什么要有Hadoop? 从计算机诞生到现今,积累了海量的数据,这些海量的数据有结构化.半结构化.非结构的数据,并且这些海量的数据存储和检索就成为了一大问题. 我们都知道大数据技术难题在于一个数据复杂性.数据量.大规模的数据计算. Hadoop就是为了解决这些问题而出现的. Hadoop的诞生 Doug Cutting是Lucene的作者,当时Lucene面临和谷歌同样的问题,就是海量的数据存储和检索,于是就诞生了Nutch. 在这之后,谷歌的大牛就为解决这个问题发了三篇论文(GFS.Map-

转：文本相似度算法

文本相似度算法原文出自:http://www.cnblogs.com/liangxiaxu/archive/2012/05/05/2484972.html 1.信息检索中的重要发明TF-IDF 1.1TF Term frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则 (公式1.1-1) 为该关键词在这篇文章中的词频. 1.2IDF Inverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式 (公

日志和告警数据挖掘经验谈——利用日志相似度进行聚类，利用时间进行关联分析

摘自:http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享. 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation),从而得到告警和日志的一些统计关系,这些统计结果可以给一线支持人员参考. 得到的数据主要分为两部分,一部分是告警的历史数据,这部分数据很少,只有50M左右,剩下的全部都是日志数据.日志数据大概有50多

猜你喜欢

bootstrap table 插件搜索

以前用过easyui datagrid 每次搜索的时候调用datagrid构造方法重新获取数据, 发现bootstrap-table 插件不行,只需要初始化一次, 以后每次搜索时,直接调用refre ...

SecureCRT或XShell软件

SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,简单地说是Windows下登录UNIX或Linux服务器主机的软件. Xshell 是一个强大的安全终端模拟软件,它支持SSH1 ...

#51CTO学院四周年# 夏至未至，致51，致自己，致明天

我想,是时候该花点时间写点什么了. 今天是2016年6月14日,是我知道51CTO这个网站的1年零11个月零31天,明天的这个时候,就是两周年的纪念日,这是个令人愉快的日子也是让我怀念的日子. 回想过 ...

c++的四种强制类型转换

http://hb.qq.com/a/20110722/001452.htm ...... C风格的强制类型转换(Type Cast)很简单,不管什么类型的转换统统是:TYPE b = (TYPE)a ...

@@fetch_status是MicroSoft SQL SERVER的一个全局变量其值有以下三种,分别表示三种不同含义:[返回类型integer] 0 FETCH 语句成功 -1 FETCH 语句 ...

Andriod常用控件介绍&相关属性（初学方便查询）

一.TextView(显示控件) android:id(给当前控件定义唯一的标识符)--示例:android:id = "@+id/text_view" android:layou ...

WTforms作用:当网站中需要用到表单时,WTForms变得很有效.应该把表单定义为类,作为单独的一个模块. 表单类: class wtforms.form.Form: 创建表单: 创建表单时,通常 ...

WordPress更换主题空白问题

刚才尝试着更换了一个主题,后来发现预览主页的时候是一片空白.查了很多资料,有说是index.php的权限问题,有说是插件问题,有说是UTL-8编码的问题,我都试过了,发现都不行,后来仔细研究了一下,发 ...

说的话是几号的风格和十多个稍等

http://weheartit.com/zhibaihe/collections/56794043-2014-12-12 http://weheartit.com/zhibaihe/colle ...

我是人服务萨菲挺感人爱情无法投入去安慰

http://tinypic.com/useralbum.php?ua=K9DlYwTRMmOdEkIiH340Ig%3D%3D http://tinypic.com/useralbum.php?ua ...

测试bug

模板在运行时出现了以下 1 个错误:---------------------------Controller.tt(-1,-1) : error : 获取 AppDomain 以便从主机运行转换时出 ...

100块钱买100只鸡

package mai100ji; public class Mai100ji { public static void main(String[] args) { int n = 100; for ...

1.盘子序列(disk) [题目描述] 有 n 个盘子.盘子被生产出来后,被按照某种顺序摞在一起.初始盘堆中如果一个盘子比所有它上面的盘子都大,那么它是安全的,否则它是危险的.称初始盘堆为 A,另外 ...

Yeoman安装和使用详解

一什么是Yeoman Yeoman帮助我们创建新项目,指定最好的实践和工具来使我们的项目更多样化. Yeoman提供generator系统,一个generator是一个插件,在我们在一个完整的项目上 ...

面向对象系列二（封装）

只需要最简单的操作就能实现一系列复杂的功能,是做一个个技术攻克的目的.一台精密仪器,一架家用电器,一个小米手机,这些可能我们都在用,或者用过.它们的内部都无比的复杂,使用了各种各样的配件,运用了极多的 ...

css 使图片水平垂直居中

1.利用display:table-cell,具体代码如下: html代码如下: 1 <div class="img_wrap"> 2 <img src=&quo ...

大話西遊

你應該噉做我亦應該死曾經有一份至真嘅愛情擺喺我面前我冇珍惜到冇咗嘅時候先至後悔莫及塵世間最痛苦莫過於此你把嘢喺我咽喉度拖落去啦唔需要猶疑架啦如果個天可以畀個機會我返轉頭嘅話我會同 ...

Kotlin基础-数据类

/* * 数据类:专用于只"保存"数据的类,比如用户自动登录信息,聊天记录等 * 这里的保存并不是指保存到磁盘,而是指转换成文本格式,便于保存 * Kotlin数据类:data c ...

关于系统使用的一些问题

修改VS2010安装时的注册信息在win8上安装vs2010时,最开始是用的网络账户登录的win8,所以vs上的授权信息为网络账户.后来我使用了本地账户,可是授权信息那里看着很别扭,然后就在网上找了 ...

2.4.6 处理表单的工作原理的解释

1.使用模型绑定第一个 RsvpForm 动作方法渲染了对应的视图——RsvpForm.cshtml 文件,生成了对应的表单. 第二个 RsvpForm 动作方法已经给定是响应 HTTP 的 POS ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.