FusionInsight大数据开发---sorl应用开发

sorl应用开发

要求:

  1. 了解Solr应用开发适用场景
  2. 熟悉Solr应用开发流程
  3. 熟悉并使用Solr常用API
  4. 理解Collection设计基本原则
  5. 应用开发实践

Solr简介

  1. Solr是一个高性能,基于Lucene的全文检索服务,也可以作为NoSQL数据库使用。
  2. Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语句,同时实现了可配置、可扩展,并对查询性能进行了优化,还提供了一个完善的功能管理界面。
  3. SolrCloud是从Solr 4.0 版本开始发出的具有开创意义的分布式索引和索引方案,基于Sorl和Zookeeper进行开发的。

Solr概念体系-总述
常见术语:

  • Config Set:Solr Core提供一组配置文件 ,
  • Core:即Solr Core ,
  • Shard:Collection的逻辑分片
  • Replice:Shard下的实际存储索引的一个副本,与Core对应
  • Leader:赢得选举的Shard Peplicas
  • Zookeeper:它在Solr Core是必须的,提供分布式锁、处理Leader选举、管理配置等功能

Solr的常用应用场景

  1. 待检索数据类型复杂
  2. 检索条件多样化(如涉及字段太多),常规查询无法满足
  3. 读取远多于写入数据

Solr应用开发流程-制定业务目标
业务数据规模及数据模型

  • 涉及Collection的Shard划分及Schema的定义

实时索引、查询性能要求

  • 涉及Collection的Shard划分、索引存储位置

查询场景

  • 涉及Collection的Schema定义

Solr应用开发流程-初始化及安全认证

  1. 初始化并获取配置
  2. 安全认证
  3. 获取CloudSolrClient
  4. 调用Solr APL

Solr应用开发流程-设计Collection

  1. 根据业务数据的关系设计schema.xml
  2. 根据写入和查询场景设计uniqueKey字段
  3. 根据写入和查询性能要求设计solrconfig.xml
  4. 根据业务数据规模和Solr集群规模确定Shard数目
  5. 根据可靠性能要求设定Shard副本数

Collection设计-索引存储位置
索引存储在HDFS

缺点:

  1. 与存储在本地磁盘相比,性能下降30%-50%
  2. 实时单节点写入速度<=2MB/s
  3. 数据膨胀略高于存储在本地

优点:

  1. Sorl设置Replica即可,利用HDFS副本机制保障数据可靠性
  2. 数据管理由HDFS完成,包括各节点数据balance、方便迁移

配置集Schema设计-Field
dynamicField

  • 动态的字段设置,用于后期自定义字段,”*“号通配符。

copyField

    • 将多个字段集中到一个字段

原文地址:https://www.cnblogs.com/cainiao-chuanqi/p/11251594.html

时间: 2024-11-07 05:18:06

FusionInsight大数据开发---sorl应用开发的相关文章

FusionInsight大数据开发---Flume应用开发

Flume应用开发 要求: 了解Flume应用开发适用场景 掌握Flume应用开发 Flume应用场景Flume的核心是把数据从数据源收集过来,在送到目的地.为了保证输送一定成功,发送到目的地之前,会先缓存数据,待数据真正的到达目的地后,删除自己缓存的数据.Flume采用流式方法采集和传输数据,程序配置好后,不需要外部条件触发下,一直监控数据源,源源不断地采集.传送数据到目的地. 主要应用于一下几种场景: 将分布式节点上大量数据实时采集.汇总和转移 将集群内.外地本地文件.实时数据流采集到Fus

FusionInsight大数据开发---Kafka应用开发

Kafka应用开发 了解Kafka应用开发适用场景 熟悉Kafka应用开发流程 熟悉并使用Kafka常用API 进行Kafka应用开发 Kafka的定义Kafka是一个高吞吐.分布式.基于发布订阅的消息系统Kafka有如下几个特点: 高吞吐量 消息持久化到磁盘 分布式系统易扩展 容错性好 Kafka的适用场景 适用于离线和在线的消息消费 已对接组件 Streaming.Spark.Flume 使用Kafka的好处 解耦--使得消息生产.消费系统能够独立变更 可靠--有效解决单点故障引发系统不可用

大型企业级BI商业智能大数据可视化分析系统开发搭建

目前各个企业每天都在产出大量数据,但是关于数据也有很多痛点. 1.很多公司只有简单的报表,基本是使用Excel制作的,分析出来的结果并不全面精准. 2.企业各级管理人员无法也不可能通过ERP或业务管理软件系统掌控和管理企业,无法及时.正确.完整的获得关键业务信息并针对关键业务信息进行分析和研究,进而优化和掌控企业. 3.很多影响利润的因素,无法通过分析识别哪些是关键因素,导致不能采取有效改善措施扩大利润. 4.无法实现对公司销售运营数据的及时.有效.便捷的监控.对比.分析和预警.预测,实现对关键

樱桃好吃树难栽,学大数据开发你缺的是一片“土壤”

自大数据请添加链接描述被写进×××政府工作报告中,大数据可以说开启了真正的高速发展时代.与此同时求学者.转行者纷纷进入大数据领域,但想要在大数据领域完成华丽的转身,你可能还需要一片学习的"土壤".樱桃好吃树难栽,大数据开发海牛学院行业的薪资水平固然让很多人心动,但想要成为一名真正的大数据开发者,并不是一蹴而就的,就像种植樱桃树一样,土壤.天气.水分.施肥.修剪等等,都决定了樱桃树能否结出鲜美多汁的果实.学习大数据开发尤其是对于0代码基础的小白,最好还是能够找到一片学习的"土壤

用Vue构建一个github“可视化大数据平台”-GitDataV,设计开发分享

写在前面 GitDataV,是一个github“大数据可视化平台”,通过它你可以更直观的看到你在github里的一些数据,(之所以打双引号,是因为我觉得这个还没到大数据可视化的程度).其实我在 上篇文章 分享的时候已经提到了这个想法,通过github提供的接口,做一个自己的“大数据分析页面”,所以我就花了几天晚上的时间,把这想法从设计到开发构建出来了,那么下面我就我个人的账号测试看看效果如下gif图 如果您感兴趣可以点击这里访问简单的:GitDataV网站(目前打包后有些小bug,但不影响正常使

大数据开发之常见九种数据分析方法

今天给大家分享一篇关于大数据开发常见的9种数据分析方法,首先数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分类方法和数据处理模式,才能起到事半功倍的效果,以下是数据分析员必备的9种数据分析思维模式: 1.分类 分类是一种基本的数据分析方式,数据根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质. .在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:529

大数据开发是干什么的?

大数据作为时下火热的IT行业的词汇,随之而来的数据开发.数据仓库.数据安全.数据分析.数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点.随着大数据时代的来临,大数据开发也应运而生. 大数据开发其实分两种,第一类是编写一些Hadoop.Spark的应用程序,第二类是对大数据处理系统本身进行开发.第一类工作感觉更适用于data analyst这种职位吧,而且现在Hive Spark-SQL这种系统也提供SQL的接口.第二类工作的话通常才大公司里才有,一般他们都会搞自己的系统或

决胜大数据时代:Hadoop&amp;Yarn&amp;Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

胖子哥的大数据之路(11)-我看Intel&amp;&amp;Cloudera的合作

一.引言 5月8日,作为受邀嘉宾,参加了Intel与Cloudera在北京中国大饭店新闻发布会,两家公司宣布战略合作,该消息成为继Intel宣布放弃大数据平台之后的另外一个热点新闻.对于Intel的放弃早在预料之中,对于Intel与Cloudera合作也在意料之中,但是没有想到的是居然那么快.壮士断腕的Intel反倒让我看出几分勇气可嘉来,Cloudera的顺势而为,也被我所认同,Intel借助Cloudera的技术能力,Cloudera借用Intel的商务平台,然后彼此合作真的就能够成功?换句