后端程序员之路 34、Index搜索引擎实现分析3-对文章索引的两层分块

# part_indexer 对文章根据id的hash进行分块索引
- 持有 search_index _inc_index[2]; search_index _history_index[2]; 进行实际的搜索操作
- get_size 调用search_index的search
- get_all_items 调用search_index的get_all_items
- search 根据条件获取一批文章
- 传入user_profile_t、search_params_t、filter_judge用于搜索
- 传入p_scoring用于打分，当搜索结果多于search_params._count时根据scores取前面的文章
- get_item
- 传入doc_id，调用search_index的get_item获取文章
- 执行search_index.get_forward_index_ptr()->filter_ids()

# search_index 对文章根据语言、地域、类型进行分块索引
- 持有 index_box _index_box; IndexBoxes _index_boxes;
- get_items _index_box.get_items(docid_vect, result, filters)
- get_all_items _index_box.get_all_items
- 持有 std::map<std::string, uint32_t> _language_pool，_region_pool，_type_pool
- inc_data、insert_doc 添加文章
- 区分文章的LANGUAGE、REGION、TYPE，拼成字符串进行hash作为key
- _index_boxes[key].insert_doc(doc); 或者 _index_boxes.insert({key, box});
- _index_box.insert_doc(doc);
- search
- generate_keylist search_params->keylist
- foreach cit in keylist
- fit = _index_boxes.find( *cit );
- fit._inverted_index.trigger

时间： 2024-10-09 00:34:29

后端程序员之路 34、Index搜索引擎实现分析3-对文章索引的两层分块的相关文章

后端程序员之路 35、Index搜索引擎实现分析4-最终的正排索引与倒排索引

# index_box 提供搜索功能的实现- 持有std::vector<ITEM> _buffer; 存储所有文章信息- 持有ForwardIndex _forward_index; - _forward_index.build_findex( _buffer ) - get_all_items _forward_index.get_all_items - get_items _forward_index.get_items(docid_vect, result, filt

后端程序员之路 47、Hadoop hdfs

Hadoop的核心是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase.Hive等,这些都是基于HDFS和MapReduce发展出来的.Hadoop Distributed File System,简称HDFS,是一个分布式文件系统.MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型.Hadoop典型应用有:搜索.日志处理.推荐系统.数据分析.视频图像分析.数据保存等. 什么是HDFS及HDFS架构设

后端程序员之路 40、Pthreads

POSIX线程(POSIX threads),简称Pthreads,是线程的POSIX标准.线程这个东西在操作系统原理里讲得比较清楚了,再加上对windows那一套进程线程的东西比较清楚,所以这里还是很多可以直接类比学习的. # 基本结构和概念- pthread_t:线程ID,可以基本认为和windows一样是个DWORD- pthread_attr_t:线程属性,主要包括scope属性.detach属性.堆栈地址.堆栈大小.优先级等- pthread_mutex_t, 互斥体 # 线程操作函数

后端程序员之路 39、一个Protocol Buffer实例

实际工作的Protocol Buffer使用经验 # 写proto文件- 协议版本项目用的是protobuf2,所以要指定 syntax = "proto2";- 包名 package xxx_yyy;- 优化选项 option optimize_for=LITE_RUNTIME;- 导入其它依赖的proto import "typea.proto";- message定义 - required定义必选 - repeated定义重复项,底层实现一般是l

后端程序员之路 12、K最近邻(k-Nearest Neighbour，KNN)分类算法

K最近邻(k-Nearest Neighbour,KNN)分类算法,是最简单的机器学习算法之一.由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合.该算法的功能有:从目标区域抽样计算欧式或马氏距离:在交叉验证后的RMSE基础上选择启发式最优的K邻域:计算多元k-最近邻居的距离倒数加权平均. 机器学习(一)——K-近邻(KNN)算法 - oYabea - 博客园http://www.cnblo

后端程序员之路 38、Scala入门

Scala 是 Scalable Language 的简写,是一门多范式的编程语言. 语言特性:1.面向对象,所有值都是对象,类可以继承和组合:2.函数式,支持闭包,支持柯里化等等:3.静态类型,支持泛型,支持模式匹配:4.支持Actor并发模型,使用Akka实现. 和c++/java相比,有意思的特性:1.Trait 特征,不是c++的萃取相当于接口,但是可以定义属性和方法,相当于c++的非纯虚函数接口声明类 2.模式匹配函数式语言的标配了,x match {},case a => b,匹配x

后端程序员之路 26、CAP理论

可能是CAP理论的最好解释 - 西代零零发 - 博客频道 - CSDN.NEThttp://blog.csdn.net/dc_726/article/details/42784237 CAP理论 - ThinkDiff - 博客园http://www.cnblogs.com/bodhitree/p/5779213.html CAP理论 - 老码农的专栏 - 博客频道 - CSDN.NEThttp://blog.csdn.net/chen77716/article/details/30635543

后端程序员之路 3、fastcgi、fastcgi++

CGI与FastCGI - wanghetao - 博客园http://www.cnblogs.com/wanghetao/p/3934350.html eddic/fastcgipp: A C++ FastCGI and Web development platform:https://github.com/eddic/fastcgipp fastcgi++: Main Pagehttp://isatec.ca/fastcgipp/ 分布式(1):nginx+spawn-fcgi+fchi +

后端程序员之路 2、nginx、php

nginx是由俄罗斯人开发的一种实现web服务器的工具,主要是为俄罗斯的第三大门户网站实现反向代理加速的服务器. Linux(CentOS)下,下载安装Nginx并配置 - jtlgb - 博客园http://www.cnblogs.com/jtlgb/p/5809808.html 也可以配置源,然后直接yum install nginx Nginx开发从入门到精通 — Nginx开发从入门到精通http://tengine.taobao.org/book/ 针对Nginx的PHP安装和针对ap

猜你喜欢

vmware虚拟机移植带来的问题

虚拟机的好处很多,能够随意装各个操作系统进行学习和试验,可以在一台物理机器上干多台机器的活, 还能够携带,随意拷贝到其他机器上,继续使用.但是在移植拷贝中出现的问题值得注意: 1)网卡的mac地址(网 ...

JSON 基础解释.

JSON.(JavaScript Object Notation) JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation) JSON 是轻量级的文本 ...

使用jQuery快速高效制作网页交互特效(1)

引入外部的js文件该js文件中不允许存在<script>标签 //单行注释 /* 多行注释 */ prompt是弹出一个窗口接受用户的输入不常用 isNaN 非数字 onc ...

程序在内存中的分布

转载,原文地址:http://blog.csdn.net/hackbuteer1/article/details/6786811 在现代的操作系统中,当我们说到内存,往往需要分两部分来讲:物理内存和虚 ...

排序算法五：随机化快速排序(Randomized quicksort)

上一篇提到,快速排序的平均时间复杂度是O(nlgn),比其他相同时间复杂度的堆排序.归并排序都要快,但这是有前提的,就是假定要排序的序列是随机分布的,而不是有序的.实际上,对于已经排好的序列,如果用快 ...

欧几里得算法求最大公约数（gcd）

关于欧几里得算法求最大公约数算法, 代码如下: int gcd( int a , int b ) { if( b == 0 ) return a ; else gcd( b , a % b ) ; } ...

SharePoint 基于 REST API使用简介

之前已经介绍了SP2010中支持CSOM的API进行远程访问SharePoint,但是CSOM的API仍然有一定的局限性,首先使用CSOM类库是基于.Net的,因此也将使用CSOM限制在了.Net平台 ...

创建，插入，删除一个document（createing，indexing and deleteing a document）

创建,插入,删除的请求都是写操作,在把primary shard复制到相对应的replica shard之前,这些操作必须是成功的.如图: 下面将会有序列出使用crate,index,delete在p ...

CAGradientLayer颜色渐变器

使用CAGradientLayer可以实现颜色的渐变, 我们先看下头文件 @interface CAGradientLayer : CALayer @property(nullable, copy) ...

linux 环境变量设置错误导致 command not found

在~/.bashrc 或者/etc/profile 中设置的环境变量有问题会导致诸如:linux bash: dircolors: command not found .bash: vi: com ...

unix时间戳time_t与UTC时区的关系

一般我用C写unix时间戳是这样子的 #include<stdio.h> #include<time.h> void printfDateTimeStr(struct tm * ...

SQL_DML简单操作

***********************************************声明*************************************************** ...

Java基础学习笔记三 Java基础语法

Scanner类 Scanner类属于引用数据类型,先了解下引用数据类型. 引用数据类型的使用与定义基本数据类型变量不同,引用数据类型的变量定义及赋值有一个相对固定的步骤或格式. 数据类型变量名 ...

Ansible Tower01

文档:http://docs.ansible.com/ansible-tower/ 本文以Ansible-tower-3.1.2 OS为CentOS7.2为例. 一.安装前注意事项 The Tower ...

Mysql主从状态监控脚本

目标:对Mysql从库进行状态监控,如果从库复制异常就告警思路: 1.首先查找Mysql从库的4个参数值(show slave status根据这个命令):分别是从库的IO线程.SQL线程.复制延迟 ...

未找到类型或命名空间名称" " (是否缺少 using 指令或程序集引用?)

原文:http://www.cnblogs.com/zhangzhifeng/p/3607519.html 现象:编译项目时提示未找到类型或命名空间名称" " (是否缺少 usin ...

页面编辑器传值到C#后台检测到有潜在危险的 Request.Form 值

这种错误一般出现在使用富文本编辑工具,或者其他需要向服务器提交脚本的时候.这主要是由于新版的.NetFramework的安全机制决定的.新.NetFramework4.0及4.5(3.5没试过)中都不 ...

git worktree

git clone,不管是single-branch,还是non-single-branch,随着时间的推移,不停的编译.更新.编译...workspace占的空间越来越大.我目前工作的一个branc ...

【树的点分治——模板】

1 #define Troy 9/28/2017 2 3 #define inf 0x7fffffff 4 5 #include "cstdio" 6 #include " ...

罗马数字转化

IV=4 #include<cstdio> #include<cstring> #include<iostream> using namespace std; ch ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.