AntColony 磁力搜索引擎的核心

介绍

AntColony(Github)是findit磁力搜索引擎的核心。用来在DHT网络中,收集活跃资源的infohash,下载并解析资源的种子文件,存入数据库等。AntColony是若干功能的合集,也可以单独运行其中的部分功能,所以起“蚁群”这个名字也是很贴切的(没错,我就是爱动物世界)。主要分一下几块:

  • worker:爬虫,收集资源infohash,可以同时启动多个进程的worker,提高效率
  • male:根据收集来的infohash去下载种子文件
  • female:将种子文件录入数据库
  • queen:简单的入口,启动pm2运行worker,male和female

目前启动5个worker使用3000-3004的端口,2个male和1个female。

使用Mongodb储存数据,这没什么好说的;使用pm2维护和监控node进程,也没太多要说的,重点说下Redis。Redis里暂存的数据大概是这样的:

  • bucket:比较大的一个K桶
  • infohash:就是已经收集到的infohashs(worker收集来的,male会用来下载种子)
  • remoteNodes:worker新认识的节点,会依次“拜访”的,目前只保存最新的10w个(一方面我的VPS内存小,另一方面真没必要记录太多)
  • sysInfo:记录一些统计信息,例如发出多少次请求,累积收集多少infohashs,目前已经发出15亿次Request,这个频率是可控的,worker 太疯狂的话,VPS扛不住。

安装&运行方法

详细的使用方法请查看部署文档
其他内容查看 http://keenwon.com/1436.html

磁力搜索站点演示

http://www.cili123.me/

原文地址:https://www.cnblogs.com/cilisousuo/p/12099523.html

时间: 2024-11-11 19:15:32

AntColony 磁力搜索引擎的核心的相关文章

最全BT磁力搜索引擎索引(整理分享,不断更新...)

最全BT磁力搜索引擎索引(整理分享,不断更新...) btkitty:http://cnbtkitty.com/(知名的BT磁力搜索,资源很多) idope.se:https://idope.se/(资源丰富的BT磁力搜索,并且大多数速度下载速度很快) 磁力搜吧:http://www.cilisoba.net/(2013年出的BT磁力搜索引擎,无广告界面清爽) 69MAG 磁力:http://www.69mag14.info/ 69MAG电视剧.电影磁力搜索引擎,界面简洁干净 飞客 BT:htt

最全BT磁力搜索引擎,国外最受欢迎的BT-磁力网站(整理分享,每日不断更新...)

最全BT磁力搜索引擎索引(整理分享,每日更新) 1.海盗湾 The Pirate Bay 2.磁力天堂(BT磁力搜索下载-磁力天堂) www.berrh.com  (资源多,下载速度可以,建议用手机访问) 3.KickAssTorrents 4.Torrentz 5.zooqle 6.SumoTorrent 7.TorrentDownloads 8.Rarbg 9.EZTV 原文地址:https://www.cnblogs.com/kaschie/p/12248711.html

python语言磁力搜索引擎源码公开,基于DHT协议,十二分有技术含量的技术博客

之前我在写百度网盘爬虫,百度图片爬虫的时候答应网友说,抽时间要把ok搜搜的的源码公开,如今是时候兑现诺言了,下面就是爬虫的所有代码,完全,彻底的公开,你会不会写程序都可以使用,不过请先装个linux系统,具备公网条件,然后运行: python startCrawler.py 有必要提醒你,数据库字段代码中都有,请你自己建张表格,这个太简单了,就不多说了.同时我也提供一下下载地址,源码都在:下载地址1 下载地址2 代码如下: #!/usr/bin/env python # encoding: ut

python语言磁力搜索引擎源码公开,基于DHT协议

之前我在写百度网盘爬虫,百度图片爬虫的时候答应网友说,抽时间要把ok搜搜的的源码公开,如今是时候兑现诺言了,下面就是爬虫的所有代码,完全,彻底的公开,你会不会写程序都可以使用,不过请先装个linux系统,具备公网条件,然后运行: python startCrawler.py 有必要提醒你,数据库字段代码中都有,请你自己建张表格,这个太简单了,就不多说了.同时我也提供一下下载地址,源码都在:下载地址1 下载地址2 #!/usr/bin/env python # encoding: utf-8 "&

第1章 搜索引擎及其技术架构

搜索引擎依托于互联网,它是互联网网站和应用的入口. 1,搜索引擎技术的发展史 第一代:文本检索的一代 采用经典的信息检索模型,比如布尔模型.向量空间模型或概率模型,来计算用户查询关键词和网页文本内容的相关程度.并没有利用到网页之间的链接关系. 第二代:链接分析的一代 充分利用网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义.通常而言,网页链接代表一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页.这种重要性本质上是对网页流行程度的一种衡量.搜索引擎通过结合网页流行性和内容相似

搜索引擎 (一)全文资源检索框架Lucene

今天来写写搜索,现在做的这个项目中涉及到了很多的搜索大部分是我做的,有次经理问我有没有用过luence这个搜索引擎,这个还真没有用过只是听说过有这么个搜索工具包,一直没有接触过,利用做项目空闲的时间也在逐渐了解搜索方面的东西,对搜索也重新认识了一下觉得搜索方向还是很值得我们研究和应用的. 在学习方面有时选择好一个正确的学习方向是比较重要的,在我们学的过程中米老师给我指明了方向所以你不会迷茫,也知道下一步将要学习什么,但慢慢的你需要自己确定学习什么,转变角色,互联网这么发达信息量如海一般在你面前呈

这就是搜索引擎--读书笔记八--检索模型与搜索排序

检索模型与搜索排序 前言 搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏以及用户接受与否.尽管搜索引擎在实际结果排序时融合了上百种排序因子,但最重要的两个因素还是用户查询和网页的内容相关性及网页链接情况.那么,我们得到用户搜索词之后,如何从内容相关性的角度上对网页进行排序输出呢? 判断网页内容是否与用户查询相关,这依赖于搜索引擎所采用的检索模型.搜索引擎的核心是判断哪些文档是和用户需求相关的,并按照相关程度排序输出,所以相关程度计算是将用户查询和文档进行匹配的过程,而

搜索引擎网页排序算法

2.1基于词频统计——词位置加权的搜索引擎 利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术.其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好. 1)词频统计 文档的词频是指查询关键词在文档中出现的频率.查询关键词词频在文档中出现的频率越高,其相关度越大.但当关键词为常用词时,使其对相关性判断的意义非常小.TF/IDF很好的解决了这个问

搜索引擎的检索模型-查询与文档的相关度计算

1. 检索模型概述 搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度.实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况.这里我们主要总结网页内容和用户查询相关的内容. 判断网页内容是否与用户査询相关,这依赖于搜索引擎所来用的检索模型.检索模型是搜索引擎的理论基础,为量化相关性提供了一种数学模型,是对查询词和文档之间进行相似度计算的框架和方法.其本质就是相关度建模.如图所示,检索模型所在搜索引擎系统架构位置: 当然检