DHT网络爬虫
传统的Bittorrent服务
传统的BT服务是由两部份组成的,tracker服务和p2p服务,通过前者用户可以知道谁拥有资源,后者是通过前者向拥有资源的用户发起下载。
Trackerless
目前在大多数国家,提供tracker服务都是非法的。最终有一天tracker服务会像edonkey的服务一样消失。trackerless的需求于是变得迫切起来。
DHT网络
DHT网络就是解决trackerless目前运用最广的方案,核心算法叫Kademlia,也就是所谓的异或算法。在Bittorrent中它叫DHT,在edonkey中它叫Kad,两者算法是一至的,但细节不同,前者更注重文件传输,后者更在意文件分享。
什么是NodeID和InfoHash
在DHT网络中,所有的用户和资源都有一个20bytes的ID,用户叫NodeID,资源叫InfoHash。NodeID通常是根据用户的IP端口计算得出的(但在DHT爬虫中可以随机获取一个20bytes的串,无关紧要),InfoHash是根据torrent种子文件的info字段,用hash sha1计算得出的。在DHT协议中,
NodeID可以通过以下代码简单的得到
const nodeID = crypto.createHash(‘sha1‘).update(Math.random()*100000).digest()
通过种子文件计算得到InfoHash的代码
const infoHash = crypto.createHash(‘sha1‘).update(bencode.decode(‘file.torrent‘).info).digest()
得到可传播的magnet链接就简单了
const magnet = `magnet:?xt=urn:btih:${infoHash.toString(‘hex‘).toUpperCase()}`
可见DHT网络中用户,资源都是无区别的,所以就有了xor算法之说。NodeID之间可以用异或计算出距离,NodeID和InfoHash之间同样可以计算距离,InfoHash之间也可以计算距离。计算方法很简单,把infoHash或NodeID换为数值,然后按位异或,就得到了距离。这很关键,在下面的Routing table中会运用到。异或算法得到的距离的结果虽然不是物理上的距离关系,但是在数学逻辑上是自洽的。
DHT协议
共4条
- ping
- find_node
- get_peers (在edonkey kad中这叫find_value)
- announce_peer
ping
是用检查Node状态,用以更新Routing table
find_node
通常是用来初始化Routing table,因为一开始,你在Routing table是空的,需要通过向公共节点发送find_node来填充之。
get_peers
是当用户要下载种子资源时向其它Node发起的。如果Node有该资源,则返回资源的下载端口以供对方下载,如果没有,则根据异或算法在自己的Routing table中寻找离资源最近的Node返回给对方,对方如此递归发送get_peers,直到找到资源为止。
announce_peer
当用用户下载完种子资源,通过种子开始下载时(这里下载行为通常会回倒为tracker式下载,但也有有种子文件是有Nodes字段的,可以通过纯p2p下载)通知所有曾经get_peers咨询过的node。 announce_peer是爬虫的关键,当下载开始,用户就会通知,于是就得到了一个有效的InfoHash。
Routing table
每个Node都要维护一个Routing table以存放Node信息。 Routing table的容器为桶,称为K桶,桶的容量为8(kad中为20)。桶的数量是可以增加的,当桶的个数超过8时,桶就会平均的分裂。桶中的保存的就是Node信息,包含NodeID、IP和端口。 当Node接受到任意一条协议时,都会试图向Routing table中插入对方的NodeID,插入Rule如下:
- 通过异或算法计算距离,应该往哪个桶插入。
- 如果这个桶是不满的,则插入成功。
- 如果这个桶是满的,并且这个桶中不包含自己,则插入失败。反之则分裂这个桶,并且递归的再尝试插入。
理解Routing table是DHT爬虫的关键,可以参考协议文档
这里是一个我开发的BT搜索,磁力搜索,每天可以抓取infohash100w以上,metainfo20w以上。
爬虫的关键
通过上述基础知识,可以得到以下结论:
- 尽量认识更多的Node,这点可以通过find_node来实现。
- 尽量让自己插入到对方的Routing table中,只有这样,当对方下载资源时才会优先通知你。
- 插入对方的Routing table成功的关键在于自己的NodeID离对方的NodeID足够的近。
- 爬虫只无需现实所有的协议,只需要实现find_node(query),get_peers(response),announce_peer(response),ping(response)
- Engiy 的开源简化Node.js版DHTSpider可以参考,有疑问可以github上给我留言。