本章我们将学到如何检索网页、建立索引、对网页进行搜索,以及多种不同方式对搜索结果进行排名。
一.搜索引擎的组成
(一)建立搜索引擎的步骤:
1.找到一种搜索文档的方法。
(1)有时可能会涉及针对网页的抓取:在互联网上先从一小组网页开始,然后再根据网页内的链接逐步追踪其它网页。
(2)而有时可能需要我们在一组固定数量的文档范围内进行搜集,这些文档可能来自于某个公司的内部网络。
2.为文档建立索引
通常我们需要建立一张大的表,表中包含了文档及所有不同单词的位置信息。
3.通过查询返回一个经过排序的文档列表
为了运行本章中的示例,我们需要建立一个Python的模块,其中包含两个类:
一个用于检索网页和创建数据库;另一个则通过查询数据库进行全文搜索。
首先建立一个名为searchengine.py文件,并加入crawler类和相应的方法签名,稍后我们将进一步完善该类:
二.一个简单的爬虫程序
三.建立索引
四.查询
五.基于内容的排名
六.利用外部回指链接
七.从点击行为中学习
时间: 2024-12-21 15:10:55