本章将介绍系统开发的相关理论和技术,包括系统的理论依据和开发环境。
2.1系统开发理论依据
2.1.1 网络爬虫技术
网络爬虫(Web crawler),是一种按照一定规则,自动的抓取万维网信息的程序或脚本。
2.1.2HTML
HTML(HyperText Markup Language),即超文本标记语言,是指页面内可以包含非文字的丰富多彩的内容。HTML是标准通用标记语言的下一个应用,也是一种规范,一种标准,它通过程序中的标记来对网页中的内容进行排版与设计。HTML的结构包括提供关于网页信息的“头”部分(英语:Head)、和提供网页具体内容的“主体”部分(英语:Body)。
通过在HTML文件中添加相关的标记符可以操作文字的处理方式,也可以对网页上的图片等内容进行排版。浏览器会按顺序阅读网页文件,然后解释标记符并显示其标记的内容,当遇到书写出错的标记符时,不会给出错误提示,也不会停止其解释执行过程,因此网页开发人员通常只能通过显示效果来分析出错原因和出错部位。但需要注意的是,对于不同的浏览器,对同一标记符可能会有不完全相同的解释,因而可能会有不同的显示效果。
HTML深受欢迎的主要原因是其具备诸多优点
时间: 2024-09-28 22:06:59