参考书籍:《自己动手写网络爬虫》
网络爬虫的基本操作是抓取网页。
“打开”网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请穷求,把服务器端的文件“抓”到本地,再进行解释,展现。更进一步,可以通过浏览器端查看“抓取”过来的文件源代码,
url(Universal Resource Identifier)通用资源标志符
uri通常由三部分组成:1访问资源的命名机制2存放资源的主机名3资源自身的名称
时间: 2024-10-24 16:33:51
参考书籍:《自己动手写网络爬虫》
网络爬虫的基本操作是抓取网页。
“打开”网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了一次请穷求,把服务器端的文件“抓”到本地,再进行解释,展现。更进一步,可以通过浏览器端查看“抓取”过来的文件源代码,
url(Universal Resource Identifier)通用资源标志符
uri通常由三部分组成:1访问资源的命名机制2存放资源的主机名3资源自身的名称