课题:爬取58同城房产信息一、服务器架构:1.C/S:(client/server)客户端/服务器客户端提供请求,服务端响应请求进行对应的处理,并返回给客户端,客户端来显示这些内容。2.B/S:B/S(browser/server) 浏览器/服务器用户界面是完全通过www浏览器来实现,一部分事务在前端实现,主要事务逻辑再服务器端实现。 二、rul和httpurl:全球统一资源定位符。(网址,地址)http协议:是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。 设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。网络资源:公国互联网可以访问到的网页,图片,流媒体,文件,接口。一个网页一般有多个网络资源组成。一次http请求一般只能请求一个网络资源。 三、Web原理:客户端浏览器->http请求->cocket服务->服务器 路由系统分发请求->业务模块->处理http请求->http响应->客户端浏览器 四、用爬虫获取数据1.目标数据 找到所在网页的 URL。2.分析Http请求流程,找到下载目标数据的那条http请求。3.伪造这个http请求流程 url method data headers 下载数据。4.提取和清洗数据。5.数据持久化。保存到本地文件,保存到数据库。
五、开发环境: python3 + windows +pycharm 第三方库:requests 安装 pip install requests 命令行
代码部分:
原文地址:https://www.cnblogs.com/wxq201810/p/9800882.html
时间: 2024-10-05 12:08:00