python爬虫面试题

1、tcp和udp的区别?

  TCP(Transmission Control Protocol,传输控制协议)是面向连接的协议,也就是说,在收发数据前,必须和对方建立可靠的连接。一个TCP连接必须要经过三次“对话”才能建立起来,其中的过程非常复杂,只简单的描述下这三次对话的简单过程:主机A向主机B发出连接请求数据包:“我想给你发数据,可以吗?”,这是第一次对话;主机B向主机A发送同意连接和要求同步(同步就是两台主机一个在发送,一个在接收,协调工作)的数据包:“可以,你什么时候发?”,这是第二次对话;主机A再发出一个数据包确认主机B的要求同步:“我现在就发,你接着吧!”,这是第三次对话。三次“对话”的目的是使数据包的发送和接收同步,经过三次“对话”之后,主机A才向主机B正式发送数据。

  TCP三次握手过程:
  1 主机A通过向主机B 发送一个含有同步序列号的标志位的数据段给主机B ,向主机B 请求建立连接,通过这个数据段,主机A告诉主机B 两件事:我想要和你通信;你可以用哪个序列号作为起始数据段来回应我.
  2 主机B 收到主机A的请求后,用一个带有确认应答(ACK)和同步序列号(SYN)标志位的数据段响应主机A,也告诉主机A两件事:我已经收到你的请求了,你可以传输数据了;你要用哪佧序列号作为起始数据段来回应我
  3 主机A收到这个数据段后,再发送一个确认应答,确认已收到主机B 的数据段:"我已收到回复,我现在要开始传输实际数据了这样3次握手就完成了,主机A和主机B 就可以传输数据了.

  3次握手的特点:
  没有应用层的数据
  SYN这个标志位只有在TCP建产连接时才会被置1
  握手完成后SYN标志位被置0

  TCP建立连接要进行3次握手,而断开连接要进行4次:
  1 当主机A完成数据传输后,将控制位FIN置1,提出停止TCP连接的请求
  2  主机B收到FIN后对其作出响应,确认这一方向上的TCP连接将关闭,将ACK置1
  3 由B 端再提出反方向的关闭请求,将FIN置1
  4 主机A对主机B的请求进行确认,将ACK置1,双方向的关闭结束.
  由TCP的三次握手和四次断开可以看出,TCP使用面向连接的通信方式,大大提高了数据通信的可靠性,使发送数据端和接收端在数据正式传输前就有了交互,为数据正式传输打下了可靠的基础。

  名词解释:
  ACK  TCP报头的控制位之一,对数据进行确认.确认由目的端发出,用它来告诉发送端这个序列号之前的数据段都收到了.比如,确认号为X,则表示前X-1个数据段都收到了,只有当ACK=1时,确认号才有效,当ACK=0时,确认号无效,这时会要求重传数据,保证数据的完整性.
  SYN  同步序列号,TCP建立连接时将这个位置1
  FIN  发送端完成发送任务位,当TCP完成数据传输需要断开时,提出断开连接的一方将这位置1

  TCP的包头结构:
  源端口 16位
  目标端口 16位
  序列号 32位
  回应序号 32位
  TCP头长度 4位
  reserved 6位
  控制代码 6位
  窗口大小 16位
  偏移量 16位
  校验和 16位
  选项  32位(可选)
  这样我们得出了TCP包头的最小长度,为20字节。

  UDP(User Data Protocol,用户数据报协议)
  (1) UDP是一个非连接的协议,传输数据之前源端和终端不建立连接,当它想传送时就简单地去抓取来自应用程序的数据,并尽可能快地把它扔到网络上。在发送端,UDP传送数据的速度仅仅是受应用程序生成数据的速度、计算机的能力和传输带宽的限制;在接收端,UDP把每个消息段放在队列中,应用程序每次从队列中读一个消息段。
  (2) 由于传输数据不建立连接,因此也就不需要维护连接状态,包括收发状态等,因此一台服务机可同时向多个客户机传输相同的消息。
  (3) UDP信息包的标题很短,只有8个字节,相对于TCP的20个字节信息包的额外开销很小。
  (4) 吞吐量不受拥挤控制算法的调节,只受应用软件生成数据的速率、传输带宽、源端和终端主机性能的限制。
  (5)UDP使用尽最大努力交付,即不保证可靠交付,因此主机不需要维持复杂的链接状态表(这里面有许多参数)。
  (6)UDP是面向报文的。发送方的UDP对应用程序交下来的报文,在添加首部后就向下交付给IP层。既不拆分,也不合并,而是保留这些报文的边界,因此,应用程序需要选择合适的报文大小。
  我们经常使用“ping”命令来测试两台主机之间TCP/IP通信是否正常,其实“ping”命令的原理就是向对方主机发送UDP数据包,然后对方主机确认收到数据包,如果数据包是否到达的消息及时反馈回来,那么网络就是通的。
  UDP的包头结构:
  源端口 16位
  目的端口 16位
  长度 16位
  校验和 16位

  小结TCP与UDP的区别:
  1.基于连接与无连接;
  2.对系统资源的要求(TCP较多,UDP少);
  3.UDP程序结构较简单;
  4.流模式与数据报模式 ;
  5.TCP保证数据正确性,UDP可能丢包,TCP保证数据顺序,UDP不保证。

2、对内存中栈和堆的了解?

  栈:
       什么是栈,它是你的电脑内存的一个特别区域,它用来存储被每一个function(包括mian()方法)创建的临时变量。栈是FILO,就是先进后出原则的结构体,它密切的被CPU管理和充分利用。每次function声明一个新的变量,它就会被“推”到栈中。然后每次一个function退出时,所有关于这个函数中定义的变量都会被释放(换句话说就是删除)。一旦栈中的变量释放,这块区域就会变成可用的,提供给其他栈中的变量。
       用栈存储变量的好处是,内存是被你管理的。你不用手动的创建内存,不用当你不在需要它的时候手动释放内存。另外,由于CPU组织栈内存很高效。读出和写入栈变量是很快的。
      理解栈的关键是理解概念,当一个function退出时,所有它的变量都会从栈中弹出,以后都会永远消失。因此栈中的变量本质是局部的。这和我们原来理解为变量作用域或者本地或者全局变量是相关的。在C中,一个公共的bug 是从你程序中的一个function外尝试访问一个在栈中的这个function的变量(在该function已经退出后)。
     关于栈的另一个特点我们应该记住,就是存储在栈中的变量的大小有限制。而堆上创建变量不用考虑。
     总结栈:
      a、栈的伸长和伸缩就是函数压入或者推出局部变量。
      b、我们不用自己去管理内存,变量创建和释放都是自动的。
      c、栈中的变量只有在函数创建运行时存在。
  堆:
       堆也是我们的计算机内存中的一个区域,但是他不是自动管理的。而且也不是被CPU密切的管理着。它是一片更加自由的内存区域(很大)。要想在堆上创建内存,我们必须使用malloc() 或者calloc(),他们都是C语言编译的。一旦你在堆上分配内存,当你不在需要的时候你必须用free()去销毁。如果你不销毁或者销毁失败,你的程序就会有内存泄露。换句话说就是堆内存会一直在,其他进程无法使用。
     不像栈,堆没有变量大小的限制(除了你电脑的物理限制条件外)。堆内存读出和写入都比较慢,因为它必须使用指针图访问堆内存。
  栈和堆的优缺点:
      栈:
          a、快速访问。
          b、没有必要明确的创建分类变量,因为它是自动管理的。
          c、空间被CPU高效地管理着,内存不会变成碎片。
          d、只有局部变量
          e、受限于栈大小(取决于操作系统)
          f、变量不能调整大小。
        堆:
          a、变量可以被全局访问
          b、没有内存大小限制
          c、(相对)访问比较慢
          d、没有高效地使用空间,随着块内存的创建和销毁,内存可能会变成碎片。
          e、你必须管理内存(变量的创建和销毁你必须要负责)
          f、变量大小可以用realloc( )调整

3、爬虫框架scrapy的工作流程
  a、spider解析下载器下下来的response,返回item或是links
  b、item或者link经过spidermiddleware的process_spider_out( )方法,交给engine
  c、engine将item交给item pipeline ,将links交给调度器
  d、在调度器中,先将requests对象利用scrapy内置的指纹函数生成一个指纹对象
  e、如果requests对象中的don‘t filter参数设置为False,并且该requests对象的指纹不在信息指纹的队列中,那么就把该request对象放到优先级队列中
  f、从优先级队列中获取request对象,交给engine
  g、engine将request对象交给下载器下载,期间会通过downloadmiddleware的process_request方法
  h、下载器完成下载,获得response对象,将该对象交给engine,期间会经过downloadmiddleware的process_response( )方法
  i、engine将获得的response对象交给spider进行解析,期间会经过spidermiddleware的process_spider_input()的方法
  j、从a开始循环

4、字典、列表查询时的时间复杂度是怎样的?  
  列表是序列,可以理解为数据结构中的数组,字典可以理解为数据结构中的hashmap,python中list对象的存储结构采用的是线性表,因此其查询复杂度为O(n),而dict对象的存储结构采用的是散列表(hash表),其在最优情况下查询复杂度为O(1)。dict的占用内存稍比list大,会在1.5倍左右。

5、递归中如果没有终止条件会怎样?

  概念:递归算法是一种直接或者间接的调用自身算法的过程。在计算机编写程序中,递归算法对解决一大类问题是十分有效的。

  特点:

  ①递归就是在过程或者函数里调用自身。

  ②在使用递归策略时,必须有一个明确的递归条件,称为递归出口。

  ③递归算法解题通常显得很简洁,但递归算法解题的效率较低。所以一般不倡导使用递归算法设计程序。

  ④在递归调用的过程当中系统的每一层的返回点、局部变量等开辟了栈来存储。递归函数次数过多容易造成栈溢出等。 所以一般不倡导用递归算法设计程序

  递归如果没有终止条件会导致递归调用成为死循环而不能正常结束,并且会造成栈溢出

笔试

  1、去除列表中的重复元素

复制代码
def distinct_list(list):
    d_l = []
    for i in list:
        if i not in d_l:
            d_l.append(i)
    return d_l
复制代码
  2、得到列表的一个子列表,该列表满足列表中的元素在原列表中是连续的,且子列表的所有元素之和最大。例如[1, -2, 3, -1, 2] => [3, -1, 2]

  

原文地址:https://www.cnblogs.com/zxf123/p/9063087.html

时间: 2024-10-27 15:33:24

python爬虫面试题的相关文章

常见的Python爬虫面试题,叫面试官唱征服

是否了解线程的同步和异步? 线程同步:多个线程同时访问同一资源,等待资源访问结束,浪费时间,效率低 线程异步:在访问资源时在空闲等待时同时访问其他资源,实现多线程机制是否了解网络的同步和异步?同步:提交请求->等待服务器处理->处理完毕返回 这个期间客户端浏览器不能干任何事 异步: 请求通过事件触发->服务器处理(这是浏览器仍然可以作其他事情)->处理完毕 链表和顺序表储存时各自有什么优点?1.顺序表存储原理:顺序表存储是将数据元素放到一块连续的内存存储空间,存取效率高,速度快.但

开始我的Python爬虫学习之路

因为工作需要经常收集一些数据,我就想通过学爬虫来实现自动化完成比较重复的任务. 目前我Python的状况,跟着敲了几个教程,也算是懂点基础,具体比较深入的知识,是打算从做项目中慢慢去了解学习. 我是觉得如果一开始就钻细节的话,是很容易受到打击而放弃的,做点小项目让自己获得点成就感路才更容易更有信心走下去. 反正遇到不懂的就多查多问就对了. 知乎上看了很多关于入门Python爬虫的问答,给自己总结出了大概的学习方向. 基础: HTML&CSS,JOSN,HTTP协议(这些要了解,不太需要精通) R

Python爬虫实战(2):爬取京东商品列表

1,引言 在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript. 我们在<Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容>一文已经成功检验了动态网页内容的抓取方法,本文将实验程序进行改写,使用开源Python爬虫

转载:用python爬虫抓站的一些技巧总结

原文链接:http://www.pythonclub.org/python-network-application/observer-spider 原文的名称虽然用了<用python爬虫抓站的一些技巧总结>但是,这些技巧不仅仅只有使用python的开发可以借鉴,我看到这篇文章的时候也在回忆自己做爬虫的过程中也用了这些方法,只是当时没有系统的总结而已,谨以此文为鉴,为以前的爬虫程序做一个总结. 转载原文如下: 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,

python爬虫Urllib实战

Urllib基础 urllib.request.urlretrieve(url,filenname) 直接将网页下载到本地 import urllib.request >>> urllib.request.urlretrieve("http://www.hellobi.com",filename="D:\/1.html") ('D:\\/1.html', <http.client.HTTPMessage object at 0x0000000

python 爬虫抓取心得

quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quote('要编码的字符串') query = urllib.quote(singername) url = 'http://music.baidu.com/search?key='+query response = urllib.urlopen(url) text = response.read()

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍 前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

大量 python 爬虫源码分享--说说 python 爬虫这件小事

没有爬虫就没有互联网,越来越觉得写 Python 爬虫原来是一件快乐而高兴的事情,以下是本人收集整理的一批 python 爬虫代码,顺便分享到了别的网站上,喜欢的下下来看看吧. 内容: yunpan.360.cn.py 360 网盘爬虫 ed2k_search.py 电驴爬虫 music.163.com.py 163 音乐爬虫 music.baidu.com.py 百度音乐爬虫 pan.baidu.com.py 百度网盘爬虫 115.py 115 爬虫 91porn.py 91porn 爬虫 等

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

目录(?)[+] 前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容.        希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~        [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)