对于爬虫来说,在听到ip代理的时候,听得最多的莫过于透明代理、匿名代理、高匿代理这几个词了,那么分别是什么意思呢?互相之间有什么样的区别呢?
为什么说爬虫ip代理一定要使用高匿代理呢?
带着这些问题,让飞蚁代理为您来揭开匿名级别的面纱。
第一高匿名:服务器不知道你使用了代理ip和不知道你真实ip
第二匿名:服务器知道你使用了代理ip但不知道你的真实ip
第三透明:服务器知道你使用了代理ip而且知道你真实ip
高匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。
普通匿名代理能隐藏客户机的真实IP,但会改变我们的请求信息,服务器端有可能会认为我们使用了代理。不过使用此种代理时,虽然被访问的网站不能知道你的ip地址,但仍然可以知道你在使用代理,当然某些能够侦测ip的网页仍然可以查到你的ip。
透明代理的意思是客户端根本不需要知道有代理服务器的存在,但是它传送的仍然是真实的IP。你要想隐藏的话,不要用这个。
大家都知道,代理ip是爬虫的基础,而高匿ip代理更是爬虫代理的重中之重,完全马虎不得,至于要如何选择高匿爬虫ip代理,这个学问就有点大了,但是我觉得不能单纯地介绍代理商的名字,因为每个人所做的业务是不一样的,这就造成了不一样的可用率,甚至不合适的模式,这并不是说代理不够好,而是业务模式不匹配,我更建议大家多测试多对比几家,选择最合适自己的爬虫代理ip提供商。
原文地址:http://blog.51cto.com/13949050/2307728
时间: 2024-11-05 18:57:06