检查robots文件,地址是否要爬虫,不能作为盈利为目的
准备工作http://www.taobao.com/robots.txt
- 1内容如下:百度不可以抓取淘宝首页
User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: /product/ Disallow: / User-Agent: Googlebot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-agent: Bingbot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-Agent: 360Spider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: / User-Agent: Yisouspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: / User-Agent: Sogouspider Allow: /article Allow: /oshtml Allow: /product Allow: /wenzhang Disallow: / User-Agent: Yahoo! Slurp Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-Agent: * Disallow: / 不允许任何爬虫访问该网站 1.2 网站地图
时间: 2024-08-11 07:43:35