SCRUM 12.21

从爬虫遇到的问题中我们学会了:

    1.有的网站是有反爬虫机制的,外卖网站(我们猜测基本所有盈利性质的网站可能都是)全部都有。

    2.我们对于反爬虫机制有了一定的了解。

      本次爬虫测试中,我们最后连美团网站都无法打开,显然是美团对于爬虫做出了回应,这个回应会是什么呢?应该并非IP封锁,因为平时大家都要用,如果是IP被封的话应该不仅仅是我们的组员无法连接到美团网站。

      我们上网查找了一些可能性。根据http://blog.csdn.net/leoleocmm/article/details/17391105这篇博客中所说,可能是爬虫的User Agent被识别后拒绝了。“统计每天的production.log,抽取User-Agent信息,找出访问量最大的那些User-Agent”,这是原博文中的一句话,我们猜测或许美团采取的就是这种,因为最初我们能够爬下有限的一些网页。可能美团统计的周期比较短所以发现的比较快。

如果再让我们尝试一次,或许我们也不是很有办法做出能够很好应对这个问题的方案,毕竟我们的技术水平有限,而且资本不足。但是,我们可以做出一些可能有较小效果的改变:

比如,我们可以每天爬取一小部分数据,这样的话应该不会产生很大的访问量,但是效率可能非常低。就像当初俄罗斯的黑客们通过几kb/s的速度,甚至可能更慢的速度偷偷盗取了微软(或者某知名公司)刚上市的一款软件重要信息。

工作分配与昨天一样。

成员 已完成任务 新任务
彭林江 研究美团爬虫  落实API
牛强  研究美团爬虫 落实意见反馈功能测试
高雅智 研究美团爬虫 测试已完成组件
郝倩 研究遍历美团数据方法 提升爬虫程序性能
王卓 研究遍历美团数据方法 提升爬虫程序性能
张明培育 实施UI改善 实施UI改善

今天的燃尽图如下

上面的这个燃尽图是有些问题的

可对比下面的燃尽图中的两个红点,者分别代表12.19和12.20真正的位置,之前由于TFS出了问题,导致19号的工作量为0,20号的工作量与21号的工作量被一同计算了。

时间: 2024-10-28 14:32:28

SCRUM 12.21的相关文章

Daily scrum 12.21

今天ui组反映了一个数据库数据类型的问题,开发人员在完成任务后再去处理. Member Today’s task 林豪森 与学霸其他小组交流,处理整合问题 宋天舒 修复数据库问题 张迎春 修复数据库问题 黄漠源 持续处理问题 张志浩 记录阶段问题 刘翔宇 持续处理问题 叶露婷 处理翻译过程出现的部分问题 旦增晋美 同步添加设计文档 燃尽图:

Daily Scrum 12/21/2015

Process: Zhaoyang: Integrate the oxford Speech API Code to the IOS client and do some UI optimization. Add the time and location filter which are the new feature. Yangdong: Learn to configration of the Azure server like the RDFF/FFE and the Fabric co

【我的书】Unity Shader的书 — 文件夹(2015.12.21更新)

写在前面 感谢全部点进来看的朋友.没错.我眼下打算写一本关于Unity Shader的书. 出书的目的有以下几个: 总结我接触Unity Shader以来的历程,给其它人一个借鉴.我非常明确学Shader的艰难,在群里也见了非常多人提出的问题. 我认为学习Shader还是一件有规律可循的事情,但问题是中文资料难觅,而大家又不愿意去看英文...这对我有什么优点呢?强迫我对知识进行梳理,对细节问题把握更清楚. 第二个原因你懂的. 关于本书的定位问题: 面向Unity Shader刚開始学习的人,但要

12.21 php-fpm的pool,

12.21 php-fpm的pool 1. 添加pool: [[email protected] ~]# vim /usr/local/php-fpm/etc/php-fpm.conf 添加第二个pool: [hao1.com] listen = /tmp/hao1.sock listen.mode = 666 user = php-fpm group = php-fpm pm = dynamic pm.max_children = 50 pm.start_servers = 20 pm.min

12.21 php-fpm的pool;12.22 php-fpm慢执行日志;12.23 ;12.24

12.21 php-fpm的pool 1.添加pool: [[email protected] ~]# vim /usr/local/php-fpm/etc/php-fpm.conf 添加第二个pool: [hao1.com] listen = /tmp/hao1.sock listen.mode = 666 user = php-fpm group = php-fpm pm = dynamic pm.max_children = 50 pm.start_servers = 20 pm.min_

12.21 php-fpm的pool 12.22 php-fpm慢执行日志 12.23 open_b

12.21 php-fpm的pool [[email protected] etc]# vim php-fpm.conf [[email protected] etc]# mkdir php-fpm.d [[email protected] etc]# cd php-fpm.d [[email protected] php-fpm.d]# vim www.conf [[email protected] php-fpm.d]# vim martin.conf [martin] listen = /

12.21 php-fpm的pool 12.22 php-fpm慢执行日志 12.23 open_basedir 12.24 php-fpm进程管理

12.21 php-fpm的pool php-fpm有一个概念叫pool,就是使用psaux看到的右侧的那一列,也就是它的池子, 如下图,我们在这里只定义了一个pool 其实他是支持定义多个池子的,每一个池子我们可以监听不同的sock,或者不同的tcpip,这样的话如果我们的nginx有好几个站点每个站点都可以使用不同pool,这样做的好处就是其中一个php502了,其他站点不收影响,(502很有可能是php资源不够了)如果你所有的网站都使用了同一个池子的话,其中一个网站发生了故障,比如程序员写

Notes of Daily Scrum Meeting(12.21)

今天的燃尽图把周六的进度加了进来,由于我的失误没有及时更新TFS,所以出现了一些错误,向大家道歉. 下面是今天的任务总结: 团队成员 今日团队工作 陈少杰 继续进行网络连接的调试 王迪 测试搜索的功能,优化算法 金鑫 美化界面,对UI进行测试 雷元勇 测试搜索功能,修改bug 高孟烨 对UI进行细节上的修改,主要保持图标的位置风格一致 李承晗 测试网络连接的不同方法 郑培蕾 写团队博客,督促队员学习,协调进度,联系学长 燃尽图:

Daily Scrum 12.4

今日完成任务: 对数据库完成了整理,以下是整理的内容: # 表 改动 原因 1 Answer 保留credit列,作为投票数 建议改名为vote,同意?   2 Answer qid.uid设置为外码 3 AnswerLog 删除qldate 冗余,qltime已经记录了日期 4 Class 删除表 1.这个表没有内容 2.问题.文档的描述应该统一使用已经定义好的标签(学霸网站只做计算机领域,不需要再设置类别,标签足以反映具体类别信息)3.实现分类管理的话,网站改动代价很高 5 Comment