1 0-对db单独写一个类,却对proxy不单独设类,不公平! 2 1-情景 3 python-scrapy-proxy+ADSL 4 grab-AMZglobalSite:reviews,ranking,....... 5 当前代码结构:dbTool.py metaSpider.py reviewsSider.py,rankingSider.py,...... 6 在metaSpider.py类中实现dbTool.py类(从db获取下一个grab-url),def proxy1(),def proxy2()(多个处理代理的方法),在“一线实现具体采集业务”的xyzSider.py中实现metaSpider.py类 7 2-tmpSolution 8 "是啊,我也想把proxy搞出去啊,可是目前写不出来啊"
1 0-这个字段加不加? 2 1-情景 3 AMZglobalSite商品详情页-grab评分与当前总评分/4分比较得出差评,将采集软件切换到python,进入url是通过站点(uk,fr)+asin,php分析采集数据,给email至运营订阅者。 4 5 在用采集软件的同学处理是未发现一个现象“如phone case 商品页的商品主体区域的右上角,不同颜色的商品可能是不同的asin,此外有size属性的商品不同size的asin可能也是不同的,而评论区的reviews是这些商品reviews的集合,而不仅仅是page-url中的asin” 6 上述现象进一步导致给运营订阅者的email中的“差评用户id-订单id-asin”三者不匹配 7 8 python同学将单个page-url中的每一条reviews的asin均存入数据库,新加‘new-asin’字段。 9 因为‘new-asin’才是和每一条reviews准确对应的‘asin’,导致php同学将要修改grab-data的分析脚本和发送email相关的脚本。 10 11 2-tmpSolution 12 13 db不新加字段,php代码不修改:在python 写入数据库的入口过滤掉reviews-asin与pagre-url-asin不同的数据,不入库,以此来保证入库数据的准确性和避免oldClode的修改。
时间: 2024-10-21 21:17:44