ET采集主要逻辑是做好这三个步骤,然后开始工作
采集配置
基本设置一般不用修改
列表设置:列表网址,可能有些人不知道什么是列表网址,就是你所要采集网址放在一个页面就是列表网址,比如我们常说的栏目,一个论坛的版块:
列表页肯定不是一页,一般是有规律的,就需要设置成自动列表,具体规则参考ET
列表区域选择:一个网页大的去了,为了快速找到你想要采集的页面,需要制定区域,
一定要找唯一属性的,一般是找id 之类的,中间是你区域内容
列表分析规则:对列表进行分析,用标记替换找到我们需要的文章标题,文章网址,文章缩略图,常见的是包含a标签的,必须有单独标记
文章网址合成:根据列表分析得到的网址,合成你所要采集的页面的网址
时间: 2024-11-03 21:54:01