QueryList 来做采集

示例代码

先来感受一下使用 QueryList 来做采集是什么样子。

采集百度搜索结果列表的标题和链接。大理石平台价格

采集代码:

  $data = QueryList::get(‘https://www.baidu.com/s?wd=QueryList‘)
      // 设置采集规则
      ->rules([
          ‘title‘=>array(‘h3‘,‘text‘),
          ‘link‘=>array(‘h3>a‘,‘href‘)
      ])
      ->queryData();

  print_r($data);

采集结果:

 Array
  (
    [0] => Array
        (
            [title] => QueryList|基于phpQuery的无比强大的PHP采集工具
            [link] => http://www.baidu.com/link?url=GU_YbDT2IHk4ns1tjG2I8_vjmH0SCJEAPuuZN
        )
    [1] => Array
        (
            [title] => PHP 用QueryList抓取网页内容 - wb145230 - 博客园
            [link] => http://www.baidu.com/link?url=zn0DXBnrvIF2ibRVW34KcRVFG1_bCdZvqvwIhUqiXaS
        )
    [2] => Array
        (
            [title] => 介绍- QueryList指导文档
            [link] => http://www.baidu.com/link?url=pSypvMovqS4v2sWeQo5fDBJ4EoYhXYi0Lxx
        )
        //...
  )

分别采集百度搜索结果列表的标题和链接。

采集代码:

$ql = QueryList::get(‘https://www.baidu.com/s?wd=QueryList‘);
$titles = $ql->find(‘h3>a‘)->texts(); //获取搜索结果标题列表
$links = $ql->find(‘h3>a‘)->attrs(‘href‘); //获取搜索结果链接列表
print_r($titles);
print_r($links);

采集结果:

Array
(
    [0] => QueryList|简洁、优雅的PHP采集工具
    [1] => phpQuery选择器 - QueryList 4.0 指导文档
    [2] => php写爬虫进行采集 QueryList的使用 - CSDN博客
    [3] => QueryList采集在线测试
    [4] => 介绍- QueryList 4.0 指导文档
    [5] => QueryList交流社区|基于phpQuery的无比强大的采集工具
    [6] => 介绍- QueryList 3.0 指导文档
    [7] => thinkphp5使用QueryList实现采集功能 - 坚持一点点 - 博客园
    [8] => QueryList一个基于phpQuery的无比强大的采集工具 - ThinkPHP框架
    [9] => php使用QueryList轻松采集JavaScript动态渲染页面 - QueryList - ...
)
Array
(
    [0] => http://www.baidu.com/link?url=CNKBNz0t9t6YLmIfXjKYnIkcQ-JzNOpAyiAHPDSnlkmrEqMq5q9o44ElplTf7nON
    [1] => http://www.baidu.com/link?url=VKDqdL3WXxuy0xV3uHMDXRrqQlWGhh4qMQ5h4UCBw0sRJvE9uLlMbr5fE_gsURX8oehsAyzi9_QxVuC1CBjoTa
    [2] => http://www.baidu.com/link?url=rjDcaEbicrZjIG-iFJdkHJTWxoxYA2EBatxh-EyvMDdPMPxtOi8nDUi7UiuIgmW9X7o6CvcFUqPqCrqJp7M4FmRKpJ52-ceBowE0ek_jb5O
    [3] => http://www.baidu.com/link?url=9FAlKAB_4xCVP1hv_RlpPN8ROxsTSTDHpnvvxYn4j_veTkhxHfaPHUFAtc8BctDmN9ZVigMS7ggaVy778zAMzK
    [4] => http://www.baidu.com/link?url=CFOkrOHOFsWPddZC1fuRv8ZqwhbF7P6vH1Pg1covRawG6wsmszFW1qnxHf7mWKPM
    [5] => http://www.baidu.com/link?url=7kCwV_WRMZjWAeyOWP3zfX4Jx21tPeZhmyuENciN86BBd_g8znMD3JgEEfvGRbNc
    [6] => http://www.baidu.com/link?url=p3JenyGg7qtP7lSKXkbLM8_eGTzxzjJGch7__-8fmuIsZOdEQbCquS6P_NdR4LoG
    [7] => http://www.baidu.com/link?url=_EJBv9sxVtGT1paHERifcDHEaG8twDHk-Av2JD5DlkJUvipLAdNqovTdXAxijcI3LTaC3F_jYuMkHuTOJ0ic7_
    [8] => http://www.baidu.com/link?url=ad9pwRrrkyTVOB7ZMKN29XyLX1MsXRIFPbA0ldPLTQQ58Dnw_YpZFKJZwxZ-jfaL
    [9] => http://www.baidu.com/link?url=mEjYM95SeHFYCnfITubUoTOj7XWR1NparEcb3hCGqPGv_uChSvVFat6xcvyCz_9mLogw5ol5gU_isHqYRTJj2q
)

原文地址：https://www.cnblogs.com/furuihua/p/11825876.html

时间： 2024-10-29 14:26:07

QueryList 来做采集的相关文章

用python做采集时相对路径转换成绝对路径

采集时,有时候需要采集图片,但某些网站的图片提供的相对地址,最好转换成绝对地址在scrapy中有如下的解决策略 http://stackoverflow.com/questions/6499603/python-scrapy-convert-relative-paths-to-absolute-paths http://stackoverflow.com/questions/19970015/scrapy-item-loader-to-get-a-absolute-url-from-extra

Python3做采集

出于某些目的,需要在网上爬一些数据.考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了.首先翻完<深入Python3>这本书,了解了它的语法之类的.下面就以下载http://www.meinv68.com/为例子开始干活了: Http协议的实现.那本书里有介绍一个叫httplib2的库,看起来挺好.就用这个库把网页内容抓下来先. Html解析.之前有用过一些解析xml的库,但是想着html代码可能不会太严禁,就找到了一个传说中对html容错度很高的库:Beaut

PHP简单爬虫基于QueryList采集库和 ezsql数据库操作类

QueryList是一个基于phpQuery的PHP通用列表采集类,得益于phpQuery,让使用QueryList几乎没有任何学习成本,只要会CSS3选择器就可以轻松使用QueryList了,它让PHP做采集像jQuery选择元素一样简单. 官方地址:https://querylist.cc/ ezSQL PHP 是用php开发的一套轻量级的数据库类,这个数据库类占用服务器资源小,代码简洁,同时支持多种数据库的使用,安全性高. 下载地址:sjolzy.cn/php/ezSQL/bak/ez_s

PHP类推荐：QueryList|基于phpQuery的无比强大的PHP采集工具

QueryList的出现让PHP做采集从未如此简单.得益于phpQuery,让使用QueryList几乎没有任何学习成本,只要会CSS3选择器就可以轻松使用QueryList了,和jQuery选择器用法完全通用,它让PHP做采集像jQuery选择元素一样简单. 初探看看PHP用QueryList做采集到底有多简洁吧! <?php use QL\QueryList; //采集某页面所有的图片 $data = QueryList::Query('http://cms.querylist.cc/bi

为PHPcms扩展json采集

最近想用phpcms做个新闻类网站,做采集的时候发现没有json的选项,于是自己动手,增加了采集json选项. 由于有的网站并不是纯json传输,而是jsonp,因此我把json,jsonp数据都当做文本处理. 直接下载,里面有说明.

陈春雷【58同城简历采集，真实手机号联系方式获取】

现在58同城上的下载到的简历都采用了隐藏真实的手机号,使用58的虚拟号显示在前台,而这虚拟号是有有效期的,一般3天就失效了.如果想把下载到的简历保存在本地,或者保存在自己公司的人才数据库中,那要得电话一个一个去问这些求职者,非常麻烦又耗时. 如图,直接从下载到的简历中查看联系方式,是显示虚拟号的经过本大人的潜心研究,终于搞能获取到下载简历中的真实手机号了,从此,可以储备人才数据库了. 微信验证一下采集到的是否真实手机号 PS:有需要做采集或者群发脚本的,可以联系本大人 QQ微信 181-004

织梦采集用的HTML过滤标签大全

用织梦做采集的时候可以需要用到很多的采集规则,以下分享织梦采集用的HTML过滤标签大全. 织梦采集用的HTML过滤标签大全{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<object([^>]*)>{/dede:trim} {dede:trim}</object>{/dede:trim} {dede:trim}<OBJECT([^>]*)>

python 学习之电脑的发展历史

电脑的发展历史电脑的学名叫计算机,电脑是用来做计算的.在古时候,人们最早使用的计算工具可能是手指,英文单词“digit”既有“数字”的意思,又有“手指“的意思.古人用石头打猎,所以还有可能是石头来辅助计算. 缺点:手指和石头太低效了后来出现了”结绳 “记事. 缺点:结绳慢,绳子还有长度限制. 又不知过了多久,许多国家的人开始使用”筹码“来计数,最有名的就要数咱们中国商周时期出现的算筹了.古代的算筹实际上是一根根同样长短和粗细的小棍子,大约二百七十几枚为一束; 多用竹子制成,也有用木头.

HTTP 笔记与总结（8）HTTP 与内容压缩

以环球网的一篇新闻为例,抓包图: (Powered-By-ChinaCache:HIT from 060120b3g7.16 表示当前页面不是来自环球网的主服务器,而是来自中国的缓存服务器节点,HIT 表示命中,from 表示命中了哪一台服务器) Content-Length:8306 当把当前页的源代码复制到 html 文件中,会发现文件的大小大于 Content-Length 显示的字节数. 原因在于 Content-Encoding:gzip 这个响应头信息. 为了加快网页在网络上的传