PHP爬数据 QueryList

QueryList官方文档:https://www.querylist.cc/docs/guide/v3

因为php版本使用5.6,所有使用QueryList v3版本,php7可以使用 v4版本

v3版本

环境要求:PHP >= 5.3

composer 安装:

composer require jaeger/querylist:V3.2.1

安装后会生成一个目录:vendor

案例

<?php
//引入QueryList
require ‘vendor/autoload.php‘;

use QL\QueryList;

//待采集的页面地址
$url = ‘https://www.cnbeta.com/‘;

//分析页面结构,制定采集规则,爬取数据

//采集规则
$rules = [
    //文章标题
    ‘title‘ => [‘a:eq(0)‘,‘text‘],
    //文章链接地址
    ‘link‘ => [‘a:eq(0)‘,‘href‘],
    //文章缩略图
    ‘img‘ => [‘img:eq(0)‘,‘src‘],
    //文章简介
    ‘summary‘ => [‘p:eq(0)‘,‘text‘]
];

//切片选择器
$range = ‘.items-area>.item‘;

$data = QueryList::Query($url,$rules,$range)->data;

echo ‘<pre>‘;
print_r($data); 

爬取结果

原文地址:https://www.cnblogs.com/mg007/p/10366279.html

时间: 2024-08-30 10:52:32

PHP爬数据 QueryList的相关文章

关于爬数据的一点点事情

由于项目需要,最近需要从网上爬数据,也因此对爬数据这一块进行了一些了解. 关于爬虫,主要说说在实验过程中几个重要的点 1.伪装浏览器访问 一开始没注意这个问题,导致多次访问不是很顺畅,有时候需要等待好久.作为一个纯真的小男孩,初始代码非常简单,就像下面这样直接建立连接,然后获得对应url的内容. s = requests.Session() connection = s.get(url) 后来,发现了上面所说的问题后,上网相关搜索了一下,对原有"纯真"的代码进行了改造,加了浏览器的一些

使用cheerio爬数据兼容gbk和utf8

使用cheerio爬数据的时候,有的页面不是使用utf8编码,而node只能识别utf8的编码, 因此,不得不将gbk数据转为uft8. var http = require('http'); var iconv = require('iconv-lite'); var cheerio = require('cheerio'); var url = require('url'); var html = ""; var getURL = url.parse('http://bj.souf

WebMagic使用代理ip爬数据解决HTTP407问题

手头一个小活儿是爬竞品网站数据.使用webmagic来实现.光公司ip不行,被封了就会影响业务正常访问.刚好公司另一个项目购买了代理IP资源“站大爷”,那个项目夭折了,于是申请借来用用. 调通站大爷提供的获取代理ip的api接口并没什么技术难度.可是,在运行爬数据程序时,收到http的407错误.经了解,407是授权错误,要求代理身份验证.站大爷技术支持提醒说检查一下产品配置.发现“一手私密代理”里当前授权模式是“用户名+密码”.然后,再看webmagic的Proxy类,有一个构造器是除了必传的

python简单爬数据(这两个成功了)

这两个做的比较早,也比较幸运,成功做出来了,把代码扔在这里 老师叫我从两个网站上弄点数据,数据不多,但是要分月份,小时,经度,纬度,虽然不用排列组合还是挺麻烦的 人生苦短,我用Python 之前就大半年前看了看语法,没有实践过,数据的网页也比较简单,也算是拿来练练手 代码里面已经包含了目标网址,就不具体介绍了,保存下来的是网页,还需要一个脚本来处理一下,这个比较简单也就不放了. 1 #!usr/bin/python import requests import time import sys #

python简单爬数据

失败了,即使跟Firefox看到的headers,参数一模一样都不行,爬出来有网页,但是就是不给数据,尝试禁用了js,然后看到了cookie(不禁用js是没有cookie的),用这个cookie爬,还是不行,隔了时间再看,cookie的内容也并没有变化,有点受挫,但还是发出来,也算给自己留个小任务啥的 如果有大佬经过,还望不吝赐教 另外另两个网站的脚本都可以用,过会直接放下代码,过程就不说了 目标网站 http://www.geomag.bgs.ac.uk/data_service/models

爬虫篇-使用cookie,user-agent简单爬数据

爬取网页数据有很多方法,我知道的就有: 1.scrapy框架,创建scrapy框架文件夹,在spider文件写上请求函数,文件保存函数等等 2.导入requests模块请求,写上请求函数和保存函数. 方法很多种,今天这章节是做简单的爬取方式了.根据cookie,user-agent请求数据. 1.导入requests模块 import requests 2.可以写一个函数,也可以直接写代码,本人觉得写函数会比较有秩序.def run():    headers = { def run(): he

用php写爬虫去爬数据

这里是我自己写的一个小需求 <?php /** 采集http://www.959.cn/school,即时更新的最新的文章内容:每分钟采集一次.采集结束后实时入库并展示. */ header("Content-Type: text/html;charset=utf-8"); date_default_timezone_set('PRC'); $con = mysqli_connect('127.0.0.1', 'xxxxx', 'xxxxx', 'xxxxx'); mysqli_

如何从Google Map爬数据

我们小组要做的是一款关于体育赛事查询的软件.这款软件涉及到了大量的数据,供用户查询.同时,我们想在这款软件里面通过Google Map的形式将数据展现给用户. Google Map所采用的是Mercator坐标系.在Google Map是以金字塔模型的方式来组织切图文件的,在金字塔模型中,地图被分成若干层,每一层数据的分辨率为上层的4倍(横向与纵向各2倍).同时,每一层数据的分辨率是极其庞大的,并且以指数形 式增加. 如果一次,将一层的数据作为一个文件返回给用户,无论从网络的传输能力.CPU处理

Python爬虫爬数据写入到EXCEL中

Python抓数据写到EXCEL中.以前都是写到txt中然后再导入到excel.现在直接写到excel中. #coding=utf-8 import xlwt import requests from bs4 import BeautifulSoup import sys reload(sys)   sys.setdefaultencoding('utf8')  #打开excel文件 data=xlwt.Workbook() #获取其中的一个sheet table=data.add_sheet(