百度收录链接抓取小程序

set_time_limit(0);
header("Content-type:text/html;charset=utf-8");
    $updatePoint = date("Y-m-d", time());
    $patMD = date("m-d", time());
$xmlDatas = ‘‘;
for($i=0;$i<76;$i++)
{

$page = $i*10;
$conts = file_get_contents("http://www.baidu.com/s?wd=site%3Awww.xxxx.com%20%E4%B9%90%E5%A4%A9%E5%A0%82&pn={$page}&oq=site%3Awww.xxxx.com%20%E4%B9%90%E5%A4%A9%E5%A0%82&ie=utf-8&rsv_idx=1&rsv_pq=aff4775f00063733&rsv_t=ff065MbpZuOoe%2B%2BV4iOkvVuzeSXd1n2FRBQwnnwPHtpsy%2F7pPFaTfcrWm4M&f=8&rsv_bp=1&tn=baidu");
$pat = ‘|\\"http://www.baidu.com/link\?url=?([^>]*)\\"\s|U‘;   

$xmlDatas .= getLists($pat, $conts, $updatePoint);

}

 if(file_exists(dirname(__FILE__)."/silian.txt")){
        file_put_contents(dirname(__FILE__)."/silian.txt", $xmlDatas);
    }else{
        $fp = fopen(dirname(__FILE__)."/silian.txt", ‘w+b‘);
        fwrite($fp, $xmlDatas);
        fclose($fp);
    }

    function getLists($pattern, $contents, $updatePoint){
        preg_match_all($pattern, $contents, $matches);

        $lists = $matches[0];
        $xmlData = "";
        $lists = array_unique($lists);//过滤重复的 ；

        if(!empty($lists)){

            foreach ($lists as $key => $value) {
                # code...

                $value = trim($value, ‘"‘);

                $value = substr($value, 0,-1);
                $value = trim($value,‘"‘);

                $info = parse_url($value);

                $fp = fsockopen($info[‘host‘], 80,$errno, $errstr, 30);

                fputs($fp,"GET {$info[‘path‘]}?{$info[‘query‘]} HTTP/1.0"."\r\n");
                fputs($fp, "Host: {$info[‘host‘]}"."\r\n");
                fputs($fp, "Connection: close"."\r\n");
                fputs($fp, "\r\n");
                $rewrite = ‘‘;
                while(!feof($fp)) {
                    $line = fgets($fp,512);
                    if($line != " " ) {
                        if(strpos($line,‘Location:‘) !== false) {
                            $rewrite = str_replace("Location: ",‘‘,$line);
                        }
                    }else {
                        break;
                    }
                }

                $value = $rewrite;

                $xmlData .=  $value ;
            }
            return $xmlData;
        }else{
            exit();
        }
    }

此抓取主要用于百度收录的网址查询，没有直接按关键词查询来查询收录情况。

时间： 2024-11-09 02:53:10

百度收录链接抓取小程序的相关文章

抓取小程序

前言 ,想利用小程序导航页面来提升网站的流量,找到 www.xcxdh666.com 该小程序导航网站. 分析网页 1 发现网站其实也是用异步分页请求加载数据的 ,所以根本用不着xpath 解析html,直接分析其请求url 2点击加载更多找到请求,发现其实就 pageNum ,cagegory 两个参数 3所以直接请求url 带入参数,分析起返回json结果编写代码 1 首先建立接收类型 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

简单抓取小程序大全，并展示

前言,想利用小程序导航页面来提升网站的流量,找到www.xcxdh666.com该小程序导航网站. 分析网页 1发现网站其实也是用异步分页请求加载数据的,所以根本用不着xpath解析html,直接分析其请求URL 2点击加载更多找到请求,发现其实就是pageNum,cagegory两个参数 3所以直接请求URL,带入参数,分析起返回json结果编写代码 1首先建立接收类型 public class XcxApplet

[Gevent]gevent 网络抓取小测试

早就听说gevent基于事件的异步处理能力效率多么高,一直在项目中也很少用到,今天先来没事就学习了些简单的用法. 有个官方的教程写的很不错中文版的地址为:http://xlambda.com/gevent-tutorial/ 学习gevent很不错的资料. 具体的理论这里不怎么说了,只是有些了解,具体的原理还不能解释的很清楚.不过协程这种概念在golang里面很多. 写了一个访问网络,使用同步操作,gevent 和多线程对比的例子. #!/usr/bin/python # -*- codi

百度音乐API抓取

百度音乐API抓取前段时间做了一个本地音乐的播放器 github地址,想实现在线播放的功能,于是到处寻找API,很遗憾,不是歌曲不全就是质量不高.在网上发现这么一个APIMRASONG博客,有“获取榜单,搜索歌词,下载地址,专辑”信息等等接口. 后来发现有些接口使用起来不是很方便,比如获取专辑信息,只能得到歌曲列表的id信息,所以自己决定用fiddler来对百度音乐安卓客户端抓包. 下面是一系列的接口: 一. 关键词建议: GET: http://tingapi.ting.baidu.com/

网页抓取小工具（IE法）

网页抓取小工具(IE法)-- 吴姐 http://club.excelhome.net/thread-1095707-1-1.html 用IE提取网页资料的好处在于:所见即所得,网页上能看到的信息一般都能获取. 本工具功能不多,主要是便于提取网页上展示的信息所在元素的代码.希望能对大家有点小帮助. 网页抓取小工具.rar (22.91 KB, 下载次数: 2426) 本工具使用方法: 1.在B1内输入网址,可以是已打开的网页,也可以是未打开的 2.A2和B2的内容不要更改,第二行的其他单元格可以

百度地图api抓取坐标实例

<!DOCTYPE html> <html> <head> <meta charset="utf-8"/> <title>百度地图API的使用</title>  <script src="http://api.map.baidu.com/api?v=1.2" type="text/javascript"></scri

百度地图兴趣点抓取工具

抓取全国POI数据不是梦,百度抓取工具可实现按区域范围抓取范围内数据,数据坐标为火星坐标,无偏移,数据字段有:NAME,X,Y,ADDRESS,TEL,TYPE,CITY,PROVINCE,百度所有的类型数据都可轻松抓取,没有遗漏,没有错误,不重复,比市面上的工具更加准确,市面的工具是靠步长设置来抓取点位的,有抓取不完整的现象,本工具完全解决了点位遗漏问题,并启用都线程抓取,抓取速度快,全国2000多万兴趣点抓取轻松搞定不遗漏死角.本工具由微创业科技工作室独立完成,本工作室还有地图抓工具,可抓取

微信小程序使用百度语音识别成功后，小程序端cancel了请求

突发奇想小程序尝试着集成语音识别功能,对号入座般首选方案为百度语音识别nodejs REST API. 其流程如图所示: 小程序端录制语音代码如下所示: <view class="page"> <view class="page__bd page__bd_spacing"> <swiper indicator-dots="{{indicatorDots}}" autoplay="{{autoplay}}&

多多客微信百度支付宝三端合一小程序平台正式上线，集齐BAT，开启新篇章！

多多客DOODOOKE微信.百度.支付宝三端合一小程序SaaS平台今日正式上线! 开年集齐BAT,多多客DOODOOKE与你一起开启新篇章! 一次制作三端发布同时管理商家只需要在多多客管理后台制作一次小程序,即可在微信.百度.支付宝三大平台同时发布和管理. 多多客三端合一小程序平台帮助商家快速布局小程序,跨越小程序开发的高门槛.高成本,一次性获取微信.支付宝.百度全域千亿级流量,同时节省小程序的制作时间和制作成本. 商家可以在同一个后台统一管理微信.百度.支付宝三端用户和订单等数据,大大优