百度收录链接抓取小程序

set_time_limit(0);
header("Content-type:text/html;charset=utf-8");
    $updatePoint = date("Y-m-d", time());
    $patMD = date("m-d", time());
$xmlDatas = ‘‘;
for($i=0;$i<76;$i++)
{

$page = $i*10;
$conts = file_get_contents("http://www.baidu.com/s?wd=site%3Awww.xxxx.com%20%E4%B9%90%E5%A4%A9%E5%A0%82&pn={$page}&oq=site%3Awww.xxxx.com%20%E4%B9%90%E5%A4%A9%E5%A0%82&ie=utf-8&rsv_idx=1&rsv_pq=aff4775f00063733&rsv_t=ff065MbpZuOoe%2B%2BV4iOkvVuzeSXd1n2FRBQwnnwPHtpsy%2F7pPFaTfcrWm4M&f=8&rsv_bp=1&tn=baidu");
$pat = ‘|\\"http://www.baidu.com/link\?url=?([^>]*)\\"\s|U‘;   

$xmlDatas .= getLists($pat, $conts, $updatePoint);

}

 if(file_exists(dirname(__FILE__)."/silian.txt")){
        file_put_contents(dirname(__FILE__)."/silian.txt", $xmlDatas);
    }else{
        $fp = fopen(dirname(__FILE__)."/silian.txt", ‘w+b‘);
        fwrite($fp, $xmlDatas);
        fclose($fp);
    }

    function getLists($pattern, $contents, $updatePoint){
        preg_match_all($pattern, $contents, $matches);

        $lists = $matches[0];
        $xmlData = "";
        $lists = array_unique($lists);//过滤重复的 ;

        if(!empty($lists)){

            foreach ($lists as $key => $value) {
                # code...

                $value = trim($value, ‘"‘);

                $value = substr($value, 0,-1);
                $value = trim($value,‘"‘);

                $info = parse_url($value);

                $fp = fsockopen($info[‘host‘], 80,$errno, $errstr, 30);

                fputs($fp,"GET {$info[‘path‘]}?{$info[‘query‘]} HTTP/1.0"."\r\n");
                fputs($fp, "Host: {$info[‘host‘]}"."\r\n");
                fputs($fp, "Connection: close"."\r\n");
                fputs($fp, "\r\n");
                $rewrite = ‘‘;
                while(!feof($fp)) {
                    $line = fgets($fp,512);
                    if($line != " " ) {
                        if(strpos($line,‘Location:‘) !== false) {
                            $rewrite = str_replace("Location: ",‘‘,$line);
                        }
                    }else {
                        break;
                    }
                }

                $value = $rewrite;

                $xmlData .=  $value ;
            }
            return $xmlData;
        }else{
            exit();
        }
    }

此抓取主要用于百度收录的网址查询,没有直接按关键词查询来查询收录情况。

时间: 2024-11-09 02:53:10

百度收录链接抓取小程序的相关文章

抓取小程序

前言 ,想利用小程序导航页面来提升网站的流量,找到  www.xcxdh666.com  该小程序导航网站. 分析网页 1 发现网站其实也是用异步分页请求加载数据的  ,所以根本用不着xpath  解析html,直接分析其请求url 2点击加载更多找到请求,发现其实就 pageNum ,cagegory 两个参数 3所以直接请求url    带入参数,分析起返回json结果 编写代码 1 首先建立接收类型 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

简单抓取小程序大全,并展示

前言,想利用小程序导航页面来提升网站的流量,找到www.xcxdh666.com该小程序导航网站. 分析网页       1发现网站其实也是用异步分页请求加载数据的,所以根本用不着xpath解析html,直接分析其请求URL       2点击加载更多找到请求,发现其实就是pageNum,cagegory两个参数       3所以直接请求URL,带入参数,分析起返回json结果 编写代码         1首先建立接收类型             public class XcxApplet

[Gevent]gevent 网络抓取小测试

早就听说gevent基于事件的异步处理能力 效率多么高,一直在项目中也很少用到,今天先来没事就学习了些简单的用法. 有个官方的教程写的很不错 中文版的地址为:http://xlambda.com/gevent-tutorial/ 学习gevent很不错的资料. 具体的理论这里不怎么说了,只是有些了解,具体的原理还不能解释的很清楚.不过协程这种概念在golang里面很多. 写了一个访问网络,使用同步操作,gevent 和 多线程对比的例子. #!/usr/bin/python # -*- codi

百度音乐API抓取

百度音乐API抓取 前段时间做了一个本地音乐的播放器 github地址,想实现在线播放的功能,于是到处寻找API,很遗憾,不是歌曲不全就是质量不高.在网上发现这么一个APIMRASONG博客,有“获取榜单,搜索歌词,下载地址,专辑”信息等等接口. 后来发现有些接口使用起来不是很方便,比如获取专辑信息,只能得到歌曲列表的id信息,所以自己决定用fiddler来对百度音乐安卓客户端抓包. 下面是一系列的接口: 一. 关键词建议: GET: http://tingapi.ting.baidu.com/

网页抓取小工具(IE法)

网页抓取小工具(IE法)-- 吴姐 http://club.excelhome.net/thread-1095707-1-1.html 用IE提取网页资料的好处在于:所见即所得,网页上能看到的信息一般都能获取. 本工具功能不多,主要是便于提取网页上展示的信息所在元素的代码.希望能对大家有点小帮助. 网页抓取小工具.rar (22.91 KB, 下载次数: 2426) 本工具使用方法: 1.在B1内输入网址,可以是已打开的网页,也可以是未打开的 2.A2和B2的内容不要更改,第二行的其他单元格可以

百度地图api抓取坐标实例

<!DOCTYPE html> <html> <head> <meta charset="utf-8"/> <title>百度地图API的使用</title> <!-- 百度地图API--> <script src="http://api.map.baidu.com/api?v=1.2" type="text/javascript"></scri

百度地图兴趣点抓取工具

抓取全国POI数据不是梦,百度抓取工具可实现按区域范围抓取范围内数据,数据坐标为火星坐标,无偏移,数据字段有:NAME,X,Y,ADDRESS,TEL,TYPE,CITY,PROVINCE,百度所有的类型数据都可轻松抓取,没有遗漏,没有错误,不重复,比市面上的工具更加准确,市面的工具是靠步长设置来抓取点位的,有抓取不完整的现象,本工具完全解决了点位遗漏问题,并启用都线程抓取,抓取速度快,全国2000多万兴趣点抓取轻松搞定不遗漏死角.本工具由微创业科技工作室独立完成,本工作室还有地图抓工具,可抓取

微信小程序使用百度语音识别成功后,小程序端cancel了请求

突发奇想小程序尝试着集成语音识别功能,对号入座般首选方案为百度语音识别nodejs REST API. 其流程如图所示: 小程序端录制语音代码 如下所示: <view class="page"> <view class="page__bd page__bd_spacing"> <swiper indicator-dots="{{indicatorDots}}" autoplay="{{autoplay}}&

多多客微信百度支付宝三端合一小程序平台正式上线,集齐BAT,开启新篇章!

多多客DOODOOKE微信.百度.支付宝三端合一小程序SaaS平台今日正式上线! 开年集齐BAT,多多客DOODOOKE与你一起开启新篇章! 一次制作 三端发布 同时管理 商家只需要在多多客管理后台制作一次小程序,即可在微信.百度.支付宝三大平台同时发布和管理. 多多客三端合一小程序平台帮助商家快速布局小程序,跨越小程序开发的高门槛.高成本,一次性获取微信.支付宝.百度全域千亿级流量,同时节省小程序的制作时间和制作成本. 商家可以在同一个后台统一管理微信.百度.支付宝三端用户和订单等数据,大大优