file_get_contents伪造user_agent curl设置useragent的方法

file_get_contents 和 curl 这俩强悍的函数,在远程抓取时候相当有用处.不过一些网站会根据来访ip是否携带user_agent来判断是正常的浏览器客户端还是机器.所以,我们的任务就是给他们伪造user_agent.

file_get_contents伪造user_agent 方法如下:

ini_set(‘user_agent‘,‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;http://www.9qc.com)‘);

curl伪造user_agent的方法:

curl_setopt($c, CURLOPT_USERAGENT, ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;http://www.9qc.com)‘);

curl的完整函数方法:

function curl_get_file_contents($URL)
    {
        $c = curl_init();
        curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
//curl_setopt($c, CURLOPT_HEADER, 1);//输出远程服务器的header信息
curl_setopt($c, CURLOPT_USERAGENT, ‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;http://www.9qc.com)‘);
        curl_setopt($c, CURLOPT_URL, $URL);
        $contents = curl_exec($c);
        curl_close($c);
        if ($contents) {return $contents;}
            else {return FALSE;}
    }
这样就可以抓取了,user_agent可以自己修改.

PS： (.*?)：后面问号的意思是最少匹配（即懒惰匹配），如果没有那个问号就会最多匹配（即贪婪匹配）。

时间： 2024-09-30 11:38:00

file_get_contents伪造user_agent curl设置useragent的方法的相关文章

file_get_contents无法请求https连接的解决方法 php开启curl

file_get_contents无法请求https连接的解决方法方法1: PHP.ini默认配置下,用file_get_contents读取https的链接,就会如下错误: Warning: fopen() [function.fopen]: Unable to find the wrapper "https" - did you forget to enable it when you configured PHP? 解决方案有3:1.windows下的PHP,只需要到php.i

python中使用urllib2伪造HTTP报头的2个方法

在采集网页信息的时候,经常需要伪造报头来实现采集脚本的有效执行下面,我们将使用urllib2的header部分伪造报头来实现采集信息方法1. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 #!/usr/bin/python # -*- coding: utf-8 -*- #encoding=utf-8 #Filename:urllib2-header.py import ur

php使用curl设置超时的重要性

原文:php使用curl设置超时的重要性原文:http://phpquan.com/lamp/php/php-curl-timeout/ 网站登录不了,原因是没有可用的 PHP 子进程来响应新的请求了.这可能是是由于PHP-curl 没有设置超时时间引起的. 这段时间用PHP写了个爬虫程序,但是经常执行了一段时间后程序就卡住了.程序是用的curl方式进行抓取,后来设置了 CURLOPT_TIMEOUT 参数就没有出现这个问题了平常如果测试curl都直接设置了url就直接执行了.curl功能还

Android模拟器设置网络代理方法

在服务器上启动模拟器的时候加了--http-proxy,但是不起作用.所以搜了下面的方法四种方法: 一:将网络连接代理设置写入配置数据库 (适合启动模拟器无界面) 1.通过命令行或者通过双击emulatoer可执行文件,打开模拟器 2.在命令行执行adb shell 打开android的控制台 (确保环境变量设置正确,即已经把Android_SDK/tools 添加到了PATH(Linux)/path(Windows)) 3.执行 ls -l /data/data/com.android.pr

Delphi下获取IE的UserAgent的方法

方法一:使用SHDocVw, MSHtml单元提供的一些方法利用浏览器的特性来获取. uses SHDocVw, MSHtml; function GetUserAgent: string;var Doc: IHTMLDocument2; win: IHTMLWindow2; wb: TWebBrowser;begin Result := ''; try wb := TWebBrowser.Create(nil); try wb.Navigate('about:b

JavaScript设置获取和设置属性的方法

这篇文章主要介绍了JavaScript设置获取和设置属性的方法,学会使用getAttribute.setAttribute的用法,需要的朋友可以参考下 getAttribute 该方法用来获取元素的属性,调用方式如下所示: 复制代码代码如下: object.getAttribute(attribute) 以此前介绍的一些方法不同,getAttribute方法不属于document对象,所以不能通过document对象调用.它只能通过元素节点对象来调用. 该方法只接受一个参数,你指定要查询的属性的

mysql密码设置及重置方法

mysql密码设置及重置方法作者 :小刘今天这篇文章,我们来看下mysql数据库的密码设置,当我们不小心忘记了root密码,是一件很糟糕的事情,希望此文章可以帮助大家,我们先从设置密码开始吧!我们刚安装好的mysql数据库,默认root的密码为空,这时我们可以用一下命令设置密码mysqladmin -u root password "密码"如图(为root设置密码为123456) 如果你知道原来的旧密码,我们就可以用下面的命令直接更改就可以了mysqladmin -u root

Linux环境变量的设置和查看方法

1. 显示环境变量HOME $ echo $HOME /home/redbooks 2. 设置一个新的环境变量hello $ export HELLO="Hello!" $ echo $HELLO Hello! 3. 使用env命令显示所有的环境变量 $ env HOSTNAME=redbooks.safe.org ... 4. 使用set命令显示所有本地定义的Shell变量 $ set BASH=/bin/bash BASH_VERSINFO=([0]="2"[1

Winform中修改WebBrowser控件User-Agent的方法(已经测试成功)

using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Windows.Forms; using System.Runtime.InteropServices; using System.Reflection; namespace WindowsFormsApplication2 { public class UserAgentHelper { priva

猜你喜欢

《深入理解计算机系统》2.1信息存储

信息存储机器级程序将存储器视为一个非常大的字节数组称为虚拟存储器,存储器的每个字节都由一个唯一的数字来标识,称为它的地址,所有可能的地址的集合称为虚拟地址空间这个虚拟地址空间只是一个展现给机器级程序 ...

使用spring的特殊bean完成配置

1.分散配置 beans.xml配置如下: 使用占位符变量代替bean装配文件中的硬编码配置.占位符采用${variable}形式. 说明:当通过context:property-placeholde ...

通过GET方法返回定义的任意对象

package util; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputSt ...

安装 whmcs

1.下载下来后(自己百度网盘),用scp 上传, 在网站能访问的地方新建目录,例如 whmcs 目录,解压到内 2.网站访问 http://ip/whmcs/index.php 提示需要安装 ionc ...

SpringMVC3+Mybatis3(登录及CRUD操作)【转】

一环境:XP3+Oracle10g+MyEclipse6+(Tomcat or WebLogic92)+JDK1.5 二工程文件: Spring3+MyIbatis3 工程图片: jar下载:h ...

ubuntu nginx本地局域网布署sever_name设置

如果没有设置好sever_name 在本地输入虚拟机的ip.只会看到nginx的helloworld(打招呼界面,不可能写helloworld)界面重点在于nginx的布署文件要加上这么一条来自廖 ...

linux-13基础命令之-touch,mkdir

1. touch 命令用于创建空白文件与修改文件时间,格式:touch[选项][文件]: linux 下文件时间有三种 @1.更改时间(mtime):内容修改时间: @2.更改权限(ctime): ...

线程的状态和常用方法

线程的状态一个线程从创建,启动到终止的整个过程称为线程的生命周期,在其间的任何时刻,线程总是处于某个特定状态.这些状态如下:新建状态:线程对象已经创建,对应new语句.就绪状态:就绪状态也可叫做可执行 ...

《构建之法》阅读梳理篇读后感

我通过老师发的链接读了“<构建之法>阅读梳理篇”,我从中懂了很多,我懂了软件与程序的区别,明白了作为一个程序员是要掌握的基本能力,更明白了一个软件或项目是由一个团队完成的,个人的能力再强也 ...

通达OA 工作流表单中关联查询另外一个工作流方法（源码）

一个工作流表单中,如何方便的查询相关的工作流表单内容,反复打开各个菜单必然需要造成多次点击浪费时间,切换也会带来思路的中断.这里通过js代码的方式把这个问题进行了解决. <style>&l ...

C# 根据实体类的属性动态生成字符串

情景: 目前有两个实体类:Student,ClassInfo. public class Student { public string Name { get; set; } public strin ...

ScrollView中嵌套GridView，Listview的办法

按照android的标准,ScrollView中是不能嵌套具有滑动特性的View的,但是有时如果设计真的有这样做的需要,或者为了更方便简单的实现外观(比如在外在的大布局需要有滑动的特性,并且内部有类似 ...

asp.net C# 实现微信接口权限开发类

当前微信接口类已实现以下接口,代码上如果不够简洁的,请自行处理. 1.获取access_token 2.获取用户基本信息 3.生成带参数二维码 4.新增永久素材 5.新增临时素材 6.发送微信模版 7 ...

电源设计

资料链接: 1.TPS系列命名规则:http://www.deyisupport.com/question_answer/analog/power_management/f/24/t/1506.asp ...

string类总结

头文件: <string> 初始化: string str(s1); string str("value"); string str(10, 'c'); 读写 //输入 ...

Flume、Kafka结合

Todo: 对Flume的sink进行重构,调用kafka的消费生产者(producer)发送消息; 在Sotrm的spout中继承IRichSpout接口,调用kafka的消息消费者(Consume ...

asp.net zip 压缩传输

在实际生产中,比如使用xml json 等传输大量数据的时候,有时候会出现等待时间过长,这里分享一个压缩传输的方法首先到网上去下载一个 ICSharpCode.SharpZipLib.dll 的dl ...

android AIDL 实践之传递简单字串

*本demo的server和client写反了新建工程client,server 在server端新建aidl文件,内容: // IMyAidlInterface.aidl package com. ...

Win10系统设置360杀毒软件自动杀毒的方法

我们在操作系统时,为了win10的系统环境安全,不受病毒侵害,许多用户经常会使用360杀毒软件给系统进行病毒扫描检测.今天小编给大家分享一个在Win10系统中让360杀毒定时查杀病毒的方法,省去你经常 ...

Apache spark 的一些浅见。

一.搬砖 vs. 分布式计算一个人搬砖很累,几个人一起搬就会轻松很多,也会快很多: 分布并行计算和几个人一起搬砖的意思是一致的,一个资源密集型的任务(搬砖或计算),需要一组资源(小伙伴或计算节点) ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.