解决php无法通过file_get_contents或curl采集页面内容

解决这个问题有2种方法

1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;

2、通过php的ini_set()方法设置用户代理。

实例如下

ini_set(‘user_agent’,‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);

echo file_get_contents(‘你想要采集的页面url’);

时间: 2024-10-11 16:37:51

解决php无法通过file_get_contents或curl采集页面内容的相关文章

PHP curl获取页面内容,不直接输出到页面,CURLOPT_RETURNTRANSFER参数设置

使用PHP curl获取页面内容或提交数据,有时候希望返回的内容作为变量储存,而不是直接输出.这个时候就必需设置curl的CURLOPT_RETURNTRANSFER选项为1或true. 1.curl获取页面内容, 直接输出例子: <?php $url = 'http://52php.cnblogs.com'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_SSL_VERIFYPE

curl 或 file_get_contents 获取需要授权页面的方法

原文:http://blog.csdn.net/fdipzone/article/details/44475801 原文看的更清晰,因为博客园的编辑器太烂了.转来备份. 今天因工作需要,需要用 curl / file_get_contents 获取需要授权(Authorization)的页面内容,解决后写了这篇文章分享给大家 php curl 扩展,能够在服务器端发起POST/GET请求,访问页面,并能获取页面的返回数据. 例如要获取的页面:http://localhost/server.php

nginx+fastcgi php 使用file_get_contents、curl、fopen读取localhost本站点.php异常的情况

原文:http://www.oicto.com/nginx_fastcgi_php_file_get_contents/ 参考:http://os.51cto.com/art/201408/449205.htm 这两天一直在搞windows下nginx+fastcgi的file_get_contents请求.我想,很多同学都遇到当file_get_contents请求外网的http/https的php文件时毫无压力,比如echo file_get_contents(‘http://www.bai

PHP cURL库函数抓取页面内容

目录 1 为什么要用cURL? 2 启用cURL 3 基本结构 4 检查错误 5 获取信息 6 基于浏览器的重定向 7 用POST方法发送数据 8 文件上传 9 cURL批处理(multi cURL) 9.1 WordPress 链接检查器 10 另一些有用的cURL 选项 10.1 HTTP 认证 10.2 FTP 上传 10.3 代理/FQ请求 10.4 回调函数 11 小结 cURL 是一个利用URL语法规定来传输文件和数据的工具,支持很多协议和选项,如HTTP.FTP.TELNET等,能

采集页面编码GBK处理注意的问题

现在项目基本都是UTF-8编码的,但是有个别网站还是GBK编码的,比如搜狗.采集到的GBK编码的页面处理会导致解析不了html内容. 处理方法 转换页面内容为UTF-8 替换页面的头部GBK为UTF-8 这一点很重要 /** * 内容处理 * 把GBK转码为utf-8 * 头部标识编码 gbk替换成utf-8(采集的时候页面转换成了utf-8编码,header头也一定记得替换成utf-8编码,否则编码就会有问题) */ $content = iconv('GBK', "UTF-8//ignore

curl 请求https内容,返回空

$ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$api); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//禁止直接显示获取的内容 重要 curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); //不验证证书下同 curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); // $json = curl_exec($ch);

C# 采集页面

首先大家需要清楚一点的是:任何网站的页面,无论是php.jsp.aspx这些动态页面还是用后台程序生成的静态页面都是可以在浏览器中查看其HTML源文件的. 所以当你要开发数据采集程序的时候,你必须先对你试图采集的网站的前台页面结构(HTML)要有所了解. 当你对要采集数据的网站里的HTML源文件内容十分熟悉之后,剩下程序上的事情就很好办了.因为C#对Web站点进行数据采集其原理就在于“把你要采集的页面HTML源文件下载下来,分析其中HTML代码然后抓取你需要的数据,最后将这些数据保存到本地文件”

如何使用爬虫一键批量采集新浪微博内容

信息时代如何真正做到,秀才不出门,能知天下事.不知道你们用的是啥,反正小喵我用的是微博.现在微博上新闻是多的不得了,国家大事,社会日常,娱乐新闻.微博热搜上随便一个话题都可以引起网民们的激烈讨论.那么,该如何对这些庞大的数据进行采集和统计呢? 今天小编就来教教你们,利用神箭手云爬虫对新浪微博的信息进行完美的采集,包括文本内容.转发数.评论数.点赞数.热门等详细信息,只有你想不到,没有采不到的! 第一步:进入神箭手官网(http://www.shenjianshou.cn)进行注册或登录. 第二步

解决ScrollView下嵌套ListView或Gridview进页面不在顶部的问题

最近项目用到了scrollview内部嵌套ListView或Gridview,本来这样做不太好,但是接口不提供网页资源,只有自己一个一个View的拼凑了,苦逼的程序猿,大家都懂的, 但是写好后发现一个问题,每次进入这个页面后,scrollview不是显示在顶部,而是底部或者中间,令老夫很是惆怅啊,经过千百度万谷歌,终于试出了一个方法,可以解决这个问题,但是也不是完美解决,偶尔也会没效果的,代码如下: scrollview.smoothScrollTo(0,0); 在listview绘制好数据后使