PHP 使用 stream_get_meta_date ,stream_get_contents 获取网页内容

PHP 使用 获取网页内容:

if (! preg_match(‘@^https?://@‘, $url)) {
    die(‘HTTP(s) only.‘);
}

$httpOpts = array(
    ‘max_redirects‘ => 0
    ,‘timeout‘ => 3
);
if ($ua !== ‘‘) {
    $httpOpts[‘user_agent‘] = $ua;
}
if ($cook !== ‘‘) {
    $httpOpts[‘header‘] = "Cookie: {$cook}\r\n";
}
$ctx = stream_context_create(array(
    ‘http‘ => $httpOpts
));

// fetch
if (! ($fp = @fopen($url, ‘r‘, false, $ctx))) {
    die(‘Couldn\‘t open URL.‘);
}
$meta = stream_get_meta_data($fp);
$content = stream_get_contents($fp);
fclose($fp);
时间: 2024-11-07 14:46:37

PHP 使用 stream_get_meta_date ,stream_get_contents 获取网页内容的相关文章

定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容。提示(可以了解python的urllib模块)

1 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) 2 import urllib.request 3 4 def get_page(url): 5 response = urllib.request.urlopen(url) 6 html = response.read() 7 return html 8 9 print(get_page(url='https://www.baidu,com'))

基于apache —HttpClient的小爬虫获取网页内容

今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 HttpClient,根据前辈们发的教程自己也简单写了一下,感觉还好. 下面实现的是单个页面的获取: import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.clien

浏览器插件获取网页内容

void GetHtmlContent() { //m_Explorer HRESULT hr; LPDISPATCH pDisp; IHTMLDocument2* phd;//IHtmlDocument2接口指针 IHTMLElement* pBody;//网页中的元素 pDisp = m_Explorer.get_Document(); hr = pDisp->QueryInterface(IID_IHTMLDocument2, (LPVOID*)&phd); pDisp->Rel

perl脚本获取网页内容

# 使用LWP模块的get函数获取网页内容.use LWP::Simple;my $doc=get("http://www.csdn.net");# 获取网页内容后可以对内容进行提取或者其它处理# 将网页内容打印出来print $doc; # 使用post函数向web服务器提交请求.use LWP::UserAgent;use Encode;my $user_agent = LWP::UserAgent->new;my $des = "http://www.xxxx.c

perl post函数获取网页内容及解析数据的例子

#!/usr/bin/perl -w # 程序代码只是简单说明获取解析网页内容及匹配模式使用的例子,逻辑并不是很严密use utf8;binmode(STDIN, ':encoding(utf8)');binmode(STDOUT, ':encoding(utf8)');binmode(STDERR, ':encoding(utf8)'); use LWP::UserAgent;use Encode; sub get_data{    if(@_ != 1)    {        print

使用Jsoup获取网页内容超时设置

使用Jsoup获取网页内容超时设置 最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用.在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容. 原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒. 原来Jsoup是可以设置超时的,修改成如下就可以了: Jsoup.connect(url).timeout(30000).get();

java获取网页内容保存到文件

package com.mkyong;   import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.U

[PHP学习教程]006.获取网页内容(URL Content)

引言:获取网页内容是我们实现网页操作的基本之基本,今天这一讲,我们和大家讲一下基本请求网页内容的几种方法. 我们似乎每天都要做这样一件事情,打开一个浏览器,输入网址,回车,一个空白的页面顿时有了东西,它可能是百度之类的搜索页面,或是一个挤满了文字和图片的门户网站. 我们可以从三个方面理解这个过程,一个是浏览器,二个是服务器,第三个是浏览器和服务器之间通信的协议. 当然,我们今天不讲<网页请求过程 > 这一次,我们说一下如何用PHP代码请求网页内容. 获取网页内容方法 1.file_get_co

Java使用HttpClient的HttpGet获取网页内容

项目添加HttpClient jar包引用,下载地址:http://hc.apache.org/downloads.cgi 引用: import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import org.apache.http.