PHP 抓取html页面内容函数

function getHtml($url,$id=0){
　　$file_path = ATTACHEMENT_PATH.‘caiji/‘;
　　if ($id) {
　　　　$file_path.=($id%10).‘/‘;
　　}
　　if (!is_dir($file_path)) {
　　　　mkdir($file_path,0777,true);
　　}
　　$fname = md5(trim($url));
　　$file = $file_path.$fname.‘.txt‘;
　　$string = file_get_contents($file);
　　if (!$string) {
　　　　$ch = curl_init();
　　　　curl_setopt($ch, CURLOPT_URL, $url );
　　　　curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
　　　　curl_setopt($ch, CURLOPT_TIMEOUT, 50);
　　　　$string = curl_exec($ch);
　　　　file_put_contents($file, $string);
　　}
　　return $string ;
}

时间： 2024-10-13 07:26:35

PHP 抓取html页面内容函数的相关文章

Winform实现抓取web页面内容的方法

本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法,代码简洁易懂,非常实用!分享给大家供大家参考. 具体实现代码如下: WebRequest request = WebRequest.Create("http://1.bjapp.sinaapp.com/play.php?a=" + PageUrl); WebResponse response = request.GetResponse(); Stream resStream = response.GetRespo

Winfrom 抓取web页面内容代码

WebRequest request = WebRequest.Create("http://1.bjapp.sinaapp.com/play.php?a=" + PageUrl); WebResponse response = request.GetResponse(); Stream resStream = response.GetResponseStream(); StreamReader sr = new StreamReader(resStream, System.Text.

用C#抓取AJAX页面的内容

现在的网页有相当一部分是采用了AJAX技术,不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执行的! 但我们用IE浏览页面时是正常的,所以解决方法只有1个就是采用WebBrowser控件但是使用Webbrowser你会发现,在DownloadComplete事件中,你根本无法知道页面何时才算是真正的加载完毕! 当然个别有Frame的网页可能会触发多次Complete,即使你采用计数器的办法,即在Navigated事件中++,而

C#抓取AJAX页面的内容

原文 C#抓取AJAX页面的内容现在的网页有相当一部分是采用了AJAX技术,所谓的AJAX技术简单一点讲就是事件驱动吧(当然这种说法可能很不全面),在你提交了URL后,服务器发给你的并不是所有是页面内容,而有一大部分是JS脚本,即用<JAVASCRIPT标签表示的,这其中有些是链接了外部的JS文件,有些是内置的JS脚本,这些脚本是在客户端加载了服务器发回来的源码后才执行的,所以不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执

scrapy抓取的页面中文会变成unicode字符串

不了解编码的,需要先补下:http://www.cnblogs.com/jiangtu/p/6245264.html 现象:从scrapy抓取的页面中文会变成unicode字符串,如下图 2017-03-28 23:00:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lagou.com/jobs/2617468.html> {'describe': [u'<div>\n <p>\u5c97\u

快速抓取某个网站内容方法

是不是有人相抓取网页上面的内容,放到别的网站上面.下面我给大家介绍一种最常用的方法: 用HtmlAgilityPack 组件. public String GetHtml() { string url = "http://t.news.fx168.com/"; HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest; using (HttpWebResponse response = request.G

PHPcurl抓取AJAX异步内容(转载)

PHPcurl抓取AJAX异步内容其实抓ajax异步内容的页面和抓普通的页面区别不大.ajax只不过是做了一次异步的http请求,只要使用firebug类似的工具,找到请求的后端服务url和传值的参数,然后对该url传递参数进行抓取即可. 利用Firebug的网络工具如果抓去的是页面,则内容中没有显示的数据,是一堆JS代码. Code $cookie_file=tempnam('./temp','cookie'); $ch = curl_init(); $url1 = "http://www

【Python】Python抓取分享页面的源代码示例

本文章是关于利用Python方法来抓取某网站分享页面中的源码方法示例.需要大家注意的是Python抓取分享页面的源代码示例,是要在运行时导入BeautifulSoup.py文件后才可以使用. Python抓取分享页面的源代码示例,需要用到python urllib2模块方法,及BeautifulSoup模块. 源码如下: #coding:utf-8 import urllib2 from BeautifulSoup import BeautifulSoup ''' www.iplaypy.com

C#抓取网页HTML内容

网上很多内容采集工具,今天就自己试着写一个,发现C#可以轻松的抓去网页的内容,进而通过正则来分离出自己感兴趣的数据.下面是抓去网页内容的代码: using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Net; using System.Text; using System.IO; using System.Text.RegularExpressions; n

猜你喜欢

笔记：枚举类型

枚举类型的定义格式如: public enum Size{ SMALL,MEDIUM,LARGE,EXTRA_LARGE} ? ? 实际上,这个声明定义了一个类 size,该类是一个特殊的类,可以定义 ...

python数据分析Numpy（二）

Numpy (Numerical Python) 高性能科学计算和数据分析的基础包: ndarray,多维数组(矩阵),具有矢量运算能力,快速.节省空间: 矩阵运算,无需循环,可以完成类似Matlab ...

安装GTK+开发环境

windows: https://www.gtk.org/download/index.php 下载all-in-one bundle 安装即可为什么下载2.x的是给codeblocks准备 ...

泰斗破坏神笔记

泰斗破坏神笔记 2016年4月27日星期三001-开始素材的制作 1制作图集 1.1在要制造成图集的素材上点右键NGUI-Open altas Maker- 2制作背景 2.1选择simple tex ...

一步步学敏捷开发：1. Scrum概述

Scrum概述 Scrum概述无非就是敏捷宣言.敏捷原则.Scrum框架和价值观.在之前先看段比较专业的Scrum介绍. Scrum是跨职能团队以迭代.增量的方式开发产品或项目的一种开发框架.它把开发 ...

nodejs oj在线笔试应对方案(讲几种输入处理方法)

最近参加了一些线上笔试.但是...我不是学计算机的,只会js不会层c++,java,c(好吧都学过,不过忘了).可怕的是我也没学过nodejs,怎么办,怎么办.node不就是用的js吗?所以只用学会 ...

DataBase -- Customers Who Never Order

Question: Suppose that a website contains two tables, the Customers table and the Orders table. Writ ...

队内没人会插头DP,感觉这个不会不行...所以我还是默默去学了一下, 学了一天,感觉会了一点.对于每一行,一共有j+1个插头,如果是多回路类的题目, 比较简单,可以用1表示有插头,0表示没有插头,这样 ...

There is an error while getting planid. No Free partitions available

问题概述 Oracle Advanced Supply Chain Planning最初的设置职责的时候有点问题,不知是不是要打什么补丁或其它配置什么东东,, 这个提示,,但我查到的分区是还有可用分区 ...

C#-Emgu.CV-------视频截取和图像处理基础

转:http://blog.sciencenet.cn/blog-538909-694431.html mage<Bgr, Byte> frame = capture.QueryFrame ...

Redis+Keeplived实现高可用

博文说明[前言]: 本文将通过个人口吻介绍Redis+Keeplived实现高可用的相关知识,在目前时间点[2017年6月23号]下,所掌握的技术水平有限,可能会存在不少知识理解不够深入或全面,望大家 ...

Windows环境下ARM集成开发环境的搭建与使用

Windows环境下能够使用Eclipse IDE for C/C++ Developers来搭建ARM开发环境本文地址:http://blog.csdn.net/u011833609/articl ...

ZeroMQ接口函数之：zmq_disconnect - 断开一个socket的连接

ZeroMQ 官方地址 :http://api.zeromq.org/4-0:zmq_disconnect zmq_disconnect(3) ØMQ Manual - ØMQ/3.2.5 Name ...

抽象类和接口的总结

类的表现形式 Java代码 public class A{} 类的特点: 1)类中的属性可以是成员属性,也可以是类属性 2)类中的方法必须是有方法体的方法,也可以是成员方法,也可以是类方 ...

shell 编程之 for while until 循环

shell 的for循环的格式如下: for 变量 in 列表 do ... done 列表是一组值的序列每个值通过空格隔开每循环一次,列表中的下一个值赋给变量 in 列表是可选的,如果不用他 ...

日志类(三)TLog ①

功能未完善. 待续. 1 TLogThread = class(TThread) 2 private 3 FInterval: Integer; 4 FLogServers: TList; 5 FEv ...

Lync 2013 Unauthorized: Access is denied due to a RBAC authorization Failure

今天安装Lync 2013, 全部都做完了,但是打开Lync控制台的时候用域管理员不能登录了.报错: Unauthorized: Access is denied due to a RBAC auth ...

[专业名词·硬件] 2、DC\DC、LDO电源稳压基本常识（包含基本原理、高效率模块设计、常见问题、基于nRF51822电源管理模块分析等）·长文

综述先看这里第一节的1.1简单介绍了DC/DC是什么: 第二节是关于DC/DC的常见的疑问答疑,非常实用: 第三节是针对nRF51822这款芯片电源管理部分的DC/DC.LDO.1.8的详细分析,对 ...

操作系统概念（第九章）虚拟内存

背景第八章所介绍的内存管理算法都是基于一个基本要求:执行指令必须在物理内存中,满足这一要求的第一种方法是整个进程放在内存中.动态载入能帮助减轻这一限制,但是它需要程序员特别小心地做一些额外的工作. ...

绩效考核如何快速评分

1.按f12进入开发者模式输入: ?jk.jznews.com.cn/web/lingdao_pingfen2.aspx 进入该页面 2. 进入评分页面后,在开发模式中选取console模式(jav ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.