PHP采集相关教程之一 CURL函数库

先写一个简单的抓取页面函数

[php] view plaincopy

  1. <?php
  2. function GetSources($Url,$User_Agent=‘‘,$Referer_Url=‘‘) //抓取某个指定的页面
  3. {
  4. //$Url 需要抓取的页面地址
  5. //$User_Agent 需要返回的user_agent信息 如“baiduspider”或“googlebot”
  6. $ch = curl_init();
  7. curl_setopt ($ch, CURLOPT_URL, $Url);
  8. curl_setopt ($ch, CURLOPT_USERAGENT, $User_Agent);
  9. curl_setopt ($ch, CURLOPT_REFERER, $Referer_Url);
  10. curl_setopt($ch, CURLOPT_FOLLOWLOCATION,1);
  11. curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
  12. $MySources = curl_exec ($ch);
  13. curl_close($ch);
  14. return $MySources;
  15. }
  16. $Url = "http://www.jb51.net"; //要获取内容的也没
  17. $User_Agent = "baiduspider+(+http://www.baidu.com/search/spider.htm)";
  18. $Referer_Url = ‘http://www.jb51.net/‘;
  19. echo GetSources($Url,$User_Agent,$Referer_Url);
  20. ?>

PHP中的CURL函数库(Client URL Library Function) 
curl_close ― 关闭一个curl会话; 
curl_copy_handle ― 拷贝一个curl连接资源的所有内容和参数; 
curl_errno ― 返回一个包含当前会话错误信息的数字编号; 
curl_error ― 返回一个包含当前会话错误信息的字符串; 
curl_exec ― 执行一个curl会话; 
curl_getinfo ― 获取一个curl连接资源句柄的信息; 
curl_init ― 初始化一个curl会话; 
curl_multi_add_handle ― 向curl批处理会话中添加单独的curl句柄资源; 
curl_multi_close ― 关闭一个批处理句柄资源; 
curl_multi_exec ― 解析一个curl批处理句柄; 
curl_multi_getcontent ― 返回获取的输出的文本流; 
curl_multi_info_read ― 获取当前解析的curl的相关传输信息; 
curl_multi_init ― 初始化一个curl批处理句柄资源; 
curl_multi_remove_handle ― 移除curl批处理句柄资源中的某个句柄资源; 
curl_multi_select ― Get all the sockets associated with the cURL extension, which can then be "selected"; 
curl_setopt_array ― 以数组的形式为一个curl设置会话参数; 
curl_setopt ― 为一个curl设置会话参数; 
curl_version ― 获取curl相关的版本信息; 
curl_init()函数的作用初始化一个curl会话,curl_init()函数唯一的一个参数是可选的,表示一个url地址; 
curl_exec()函数的作用是执行一个curl会话,唯一的参数是curl_init()函数返回的句柄; 
curl_close()函数的作用是关闭一个curl会话,唯一的参数是curl_init()函数返回的句柄; 
PHP代码

[php] view plaincopy

  1. <?php
  2. $ch = curl_init("http://blog.huangchao.org/");
  3. curl_exec($ch);
  4. curl_close($ch);
  5. ?>

curl_version()函数的作用是获取curl相关的版本信息,curl_version()函数有一个参数,不清楚是做什么的; 
PHP代码 
<?php 
print_r(curl_version()) 
?> 
curl_getinfo()函数的作用是获取一个curl连接资源句柄的信息,curl_getinfo()函数有两个参数,第一个参数是curl的资源句柄,第二个参数是下面一些常量: 
PHP代码

[php] view plaincopy

  1. <?php
  2. $ch = curl_init("http://blog.huangchao.org/");
  3. print_r(curl_getinfo($ch));
  4. ?>

可选的常量包括: 
CURLINFO_EFFECTIVE_URL:最后一个有效的url地址; 
CURLINFO_HTTP_CODE:最后一个收到的HTTP代码; 
CURLINFO_FILETIME:远程获取文档的时间,如果无法获取,则返回值为“-1”; 
CURLINFO_TOTAL_TIME:最后一次传输所消耗的时间; 
CURLINFO_NAMELOOKUP_TIME:名称解析所消耗的时间; 
CURLINFO_CONNECT_TIME:建立连接所消耗的时间; 
CURLINFO_PRETRANSFER_TIME:从建立连接到准备传输所使用的时间; 
CURLINFO_STARTTRANSFER_TIME:从建立连接到传输开始所使用的时间; 
CURLINFO_REDIRECT_TIME:在事务传输开始前重定向所使用的时间; 
CURLINFO_SIZE_UPLOAD:上传数据量的总值; 
CURLINFO_SIZE_DOWNLOAD:下载数据量的总值; 
CURLINFO_SPEED_DOWNLOAD:平均下载速度; 
CURLINFO_SPEED_UPLOAD:平均上传速度; 
CURLINFO_HEADER_SIZE:header部分的大小; 
CURLINFO_HEADER_OUT:发送请求的字符串; 
CURLINFO_REQUEST_SIZE:在HTTP请求中有问题的请求的大小; 
CURLINFO_SSL_VERIFYRESULT:Result of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEER; 
CURLINFO_CONTENT_LENGTH_DOWNLOAD:从Content-Length: field中读取的下载内容长度; 
CURLINFO_CONTENT_LENGTH_UPLOAD:上传内容大小的说明; 
CURLINFO_CONTENT_TYPE:下载内容的“Content-type”值,NULL表示服务器没有发送有效的“Content-Type: header”; 
curl_setopt()函数的作用是为一个curl设置会话参数。curl_setopt_array()函数的作用是以数组的形式为一个curl设置会话参数; 
PHP代码

[php] view plaincopy

  1. <?php
  2. $ch = curl_init();
  3. $fp = fopen("example_homepage.txt", "w");
  4. curl_setopt($ch, CURLOPT_FILE, $fp);
  5. $options = array(
  6. CURLOPT_URL => ‘http://www.baidu.com/‘,
  7. CURLOPT_HEADER => false
  8. );
  9. curl_setopt_array($ch, $options);
  10. curl_exec($ch);
  11. curl_close($ch);
  12. fclose($fp);
  13. ?>

可设置的参数有: 
CURLOPT_AUTOREFERER:自动设置header中的referer信息; 
CURLOPT_BINARYTRANSFER:在启用CURLOPT_RETURNTRANSFER时候将获取数据返回; 
CURLOPT_COOKIESESSION:启用时curl会仅仅传递一个session cookie,忽略其他的cookie,默认状况下curl会将所有的cookie返回给服务端。session cookie是指那些用来判断服务器端的session是否有效而存在的cookie; 
CURLOPT_CRLF:启用时将Unix的换行符转换成回车换行符; 
CURLOPT_DNS_USE_GLOBAL_CACHE:启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认为true; 
CURLOPT_FAILONERROR:显示HTTP状态码,默认行为是忽略编号小于等于400的HTTP信息; 
CURLOPT_FILETIME:启用时会尝试修改远程文档中的信息。结果信息会通过curl_getinfo()函数的CURLINFO_FILETIME选项返回; 
CURLOPT_FOLLOWLOCATION:启用时会将服务器服务器返回的“Location:”放在header中递归的返回给服务器,使用CURLOPT_MAXREDIRS可以限定递归返回的数量; 
CURLOPT_FORBID_REUSE:在完成交互以后强迫断开连接,不能重用; 
CURLOPT_FRESH_CONNECT:强制获取一个新的连接,替代缓存中的连接; 
CURLOPT_FTP_USE_EPRT:TRUE to use EPRT (and LPRT) when doing active FTP downloads. Use FALSE to disable EPRT and LPRT and use PORT only;Added in PHP 5.0.0. 
CURLOPT_FTP_USE_EPSV:TRUE to first try an EPSV command for FTP transfers before reverting back to PASV. Set to FALSE to disable EPSV; 
CURLOPT_FTPAPPEND:TRUE to append to the remote file instead of overwriting it; 
CURLOPT_FTPASCII:An alias of CURLOPT_TRANSFERTEXT. Use that instead; 
CURLOPT_FTPLISTONLY:TRUE to only list the names of an FTP directory; 
CURLOPT_HEADER:启用时会将头文件的信息作为数据流输出; 
CURLOPT_HTTPGET:启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用; 
CURLOPT_HTTPPROXYTUNNEL:启用时会通过HTTP代理来传输; 
CURLOPT_MUTE:讲curl函数中所有修改过的参数恢复默认值; 
CURLOPT_NETRC:在连接建立以后,访问~/.netrc文件获取用户名和密码信息连接远程站点; 
CURLOPT_NOBODY:启用时将不对HTML中的body部分进行输出; 
CURLOPT_NOPROGRESS:启用时关闭curl传输的进度条,此项的默认设置为true; 
CURLOPT_NOSIGNAL:启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认打开;
CURLOPT_POST:启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像表单提交的一样; 
CURLOPT_PUT:启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZE 
CURLOPT_RETURNTRANSFER:将curl_exec()获取的信息以文件流的形式返回,而不是直接输出; 
CURLOPT_SSL_VERIFYPEER:FALSE to stop cURL from verifying the peer‘s certificate. Alternate certificates to verify against can be specified with the CURLOPT_CAINFO option or a certificate directory can be specified with the CURLOPT_CAPATH option. CURLOPT_SSL_VERIFYHOST may also need to be TRUE or FALSE if CURLOPT_SSL_VERIFYPEER is disabled (it defaults to 2). TRUE by default as of cURL 7.10. Default bundle installed as of cURL 7.10; 
CURLOPT_TRANSFERTEXT:TRUE to use ASCII mode for FTP transfers. For LDAP, it retrieves data in plain text instead of HTML. On Windows systems, it will not set STDOUT to binary mode; 
CURLOPT_UNRESTRICTED_AUTH:在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码信息,即使域名已发生改变; 
CURLOPT_UPLOAD:启用时允许文件传输; 
CURLOPT_VERBOSE:启用时会汇报所有的信息,存放在STDERR或指定的CURLOPT_STDERR中; 
CURLOPT_BUFFERSIZE:每次获取的数据中读入缓存的大小,这个值每次都会被填满; 
CURLOPT_CLOSEPOLICY:不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是CURLCLOSEPOLICY_OLDEST,还存在另外三个,但是curl暂时还不支持; 
CURLOPT_CONNECTTIMEOUT:在发起连接前等待的时间,如果设置为0,则不等待; 
CURLOPT_DNS_CACHE_TIMEOUT:设置在内存中保存DNS信息的时间,默认为120秒; 
CURLOPT_FTPSSLAUTH:The FTP authentication method (when is activated): CURLFTPAUTH_SSL (try SSL first), CURLFTPAUTH_TLS (try TLS first), or CURLFTPAUTH_DEFAULT (let cURL decide); 
CURLOPT_HTTP_VERSION:设置curl使用的HTTP协议,CURL_HTTP_VERSION_NONE(让curl自己判断),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1); 
CURLOPT_HTTPAUTH:使用的HTTP验证方法,可选的值有:CURLAUTH_BASIC,CURLAUTH_DIGEST,CURLAUTH_GSSNEGOTIATE,CURLAUTH_NTLM,CURLAUTH_ANY,CURLAUTH_ANYSAFE,可以使用“|”操作符分隔多个值,curl让服务器选择一个支持最好的值,CURLAUTH_ANY等价于CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM,CURLAUTH_ANYSAFE等价于CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM 
CURLOPT_INFILESIZE:设定上传文件的大小; 
CURLOPT_LOW_SPEED_LIMIT:当传输速度小于CURLOPT_LOW_SPEED_LIMIT时,PHP会根CURLOPT_LOW_SPEED_TIME来判断是否因太慢而取消传输; 
CURLOPT_LOW_SPEED_TIME:The number of seconds the transfer should be below CURLOPT_LOW_SPEED_LIMIT for PHP to consider the transfer too slow and abort; 
当传输速度小于CURLOPT_LOW_SPEED_LIMIT时,PHP会根据CURLOPT_LOW_SPEED_TIME来判断是否因太慢而取消传输; 
CURLOPT_MAXCONNECTS:允许的最大连接数量,超过是会通过CURLOPT_CLOSEPOLICY决定应该停止哪些连接; 
CURLOPT_MAXREDIRS:指定最多的HTTP重定向的数量,这个选项是和CURLOPT_FOLLOWLOCATION一起使用的; 
CURLOPT_PORT:一个可选的用来指定连接端口的量; 
CURLOPT_PROXYAUTH:The HTTP authentication method(s) to use for the proxy connection. Use the same bitmasks as described in CURLOPT_HTTPAUTH. For proxy authentication, only CURLAUTH_BASIC and CURLAUTH_NTLM are currently supported. 
CURLOPT_PROXYPORT:The port number of the proxy to connect to. This port number can also be set in CURLOPT_PROXY. 
CURLOPT_PROXYTYPE:Either CURLPROXY_HTTP (default) or CURLPROXY_SOCKS5. 
CURLOPT_RESUME_FROM:在恢复传输时传递一个字节偏移量(用来断点续传) 
CURLOPT_SSL_VERIFYHOST: 
1 to check the existence of a common name in the SSL peer certificate. 
2 to check the existence of a common name and also verify that it matches the hostname provided. 
CURLOPT_SSLVERSION:The SSL version (2 or 3) to use. By default PHP will try to determine this itself, although in some cases this must be set manually. 
CURLOPT_TIMECONDITION:如果在CURLOPT_TIMEVALUE指定的某个时间以后被编辑过,则使用CURL_TIMECOND_IFMODSINCE返回页面,如果没有被修改过,并且CURLOPT_HEADER为true,则返回一个"304 Not Modified"的header,CURLOPT_HEADER为false,则使用CURL_TIMECOND_ISUNMODSINCE,默认值为CURL_TIMECOND_IFMODSINCE 
CURLOPT_TIMEOUT:设置curl允许执行的最长秒数 
CURLOPT_TIMEVALUE:设置一个CURLOPT_TIMECONDITION使用的时间戳,在默认状态下使用的是CURL_TIMECOND_IFMODSINCE 
CURLOPT_CAINFO:The name of a file holding one or more certificates to verify the peer with. This only makes sense when used in combination with CURLOPT_SSL_VERIFYPEER. 
CURLOPT_CAPATH:A directory that holds multiple CA certificates. Use this option alongside CURLOPT_SSL_VERIFYPEER. 
CURLOPT_COOKIE:设定HTTP请求中“Set-Cookie:”部分的内容。 
CURLOPT_COOKIEFILE:包含cookie信息的文件名称,这个cookie文件可以是Netscape格式或者HTTP风格的header信息。 
CURLOPT_COOKIEJAR:连接关闭以后,存放cookie信息的文件名称 
CURLOPT_CUSTOMREQUEST:A custom request method to use instead of "GET" or "HEAD" when doing a HTTP request. This is useful for doing "DELETE" or other, more obscure HTTP requests. Valid values are things like "GET", "POST", "CONNECT" and so on; i.e. Do not enter a whole HTTP request line here. For instance, entering "GET /index.html HTTP/1.0\r\n\r\n" would be incorrect. 
Note: Don‘t do this without making sure the server supports the custom request method first. 
CURLOPT_EGBSOCKET:Like CURLOPT_RANDOM_FILE, except a filename to an Entropy Gathering Daemon socket. 
CURLOPT_ENCODING:header中“Accept-Encoding: ”部分的内容,支持的编码格式为:"identity","deflate","gzip"。如果设置为空字符串,则表示支持所有的编码格式 
CURLOPT_FTPPORT:The value which will be used to get the IP address to use for the FTP "POST" instruction. The "POST" instruction tells the remote server to connect to our specified IP address. The string may be a plain IP address, a hostname, a network interface name (under Unix), or just a plain ‘-‘ to use the systems default IP address. 
CURLOPT_INTERFACE:在外部网络接口中使用的名称,可以是一个接口名,IP或者主机名。 
CURLOPT_KRB4LEVEL:KRB4(Kerberos 4)安全级别的设置,可以是一下几个值之一:"clear","safe","confidential","private"。默认的值为"private",设置为null的时候表示禁用KRB4,现在KRB4安全仅能在FTP传输中使用。 
CURLOPT_POSTFIELDS:在HTTP中的“POST”操作。如果要传送一个文件,需要一个@开头的文件名 
CURLOPT_PROXY:设置通过的HTTP代理服务器 
CURLOPT_PROXYUSERPWD:连接到代理服务器的,格式为“[username]:[password]”的用户名和密码。 
CURLOPT_RANDOM_FILE:设定存放SSL用到的随机数种子的文件名称 
CURLOPT_RANGE:设置HTTP传输范围,可以用“X-Y”的形式设置一个传输区间,如果有多个HTTP传输,则使用逗号分隔多个值,形如:"X-Y,N-M"。 
CURLOPT_REFERER:设置header中"Referer: " 部分的值。 
CURLOPT_SSL_CIPHER_LIST:A list of ciphers to use for SSL. For example, RC4-SHA and TLSv1 are valid cipher lists. 
CURLOPT_SSLCERT:传递一个包含PEM格式证书的字符串。 
CURLOPT_SSLCERTPASSWD:传递一个包含使用CURLOPT_SSLCERT证书必需的密码。 
CURLOPT_SSLCERTTYPE:The format of the certificate. Supported formats are "PEM" (default), "DER", and "ENG". 
CURLOPT_SSLENGINE:The identifier for the crypto engine of the private SSL key specified in CURLOPT_SSLKEY. 
CURLOPT_SSLENGINE_DEFAULT:The identifier for the crypto engine used for asymmetric crypto operations. 
CURLOPT_SSLKEY:The name of a file containing a private SSL key. 
CURLOPT_SSLKEYPASSWD:The secret password needed to use the private SSL key specified in CURLOPT_SSLKEY. 
Note: Since this option contains a sensitive password, remember to keep the PHP script it is contained within safe. 
CURLOPT_SSLKEYTYPE:The key type of the private SSL key specified in CURLOPT_SSLKEY. Supported key types are "PEM" (default), "DER", and "ENG". 
CURLOPT_URL:需要获取的URL地址,也可以在PHP的curl_init()函数中设置。 
CURLOPT_USERAGENT:在HTTP请求中包含一个”user-agent”头的字符串。 
CURLOPT_USERPWD:传递一个连接中需要的用户名和密码,格式为:“[username]:[password]”。 
CURLOPT_HTTP200ALIASES:设置不再以error的形式来处理HTTP 200的响应,格式为一个数组。 
CURLOPT_HTTPHEADER:设置一个header中传输内容的数组。 
CURLOPT_POSTQUOTE:An array of FTP commands to execute on the server after the FTP request has been performed. 
CURLOPT_QUOTE:An array of FTP commands to execute on the server prior to the FTP request. 
CURLOPT_FILE:设置输出文件的位置,值是一个资源类型,默认为STDOUT (浏览器)。 
CURLOPT_INFILE:在上传文件的时候需要读取的文件地址,值是一个资源类型。 
CURLOPT_STDERR:设置一个错误输出地址,值是一个资源类型,取代默认的STDERR。 
CURLOPT_WRITEHEADER:设置header部分内容的写入的文件地址,值是一个资源类型。 
CURLOPT_HEADERFUNCTION:设置一个回调函数,这个函数有两个参数,第一个是curl的资源句柄,第二个是输出的header数据。header数据的输出必须依赖这个函数,返回已写入的数据大小。 
CURLOPT_PASSWDFUNCTION:设置一个回调函数,有三个参数,第一个是curl的资源句柄,第二个是一个密码提示符,第三个参数是密码长度允许的最大值。返回密码的值。 
CURLOPT_READFUNCTION:设置一个回调函数,有两个参数,第一个是curl的资源句柄,第二个是读取到的数据。数据读取必须依赖这个函数。返回读取数据的大小,比如0或者EOF。 
CURLOPT_WRITEFUNCTION:设置一个回调函数,有两个参数,第一个是curl的资源句柄,第二个是写入的数据。数据写入必须依赖这个函数。返回精确的已写入数据的大小 
curl_copy_handle()函数的作用是拷贝一个curl连接资源的所有内容和参数 
PHP代码

[php] view plaincopy

  1. <?php
  2. $ch = curl_init("http://qzone.myqq.us/");
  3. $another = curl_copy_handle($ch);
  4. curl_exec($another);
  5. curl_close($another);
  6. ?>

curl_error()函数的作用是返回一个包含当前会话错误信息的字符串。 
curl_errno()函数的作用是返回一个包含当前会话错误信息的数字编号。 
curl_multi_init()函数的作用是初始化一个curl批处理句柄资源。 
curl_multi_add_handle()函数的作用是向curl批处理会话中添加单独的curl句柄资源。curl_multi_add_handle()函数有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。 
curl_multi_exec()函数的作用是解析一个curl批处理句柄,curl_multi_exec()函数有两个参数,第一个参数表示一个批处理句柄资源,第二个参数是一个引用值的参数,表示剩余需要处理的单个的curl句柄资源数量。 
curl_multi_remove_handle()函数表示移除curl批处理句柄资源中的某个句柄资源,curl_multi_remove_handle()函数有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。 
curl_multi_close()函数的作用是关闭一个批处理句柄资源。 
PHP代码

[php] view plaincopy

  1. <?php
  2. $ch1 = curl_init();
  3. $ch2 = curl_init();
  4. curl_setopt($ch1, CURLOPT_URL, "http://blog.huangchao.org/");
  5. curl_setopt($ch1, CURLOPT_HEADER, 0);
  6. curl_setopt($ch2, CURLOPT_URL, "http://test.huangchao.org/");
  7. curl_setopt($ch2, CURLOPT_HEADER, 0);
  8. $mh = curl_multi_init();
  9. curl_multi_add_handle($mh,$ch1);
  10. curl_multi_add_handle($mh,$ch2);
  11. do {
  12. curl_multi_exec($mh,$flag);
  13. } while ($flag > 0);
  14. curl_multi_remove_handle($mh,$ch1);
  15. curl_multi_remove_handle($mh,$ch2);
  16. curl_multi_close($mh);
  17. ?>

curl_multi_getcontent()函数的作用是在设置了CURLOPT_RETURNTRANSFER的情况下,返回获取的输出的文本流。 
curl_multi_info_read()函数的作用是获取当前解析的curl的相关传输信息。 
curl_multi_select():Get all the sockets associated with the cURL extension, which can then be "selected"

libcurl同时也支持HTTPS认证、HTTP POST、HTTP PUT、 FTP 上传(这个也能通过PHP的FTP扩展完成)、HTTP 基于表单的上传、代理、cookies和用户名+密码的认证。

php的curl真的是相当好用,网上一搜索相关文章都是关于curl模拟登陆的,很少人提供模拟discuz发贴的源码。

<?php   
$discuz_url = ‘http://127.0.0.1/discuz/‘;//论坛地址   
$login_url = $discuz_url .‘logging.php?action=login‘;//登录页地址   
  
$post_fields = array();   
//以下两项不需要修改   
$post_fields[‘loginfield‘] = ‘username‘;   
$post_fields[‘loginsubmit‘] = ‘true‘;   
//用户名和密码,必须填写   
$post_fields[‘username‘] = ‘tianxin‘;   
$post_fields[‘password‘] = ‘111111‘;   
//安全提问   
$post_fields[‘questionid‘] = 0;   
$post_fields[‘answer‘] = ‘‘;   
//@todo验证码   
$post_fields[‘seccodeverify‘] = ‘‘;   
//获取表单FORMHASH   
$ch = curl_init($login_url);   
curl_setopt($ch, CURLOPT_HEADER, 0);   
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);   
$contents = curl_exec($ch);   
curl_close($ch);   
preg_match(‘/<input\s*type="hidden"\s*name="formhash"\s*value="(.*?)"\s*\/>/i‘, $contents, $matches);   
if(!empty($matches)) {   
$formhash = $matches[1];   
} else {   
die(‘Not found the forumhash.‘);   
}   
  
//POST数据,获取COOKIE,cookie文件放在网站的temp目录下   
$cookie_file = tempnam(‘./temp‘,‘cookie‘);   
$ch = curl_init($login_url);   
curl_setopt($ch, CURLOPT_HEADER, 0);   
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);   
curl_setopt($ch, CURLOPT_POST, 1);   
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);   
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);   
curl_exec($ch);   
curl_close($ch);   
//取到了关键的cookie文件就可以带着cookie文件去模拟发帖,fid为论坛的栏目ID   
$send_url = $discuz_url."post.php?action=newthread&fid=2";   
  
$ch = curl_init($send_url);   
curl_setopt($ch, CURLOPT_HEADER, 0);   
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);   
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);   
$contents = curl_exec($ch);   
curl_close($ch);   
//这里的hash码和登陆窗口的hash码的正则不太一样,这里的hidden多了一个id属性   
preg_match(‘/<input\s*type="hidden"\s*name="formhash"\s*id="formhash"\s*value="(.*?)"\s*\/>/i‘, $contents, $matches);   
if(!empty($matches)) {   
$formhash = $matches[1];   
} else {   
die(‘Not found the forumhash.‘);   
}   
  
$post_data = array();   
//帖子标题   
$post_data[‘subject‘] = ‘test2‘;   
//帖子内容   
$post_data[‘message‘] = ‘test2‘;   
$post_data[‘topicsubmit‘] = "yes";   
$post_data[‘extra‘] = ‘‘;   
//帖子标签   
$post_data[‘tags‘] = ‘test‘;   
//帖子的hash码,这个非常关键!假如缺少这个hash码,discuz会警告你来路的页面不正确   
$post_data[‘formhash‘]=$formhash;   
  
$ch = curl_init($send_url);   
curl_setopt($ch, CURLOPT_REFERER, $send_url); //伪装REFERER   
curl_setopt($ch, CURLOPT_HEADER, 0);   
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);   
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);   
curl_setopt($ch, CURLOPT_POST, 1);   
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);   
$contents = curl_exec($ch);   
curl_close($ch);   
//清理cookie文件   
unlink($cookie_file);   
?>

curl安装:

windows下面的安装
:修改php.ini文件的设置,找到php_curl.dll
//取消下在的注释extension=php_curl.dll 
linux下面安装:

[php] view plaincopy

  1. # wget <a href="http://curl.haxx.se/download/curl-7.17.1.tar.gz" target="_blank">http://curl.haxx.se/download/curl-7.17.1.tar.gz</a> # tar zxvf curl-7.17.1.tar.gz  //解压
  2. #cd curl-7.17.1
  3. # ./configure –prefix=/usr/local/curl
  4. # make
  5. # make install

这是安装php之前安装的方法.
***************************phpinf查看是否加载成功!
使用curl的POST数据飞信接口
用curl 写了飞信接口吧,网上有很多,这里只是做个测试

[php] view plaincopy

  1. $username = 13800138000;
  2. $password = 123456;
  3. $sendto = 13912345678;
  4. $message = "测试一个试试看!";
  5. $curlPost = ‘username=‘.urlencode($username).‘&password=‘.urlencode($password).‘&sendto=‘.urlencode($sendto).‘&message=‘.urlencode($message).‘‘;
  6. $ch = curl_init();//初始化curl
  7. curl_setopt($ch,CURLOPT_URL,‘http://sms.api.bz/fetion.php‘);//抓取指定网页
  8. curl_setopt($ch, CURLOPT_HEADER, 0);//设置header
  9. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//要求结果为字符串且输出到屏幕上
  10. curl_setopt($ch, CURLOPT_POST, 1);//post提交方式
  11. curl_setopt($ch, CURLOPT_POSTFIELDS, $curlPost);
  12. $data = curl_exec($ch);//运行curl
  13. curl_close($ch);
  14. print_r($data);//输出结果

返回的结果是:短信已提交到发送队列!
飞信接口的地址是http://sms.api.bz/
飞信接口模式: http://sms.api.bz/fetion.php?username=您的移动飞信登录手机号 &password=您的移动飞信登录密码
&sendto=接收短信的飞信好友手机号
&message=短信内容
格式:http://sms.api.bz/fetion.php?username=13800138000&password=123456&sendto=13912345678&message=短信内容
注意要保持utf-8格式的,这点我犯错了

总结一下使用curl方法:

初始化curl

使用curl_setopt设置目标url,和其他选项,这些选项方法详细参考:http://cn2.php.net/manual/zh/ref.curl.php

curl_exec,执行curl

执行后,关闭curl 
最后一步就是输出 
一个最要的curl函数:curl_getinfo
curl_getinfo ( resource $ch [, int $opt = 0 ] )

[php] view plaincopy

  1. <?php
  2. /*curl实例
  3. */
  4. $curl = curl_init();
  5. // 设置你需要抓取的URL
  6. curl_setopt($curl, CURLOPT_URL, ‘http://www.baidu.com‘);
  7. // 设置header
  8. curl_setopt($curl, CURLOPT_HEADER, 0);
  9. // 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。
  10. curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
  11. // 运行cURL,请求网页
  12. $data = curl_exec($curl);
  13. if($data === false){
  14. echo curl_error($curl);exit;
  15. }
  16. $info = curl_getinfo($curl);
  17. // 关闭URL请求
  18. curl_close($curl);
  19. // 显示获得的数据
  20. var_dump($info);
  21. var_dump($data);

可以返回:

URLINFO_EFFECTIVE_URL – 最后一个有效的URL地址 
CURLINFO_HTTP_CODE – 最后一个收到的HTTP代码 
CURLINFO_FILETIME – 远程获取文档的时间,如果无法获取,则返回值为“-1” 
CURLINFO_TOTAL_TIME – 最后一次传输所消耗的时间 
CURLINFO_NAMELOOKUP_TIME – 名称解析所消耗的时间 
CURLINFO_CONNECT_TIME – 建立连接所消耗的时间 
CURLINFO_PRETRANSFER_TIME – 从建立连接到准备传输所使用的时间 
CURLINFO_STARTTRANSFER_TIME – 从建立连接到传输开始所使用的时间 
CURLINFO_REDIRECT_TIME – 在事务传输开始前重定向所使用的时间 
CURLINFO_SIZE_UPLOAD – 上传数据量的总值 
CURLINFO_SIZE_DOWNLOAD – 下载数据量的总值 
CURLINFO_SPEED_DOWNLOAD – 平均下载速度 
CURLINFO_SPEED_UPLOAD – 平均上传速度 
CURLINFO_HEADER_SIZE – header部分的大小 
CURLINFO_HEADER_OUT – 发送请求的字符串 
CURLINFO_REQUEST_SIZE – 在HTTP请求中有问题的请求的大小 
CURLINFO_SSL_VERIFYRESULT – 通过设置CURLOPT_SSL_VERIFYPEER返回的SSL证书验证请求的结果 
CURLINFO_CONTENT_LENGTH_DOWNLOAD – 从Content-Length: field中读取的下载内容长度 
CURLINFO_CONTENT_LENGTH_UPLOAD – 上传内容大小的说明 
CURLINFO_CONTENT_TYPE – 下载内容的Content-Type:值,NULL表示服务器没有发送有效的Content-Type: header

使用curl实现多线程

curl一般用来抓取网页,第二种就是get或者post数据,第三种应用就是实现PHP的多线程任务
下面来实现多线程的

[php] view plaincopy

  1. <?php
  2. /*
  3. curl 多线程抓取
  4. */
  5. /**
  6. * curl 多线程
  7. *
  8. * @param array $array 并行网址
  9. * @param int $timeout 超时时间
  10. * @return array
  11. */
  12. function Curl_http($array,$timeout){
  13. $res = array();
  14. $mh = curl_multi_init();//创建多个curl语柄
  15. $startime = getmicrotime();
  16. foreach($array as $k=>$url){
  17. $conn[$k]=curl_init($url);
  18. curl_setopt($conn[$k], CURLOPT_TIMEOUT, $timeout);//设置超时时间
  19. curl_setopt($conn[$k], CURLOPT_USERAGENT, ‘Mozilla/5.0 (compatible; MSIE 5.01; Windows NT 5.0)‘);
  20. curl_setopt($conn[$k], CURLOPT_MAXREDIRS, 7);//HTTp定向级别
  21. curl_setopt($conn[$k], CURLOPT_HEADER, 0);//这里不要header,加块效率
  22. curl_setopt($conn[$k], CURLOPT_FOLLOWLOCATION, 1); // 302 redirect
  23. curl_setopt($conn[$k],CURLOPT_RETURNTRANSFER,1);
  24. curl_multi_add_handle ($mh,$conn[$k]);
  25. }
  26. //防止死循环耗死cpu 这段是根据网上的写法
  27. do {
  28. $mrc = curl_multi_exec($mh,$active);//当无数据,active=true
  29. } while ($mrc == CURLM_CALL_MULTI_PERFORM);//当正在接受数据时
  30. while ($active and $mrc == CURLM_OK) {//当无数据时或请求暂停时,active=true
  31. if (curl_multi_select($mh) != -1) {
  32. do {
  33. $mrc = curl_multi_exec($mh, $active);
  34. } while ($mrc == CURLM_CALL_MULTI_PERFORM);
  35. }
  36. }
  37. foreach ($array as $k => $url) {
  38. curl_error($conn[$k]);
  39. $res[$k]=curl_multi_getcontent($conn[$k]);//获得返回信息
  40. $header[$k]=curl_getinfo($conn[$k]);//返回头信息
  41. curl_close($conn[$k]);//关闭语柄
  42. curl_multi_remove_handle($mh  , $conn[$k]);   //释放资源
  43. }
  44. curl_multi_close($mh);
  45. $endtime = getmicrotime();
  46. $diff_time = $endtime - $startime;
  47. return array(‘diff_time‘=>$diff_time,
  48. ‘return‘=>$res,
  49. ‘header‘=>$header
  50. );
  51. }
  52. //计算当前时间
  53. function getmicrotime() {
  54. list($usec, $sec) = explode(" ",microtime());
  55. return ((float)$usec + (float)$sec);
  56. }
  57. //测试一下,curl 三个网址
  58. $array = array(
  59. "http://www.weibo.com/",
  60. "http://www.renren.com/",
  61. "http://www.qq.com/"
  62. );
  63. $data = Curl_http($array,‘10‘);//调用
  64. var_dump($data);//输出
  65. ?>

关于do while的那段解释:

因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,
当有数 据的时候就不停调用curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。
这里的好处就是CPU的无谓 消耗没有了。更详细的说明:http://hi.baidu.com/%D4%C2%D2%B9%C4%FD%ED%F8/blog/item/9dfcf4fbe6b84374024f563d.html

这个多线程的写法步骤:
第一步:调用curl_multi_init
第二步:循环调用curl_multi_add_handle
这一步需要注意的是,curl_multi_add_handle的第二个参数是由curl_init而来的子handle。
第三步:持续调用curl_multi_exec
第四步:根据需要循环调用curl_multi_getcontent获取结果
第五步:调用curl_multi_remove_handle,并为每个字handle调用curl_close
第六步:调用curl_multi_close
多线程的测试效果图:

总结:36个http请求,从执行的是时间顺序上来看,三个网站的ip交叉,说明是同时并发的!
—————————————————————————
linux命令下的curl
几种常见的使用方式:
下载作用:
直接下载 相当于wget 
curl -o 1.jpg http://cgi2.tky.3web.ne.jp/~zzh/screen1.JPG 批量下载screen1.JPG–screen10.JPG 
curl -O http://cgi2.tky.3web.ne.jp/~zzh/screen[1-10].JPG 断点下载 
curl -c -O http://cgi2.tky.3wb.ne.jp/~zzh/screen1.JPG 反向代理功能
curl -x 123.45.67.89:1080 -o page.html http://www.yahoo.com 显示头文件
curl -I

www.sina.com

本文章来介绍php使用curl来获取远程图片实现方法,有需要了解采集远程图片的朋友不防进入参考。curl要求php环境支持才行. 可以运行phpinfo()函数是否支持,一般要将php.ini中;extension=php_curl.dll前的;去掉.重新启动IIS或者APACHE就可以了.

/*
*@通过curl方式获取指定的图片到本地
*@ 完整的图片地址
*@ 要存储的文件名
*/
function getImg($url = "", $filename = "")
{
 //去除URL连接上面可能的引号
  //$url = preg_replace( ‘/(?:^[‘"]+|[‘"/]+$)/‘, ‘‘, $url );
  $hander = curl_init();
  $fp = fopen($filename,‘wb‘);
  curl_setopt($hander,CURLOPT_URL,$url);
  curl_setopt($hander,CURLOPT_FILE,$fp);
  curl_setopt($hander,CURLOPT_HEADER,0);
  curl_setopt($hander,CURLOPT_FOLLOWLOCATION,1);
  //curl_setopt($hander,CURLOPT_RETURNTRANSFER,false);//以数据流的方式返回数据,当为false是直接显示出来
  curl_setopt($hander,CURLOPT_TIMEOUT,60);
  curl_exec($hander);
  curl_close($hander);
  fclose($fp);
  Return true;
}
调用时,直接getImg("/logo.jpg","upload/image.jpg")

实现代码2

代码如下:

<?php
$url = "图片绝对地址/thumbnail.jpg";
$filename = ‘curl.jpg‘;
getImg($url, $filename);
/*
  *@通过curl方式获取制定的图片到本地
  *@ 完整的图片地址
  *@ 要存储的文件名
 */
function getImg($url = "", $filename = "") {
    if(is_dir(basename($filename))) {
        echo "The Dir was not exits";
        return false;
    }
    //去除URL连接上面可能的引号
    $url = preg_replace( ‘/(?:^[‘"]+|[‘"/]+$)/‘, ‘‘, $url );
    $hander = curl_init();
    $fp = fopen($filename,‘wb‘);
    curl_setopt($hander,CURLOPT_URL,$url);
    curl_setopt($hander,CURLOPT_FILE,$fp);
    curl_setopt($hander,CURLOPT_HEADER,0);
    curl_setopt($hander,CURLOPT_FOLLOWLOCATION,1);
    //curl_setopt($hander,CURLOPT_RETURNTRANSFER,false);//以数据流的方式返回数据,当为false是直接显示出来
    curl_setopt($hander,CURLOPT_TIMEOUT,60);
    /*$options = array(
        CURLOPT_URL=> ‘/thum-f3ccdd27d2000e3f9255a7e3e2c4880020110622095243.jpg‘,
        CURLOPT_FILE => $fp,
        CURLOPT_HEADER => 0,
        CURLOPT_FOLLOWLOCATION => 1,
        CURLOPT_TIMEOUT => 60
    );
    curl_setopt_array($hander, $options);
    */
    curl_exec($hander);
    curl_close($hander);
    fclose($fp);
    return  true;
}
?>

curl_setopt 为CURL调用设置一个选项

bool curl_setopt (int ch, string option, mixed value)

curl_setopt()函数将为一个CURL会话设置选项。option参数是你想要的设置,value是这个选项给定的值。

下列选项的值将被作为长整形使用(在option参数中指定):

CURLOPT_INFILESIZE: 当你上传一个文件到远程站点,这个选项告诉PHP你上传文件的大小。

CURLOPT_VERBOSE: 如果你想CURL报告每一件意外的事情,设置这个选项为一个非零值。

CURLOPT_HEADER: 如果你想把一个头包含在输出中,设置这个选项为一个非零值。

CURLOPT_NOPROGRESS: 如果你不会PHP为CURL传输显示一个进程条,设置这个选项为一个非零值。

注意:PHP自动设置这个选项为非零值,你应该仅仅为了调试的目的来改变这个选项。

CURLOPT_NOBODY: 如果你不想在输出中包含body部分,设置这个选项为一个非零值。

CURLOPT_FAILONERROR: 如果你想让PHP在发生错误(HTTP代码返回大于等于300)时,不显示,设置这个选项为一人非零值。默认行为是返回一个正常页,忽略代码。

CURLOPT_UPLOAD: 如果你想让PHP为上传做准备,设置这个选项为一个非零值。

CURLOPT_POST: 如果你想PHP去做一个正规的HTTP POST,设置这个选项为一个非零值。这个POST是普通的 application/x-www-from-urlencoded 类型,多数被HTML表单使用。

CURLOPT_FTPLISTONLY: 设置这个选项为非零值,PHP将列出FTP的目录名列表。

CURLOPT_FTPAPPEND: 设置这个选项为一个非零值,PHP将应用远程文件代替覆盖它。

CURLOPT_NETRC: 设置这个选项为一个非零值,PHP将在你的 ~./netrc 文件中查找你要建立连接的远程站点的用户名及密码。

CURLOPT_FOLLOWLOCATION: 设置这个选项为一个非零值(象 “Location: “)的头,服务器会把它当做HTTP头的一部分发送(注意这是递归的,PHP将发送形如 “Location: “的头)。

CURLOPT_PUT: 设置这个选项为一个非零值去用HTTP上传一个文件。要上传这个文件必须设置CURLOPT_INFILE和CURLOPT_INFILESIZE选项.

CURLOPT_MUTE: 设置这个选项为一个非零值,PHP对于CURL函数将完全沉默。

CURLOPT_TIMEOUT: 设置一个长整形数,作为最大延续多少秒。

CURLOPT_LOW_SPEED_LIMIT: 设置一个长整形数,控制传送多少字节。

CURLOPT_LOW_SPEED_TIME: 设置一个长整形数,控制多少秒传送CURLOPT_LOW_SPEED_LIMIT规定的字节数。

CURLOPT_RESUME_FROM: 传递一个包含字节偏移地址的长整形参数,(你想转移到的开始表单)。

CURLOPT_SSLVERSION: 传递一个包含SSL版本的长参数。默认PHP将被它自己努力的确定,在更多的安全中你必须手工设置。

CURLOPT_TIMECONDITION: 传递一个长参数,指定怎么处理CURLOPT_TIMEVALUE参数。你可以设置这个参数为TIMECOND_IFMODSINCE 或 TIMECOND_ISUNMODSINCE。这仅用于HTTP。

CURLOPT_TIMEVALUE: 传递一个从1970-1-1开始到现在的秒数。这个时间将被CURLOPT_TIMEVALUE选项作为指定值使用,或被默认TIMECOND_IFMODSINCE使用。

下列选项的值将被作为字符串:

CURLOPT_URL: 这是你想用PHP取回的URL地址。你也可以在用curl_init()函数初始化时设置这个选项。

CURLOPT_USERPWD: 传递一个形如[username]:[password]风格的字符串,作用PHP去连接。

CURLOPT_PROXYUSERPWD: 传递一个形如[username]:[password] 格式的字符串去连接HTTP代理。

CURLOPT_RANGE: 传递一个你想指定的范围。它应该是”X-Y”格式,X或Y是被除外的。HTTP传送同样支持几个间隔,用逗句来分隔(X-Y,N-M)。

CURLOPT_POSTFIELDS: 传递一个作为HTTP “POST”操作的所有数据的字符串。

CURLOPT_REFERER: 在HTTP请求中包含一个”referer”头的字符串。

CURLOPT_USERAGENT: 在HTTP请求中包含一个”user-agent”头的字符串。

CURLOPT_FTPPORT: 传递一个包含被ftp “POST”指令使用的IP地址。这个POST指令告诉远程服务器去连接我们指定的IP地址。 这个字符串可以是一个IP地址,一个主机名,一个网络界面名(在UNIX下),或是‘-’(使用系统默认IP地址)。

CURLOPT_COOKIE: 传递一个包含HTTP cookie的头连接。

CURLOPT_SSLCERT: 传递一个包含PEM格式证书的字符串。

CURLOPT_SSLCERTPASSWD: 传递一个包含使用CURLOPT_SSLCERT证书必需的密码。

CURLOPT_COOKIEFILE: 传递一个包含cookie数据的文件的名字的字符串。这个cookie文件可以是Netscape格式,或是堆存在文件中的HTTP风格的头。

CURLOPT_CUSTOMREQUEST: 当进行HTTP请求时,传递一个字符被GET或HEAD使用。为进行DELETE或其它操作是有益的,更Pass a string to be used instead of GET or HEAD when doing an HTTP request. This is useful for doing or another, more obscure, HTTP request.

注意: 在确认你的服务器支持命令先不要去这样做。

时间: 2024-08-26 01:46:16

PHP采集相关教程之一 CURL函数库的相关文章

PHP中的CURL函数库

PHP中的CURL函数库(Client URL Library Function) curl_close — 关闭一个curl会话curl_copy_handle — 拷贝一个curl连接资源的所有内容和参数curl_errno — 返回一个包含当前会话错误信息的数字编号curl_error — 返回一个包含当前会话错误信息的字符串curl_exec — 执行一个curl会话curl_getinfo — 获取一个curl连接资源句柄的信息curl_init — 初始化一个curl会话curl_m

PHP中的CURL函数库(转载)

使用PHP的cURL库可以简单和有效地去抓网页.你只需要运行一个脚本,然后分析一下你所抓取的网 页,然后就可以以程序的方式得到你想要的数据了.无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内 容,cURL 是一个功能强大的PHP库. PHP中的CURL函数库(Client URL Library Function) curl_close — 关闭一个curl会话 curl_copy_handle — 拷贝一个curl连接资源的所有内容和参数 cu

PHP cURL函数库

index.php <?php/*使用PHP的cURL库可以简单和有效地去抓网页.只需要运行一个脚本,然后分析一下所抓取的网页,然后就可以以程序的方式得到想要的数据了.无论是想从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库可模拟登录,但尚未实现开启验证码的的论坛登录功能 需先打开PHP.ini配置文件启用 extension=php_curl.dll 库php curl库包含方法 curl_init — 初始化一个cu

cURL函数库错误码说明之PHP curl_errno函数

背景概述:游戏接口是使用PHP cURL扩展进行请求操作.但是,被请求的服务器经常会无故的不响应或者超时.总之,就是请求之后收不到响应回来的数据.这时候可不能说对方API接口有问题,或者,服务器有故障.总之,可能出现的问题是非常之多.不能一概而论. 一.给出一段常用的PHP cURL代码: function sendRequestGame($url) { $header = array('Expect:'); $ch = curl_init(); curl_setopt($ch, CURLOPT

浅谈 php 采用curl 函数库获取网页 cookie 和 带着cookie去访问 网页的方法!!!!

由于近段时间帮朋友开发一个能够查询正方教务系统的微信公众平台号.有所收获.这里总结下个人经验. 开讲前,先吐槽一下新浪云服务器,一个程序里的   同一个函数  在PC测试可以正常运行,在它那里就会挂的现象. 老样子,我将在代码里注释清楚.使用下面的函数,将会获得两种形式的 cookie,一种保存在文件中,一种直接以变量的形式返回, 经验提示: 有时候,在不同的代码运行环境中,带着文件cookie 去访问会成功,而变量却失败,有时候却想法.不过, 目前,这两种方法总有一种会成功. 1 functi

安卓开发经验分享:资源、UI、函数库、测试、构建一个都不能少

除了高超的武艺,每位黑忍者还需要装备最好的武器.在软件开发的世界里,好的工具能让我们的生活变得更轻松,在更短的时间里写出更棒的代码. 时光回到2008年,那时安卓还很年轻.只有几个相关的博客和谷歌官方的几个应用开发教程,没有函数库也没有代码生成器,甚至连成熟的设计模式也没有(除了OOP和一些Java实践).今非昔比,我们已经有了一个成熟的OS.很棒的开发工具.稳定的Eclipse插件和其他IDE,数不清的开发书籍和相关的技术博客. 这里,我想分享自己在开发安卓应用时用到的工具和一些技巧,希望可以

关于在用curl函数post网页数据时,遇上表单提交 type为submit 类型而且没有name和id时可能遇到的问题及其解决方法

curl函数库实现爬网页内容的链接在 http://www.cnblogs.com/linguanh/p/4292316.html 下面这个是没有name和id 标识的 <input type="submit" value="OnClick"/> 这种类型,在填写完信息后,我们一般需要点一个按钮去触发提交事件. 我之前介绍的用curl去获取网页cookie 的文章中 出现过的一个 变量 data,即要传送过去的 数据, 这个数据一般是网站的登陆账号和密码

ABP展现层——Javascript函数库

ABP展现层——Javascript函数库 点这里进入ABP系列文章总目录 基于DDD的现代ASP.NET开发框架--ABP系列之21.ABP展现层——Javascript函数库 ABP是“ASP.NET Boilerplate Project (ASP.NET样板项目)”的简称. ABP的官方网站:http://www.aspnetboilerplate.com ABP在Github上的开源项目:https://github.com/aspnetboilerplate ASP.NET Boil

机器学习实战之环境配置:windows系统下安装NumPy、SciPy和Matplotlib函数库

在科学和金融领域,SciPy和NumPy等科学函数库都实现了向量和矩阵操作,增加了代码的可读性,降低了阅读门槛:同时这两个库使用底层语言(C和Fortran)编写,提高了相关应用程序的计算性能,被广泛的应用.此外还有绘图工具Matplotlib,可以绘制2D/3D图形,也可以处理科学研究中经常使用到的图形. 三个库各自的下载地址↓ http://sourceforge.net/projects/numpy/files/NumPy http://sourceforge.net/projects/s