PHP正则匹配title标题文本

 //////////////////////////////////////////////////////////////////////////////////////////////////////////
 /*传入文章ID 解析出文章标题*/
 //////////////////////////////////////////////////////////////////////////////////////////////////////////
 public function getBookNameById($aid){
  //初始化curl
  $ch= curl_init();
  //url
  $url=‘http://www.motie.com/book/‘.$aid;
  if(is_numeric($aid)){
  //正则表达式匹配
  $ru="/<h1\sclass=\"p-title\">\s*<a\shref=\"\/book\/\d+\">(.*)\s*<\/a>\s*<\/h1>/";
  }
  else{
  //<title>丧尸爆发之全家求生路_第一章  丧尸爆发 　为吾友爱乐儿更新~_磨铁</title>
  $ru="/<title>(.*)<\/title>/";
  }
  //设置选项，包括URL
  curl_setopt($ch, CURLOPT_URL, $url);
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自动输出内容
  curl_setopt($ch, CURLOPT_HEADER, 0);//不返回头部信息
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  //执行curl
  $output = curl_exec($ch);
  //错误提示
  if(curl_exec($ch) === false){
   die(curl_error($ch));
  }
  // 检查是否有错误发生
  if(curl_errno($ch)){
  echo ‘Curl error: ‘ . curl_error($ch);
  }
  //释放curl句柄
  curl_close($ch);
  $arr=array();
  preg_match_all($ru,$output,$arr);

  //第一个是完整匹配，第二个匹配就是去掉title标签的纯文本  return $arr[1][0];

   }
 //////////////////////////////////////////////////////////////////////////////////////////////////////////

时间： 2024-10-04 03:49:44

PHP正则匹配title标题文本的相关文章

如何用正则匹配这段文本

"<p style="text-align:center;">1 您不用压货,零库存,我们为您一件代发.2 本公司以批发为主,利润低薄,量大从优 .3 本厂鞋子自主生产,不打标不贴牌4 退换货7天退15天换,要求:(1)不影响二次销售.(2)不收过季产品5 气味.色差.配饰易掉.不明显处的胶渍.肉眼在1.5米以外不能明显分辨的划痕或不影响穿着的小瑕疵,不属于质量问题,鞋子都是才从工厂加工出来,部分鞋子肯定有轻微的味道,放在通风处一两天就消失了.每个人用的显示器不一

java 正则匹配提取html纯文本

本文来自于我的个人博客: java 正则匹配提取html纯文本做内容的大家都知道,从html中直接提取纯文本是一个很大的问题,现将我做的正则匹配贴上: import java.util.regex.Matcher; import java.util.regex.Pattern; public class TestReg { static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>"; public st

捧腹网短笑话正则匹配-如何剔除网页源码的制表符

以捧腹网的短笑话为例,我们可以通过requests方法提取出网页的源代码,然后通过正则匹配来得到相关的短笑话第一步,得到网页源码,使用requests的get方法,需要注意的是,网页默认编码是utf-8,我们需要指定编码格式为utf-8,才能正确显示出网页的文本信息 #-*- coding:utf-8 -*-import requestsimport re respon=requests.get('https://www.pengfu.com/xiaohua_1.html?qq-pf-to=p

利用Python正则匹配中文——爬取校园网公告栏中感兴趣的内容

写这个程序是因为校园网公告栏时不时会有学术报告,讲座之类的信息发布,但这类信息往往发布在讲座的前一天,以至于丢失很多重要消息.同时公告栏里也会发布一些跟学生无关的内容,比如工会主席会议啥的. 主要遇到的困难时对中文的正则匹配问题.(比如通过第一次正则可以提取到一个页面内的所有中文标题,第二次正则从这些中文标题中将能匹配上“报告”两个字的对象添加到结果list内) 学校公告页面是gb2312编码.我使用的方式是,整个工程使用utf-8编码,将需要匹配的关键字转换成utf-8编码格式,使用正则匹配u

常用JS正则匹配函数

//校验用户名:只能输入1-30个字母 function isTrueName(s) { var patrn=/^[a-zA-Z]{1,30}$/; if (!patrn.exec(s)) return false return true } //校验密码:只能输入6-20个字母.数字.下划线 function isPasswd(s) { var patrn=/^(/w){6,20}$/; if (!patrn.exec(s)) return false return true } //校验普通

web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象需要导入模块:from scrapy.selector import HtmlXPathSelector select()标签选择器方法,是HtmlXPathSelector里的一个方法,参数接收选择器规则,返回列表元素是一个标签对象 extract()获取到选择器过滤后的内容,返回列表元素是内容选择器规则 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签

iOS 中的正则匹配(工具类)

正则表达式正则表达式是对字符串操作的一种逻辑公式, 用事先定义好的一些特定字符.及这些特定字符的组合, 组成一个"规则字符串", 这个"规则字符串"用来表达对字符串的一种过滤逻辑, 正则表达式就是用于描述这些规则的工具, 或者说, 正则表达式就是记录文本规则的代码. 在开发中, 我们经常会有查找符合某些复杂规则的字符串的需要, 比如数据校验: 判断用户的输入是否合法(如:用户注册的时候,QQ号码,电话号码,邮箱是否符合要求) 下面让我们先来看看正则匹配常用的一些字

php正则匹配用户名必须包含字母和数字且大于6位

php正则匹配用户名必须包含字母和数字且大于6位 UEditor 1.4.3版本中去掉本地自动保存功能右键菜单没有新建文本文档txt 常见HTTP错误代码大全 http常见状态码 eclipse内存溢出错误为什么井盖是圆的?--揭开面试题的神秘面目! Linux Centos 6.6搭建SFTP服务器密码强度检测 JS判断检测用户输入密码强度代码对程序员来说,提高薪水最好的建议是什么? CSS3仿淘宝右侧固定导航悬浮层 jQuery仿淘宝网登录拖动滑块验证码代码 jQuery单击div更

Nginx 笔记与总结（7）Location：正则匹配

在 /usr/local/nginx/conf/nginx.conf 的默认 server 段中,保留默认的 location 信息(之前测试的 location 配置删除): location / { root html; index index.html index.htm; } 在 /var/www 下创建 image 目录: [[email protected] ~]# cd /var/www [[email protected] www]# mkdir image 使用 wget 或者