java通过正则表达式提取XML节点内容

现在有类似<doc>abc</doc><title>3232</title> <doc>只要内容</doc>这么一个串,需要提取abc,3232,只要内容的节点内容

public static List getContext(String html) {
        List resultList = new ArrayList();
        Pattern p = Pattern.compile(">([^</]+)</");//正则表达式 commend by danielinbiti
        Matcher m = p.matcher(html );//
        while (m.find()) {
            resultList.add(m.group(1));//
        }
        return resultList;
    }
	/**
	 * @param args
	 */
	public static void main(String[] args) {
		String a = "<doc>abc</doc><title>3232</title> <doc>只要内容</doc>";
	    List list = getContext(a);
	    System.out.println(list);
	}

主要是正则表达式

时间: 2024-12-19 13:55:06

java通过正则表达式提取XML节点内容的相关文章

【总结】java regex 正则表达式 提取数字和去除数字,过滤数字,提取价格

转: [总结]java regex 正则表达式 提取数字和去除数字,过滤数字,提取价格 @Test public void test33() { String phoneString = "哈哈,13888889999"; // 提取数字 // 1 Pattern pattern = Pattern.compile("[^0-9]"); Matcher matcher = pattern.matcher(phoneString); String all = matc

利用正则表达式提取括号内内容

比如现在要提取  中华人们共和国,简称(中国) 这句话中括号里的“中国” 1 import java.util.regex.Matcher; 2 import java.util.regex.Pattern; 3 public class Test 4 { 5 public static void main(String[] args) 6 { 7 String str ="中华人民共和国,简称(中国)."; 8 Matcher mat = Pattern.compile("

用xpath提取xml文档指定标签的内容

1 <?xml version="1.0" encoding="UTF-8"?> 2 <书架> 3 <书> 4 <书名 name="vvvb">何茂赟自传</书名> 5 <作者>何茂赟</作者> 6 <售价>500.00</售价> 7 <售价>1234元</售价><售价>1234元</售价>&

用Python提取XML里的内容,存到Excel中

最近做一个项目是解析XML文件,提取其中的chatid和lt.timestamp等信息,存到excel里. 1.解析xml,提取数据 使用python自带的xml.dom中的minidom(也可以用lxml) xml文件如下: minidom.parse()#解析文件,返回DOM对象 _get_documentElement()DOM是树形结构,获得了树形结构的根节点 getElementsByTagName()根据name查找根目录下的子节点 getAttribute()获取DOM节点的属性的

java dom4j创建 ,修改 ,删除 xml文件内容

import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.UnsupportedEncodingException; import org.dom4j.Attribute; import org.dom4j.Document; import org.dom4j.DocumentExcep

Java是如何读到hbase-site.xml 的内容的

ava是如何读到hbase-site.xml 的内容的 Java客户端使用的配置信息是被映射在一个HBaseConfiguration 实例中. HBaseConfiguration有一个工厂方法, HBaseConfiguration.create(); 运行这个方法的时候,他会去CLASSPATH,下找Hbase-site.xml,读他发现的第一个配置文件的内容. (这个方法还会去找hbase-default.xml ; hbase.X.X.X.jar里面也会有一个an hbase-defa

Java使用正则表达式取网页中的一段内容(以取Js方法为例)

关于正则表达式: 表1.常用的元字符 代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 表2.常用的限定符 代码/语法 说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 表3.常用的反义代码 代码/语法 说明 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S

java对xml节点属性的增删改查

学习本文之前请先看我的另一篇文章JAVA对XML节点的操作可以对XML操作有更好的了解. 1 package vastsum; 2 3 import java.io.File; 4 import java.io.FileWriter; 5 import java.util.Iterator; 6 7 import org.dom4j.Attribute; 8 import org.dom4j.Document; 9 import org.dom4j.Element; 10 import org.

Java操作读取写入文本TXT及XML文件内容

package fileIo; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileReader; import java.io.FileWriter; public class ReadTextFile { public BufferedReader bufread; public BufferedWriter bufwriter; File