查找网页元素并且输出到固定文件

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.PrintWriter;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HrefTest {

   /**
    * 输出文件方法
    * @param filePath
    * @param sb
    * @throws IOException
    */
    public static void outHref(String filePath,StringBuffer sb) throws IOException{

        try {
            File file = new File(filePath);
            PrintWriter writer = new PrintWriter(new FileOutputStream(file));
             writer.write(sb.toString());
             writer.close();

        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
    }
    /**
     * 定位元素
     * @param args
     */

    public static void main(String[] args) {
        String  filePath="/Users/liuqi/Desktop/result.log";
        final String url="http://www.baidu.com/";
        String str="";
        StringBuffer sb=new StringBuffer();
        try {
            Document doc=Jsoup.connect(url).get();
            Elements links=doc.getElementsByTag("a");
            for(Element link:links){
                if(link.attr("href").contains("baidu"))
                     str=link.attr("href").toString();
                     sb.append(str+"\n");
                     System.out.println(link.attr("href"));
                     outHref(filePath, sb);
            }

        } catch (IOException e) {
            e.printStackTrace();
        }

    }

}

需要加载jsoup-1.10.1.jar这个jar

时间： 2024-08-27 12:42:49

查找网页元素并且输出到固定文件的相关文章

python简单使用xpath查找网页元素

from lxml import html def parse(): """"将html文件中的内容,使用小path进行提取""" #读取文件中的内容 f = open('./venv/static_/index.html','r',encoding = 'utf-8') s = f.read() selector = html.fromstring(s) #j解析标题 h3 = selector.xpath('/html/body/h

Rhel7 grep在文件中查找指定的字符串，将其输出到指定文件

Rhel7 grep在文件中查找指定的字符串,将其输出到指定文件 [[email protected] findfiles]# cat /usr/share/dict/words |grep seismic anaseismic antiseismic aseismic -- [[email protected] findfiles]# cat /usr/share/dict/words |grep seismic >>/root/wordlist [[email protected] fin

JS事件调试 - 查找HTML元素绑定的事件以及绑定代码所在位置

日常的网页开发调试工作中,经常需要知道指定的某个网页元素绑定了哪些事件以及绑定代码的位置,下面介绍三种用来跟踪页面中的事件的方法. 1.使用firefox调试我们可以使用firefox的debug工具,找到指定元素,然后查看事件面板 2.使用chrome调试在要检查的元素上单击右键选择查看元素,然后,右边的面板中会显示style标签,切换到EventListenrs标签,可以看到相关的事件绑定信息.点击最右边的文件名称还可以跳转到事件定义代码在脚本文件中的位置.不过这种方法并非总是可用,下面

HDU 2025 查找最大元素

个人感觉本题是个垃圾题比如输入: ZZZZZZa 输出应该是: ZZZZZZa(max) 否则错. 判题系统有问题查找最大元素 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 27852 Accepted Submission(s): 15444 Problem Description 对于输入的每个字符串,查找其中的最大字母

如何使用ob函数输出静态html文件

如何使用ob函数输出静态html文件 1.ob函数介绍 1.1.ob_start - 打开输出控制缓冲 bool ob_start ([ callback $output_callback [, int $chunk_size [, bool $erase ]]] ) 此函数将打开输出缓冲.当输出缓冲激活后,脚本将不会输出内容(除http标头外),相反需要输出的内容被存储在内部缓冲区中.详情参考:http://php.net/manual/zh/function.ob-start.php 1.

hdu 2025 查找最大元素（java）

问题: 此类要对字符元素进行处理的最好使用字符数组来做. 要考怒最后一个元素要进行空行,此时有两种情况,可以对最后一个元素直接进行处理. 查找最大元素 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 35186 Accepted Submission(s): 19474 Problem Description 对于输入的每个字符串

查找最大元素

查找最大元素 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 30586 Accepted Submission(s): 16854 Problem Description 对于输入的每个字符串,查找其中的最大字母,在该字母后面插入字符串"(max)". Input 输入数据包括多个测试实例,每个实例由一行长度不超过100的字符串组

简述php关于网页元素抓取方面的技术

对于php抓取网页的内容,可能比较难的就是dom解析这一部分了,这儿的话有几种技术推荐给大家,具体使用哪种就看自己的喜欢了 1.php自带的xpath解析技术 xpath的话具体可以百度一下他的用法,我只举几个简单的例子,废话不多说,代码如下 <?php error_reporting(0); $url='http://www.baidu.com';//此处写抓取的网页的网址,我随便写的 $html=file_get_contents($url); $dom=new DOMDocument; $

Lua查找表元素过程（元表、__index方法是如何工作的）（转载）

文章来源于 Lua查找表元素过程(元表.__index方法是如何工作的) Lua的表本质其实是个类似HashMap的东西,其元素是很多的Key-Value对,如果尝试访问了一个表中并不存在的元素时,就会触发Lua的一套查找机制,也是凭借这个机制,才能够实现“面向对象”的. 举例说明: tempTable = {} print(tempTable.memberA) --这里试图打印tempTable并不存在的成员memberA 执行结果:nil输出为nil的原因很简单,tempTable中并没有m