java爬取网页上qq号，邮箱号等

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class GetMail {
public static void main(String[] args) throws Exception {
//getMails();
getMails_url();
}

public static void getMails_url() throws Exception {
URL url = new URL("https://wenku.baidu.com/view/ce81b0a1ddccda38366baf61.html");//这里就是要爬取的网页
URLConnection conn = url.openConnection();
BufferedReader bufr = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
String maileRes = "[\u4E00-\u9FA5]+";//这里存放需要设定的规则

//匹配邮箱："\\[email protected]\\w+(\\.\\w+)+"
//匹配汉字："[\u4E00-\u9FA5]+";
//匹配QQ号："[1-9][0-9]{4,14}"
//qq邮箱："(.)[email protected](.)+(\\.[a-z]+){1,}";
Pattern p = Pattern.compile(maileRes);

while((line=bufr.readLine())!=null) {
Matcher m = p.matcher(line);
while(m.find()) {
System.out.println(m.group());
}

}
}

原文地址：https://www.cnblogs.com/zxwm/p/9235960.html

时间： 2024-07-30 15:35:31

java爬取网页上qq号，邮箱号等的相关文章

用Python爬取网页上的小说，让你从此告别书荒！

人生苦短,我用Python.有道爱看小说的小伙伴们,在看小说的期间总会遇到那么一段书荒期,在这段期间想看书却找不到,要么就是要VIP,要么就是下载不了.所以学会爬取网站上的小说是很有必要的,今天就以爬取笔趣阁小说为例,进行网页上小说的爬取.首先当我们打开笔趣阁的网页时,我们会看到很多的小说列表,如下图所示: ? 就拿爬取图上所示的小说来说,我们要进行以下的几个步骤: 爬取小说首先要构建请求表头: ? 然后我们的获取下载链接: ? 接下来我们进行文章内容的爬取: ? 最后我们将爬取来的小说写入到文

C# 爬取网页上的数据

最近工作中需求定时爬取不同城市每天的温度.其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程..NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebRequest类.这些类对于利用HTTP去访问远端的网页并且下载下来是很有用的,但在对于所下载下来的HTML的解析能力方面,则显得功能很弱了.推荐一个开源的组件HTML Agility Pack(http://htmlagilitypack.codeplex.com/),它的设计目标是尽可能简化对HTML文档

使用JAVA爬取网页图片

经过之前的HttpURLConnection还有各种流的结束,已经可以开始理解怎么下载网页上的一张图片了. 对各种流不理解的话,可以翻翻前面的随笔,讲得都比较详细.在此就不细讲了. 主要流程: 1.HttpURLConnection连接上图片的网址,打开一个InputStream. 2.把InputStream的内容读取到ByteArrayOutputStream中,此时ByteArrayOutputStream存储了图片数据的byte数组. 3.通过文件流,把byte数据填充到一个jpg文件中

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

python之爬取网页数据总结（一）

今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件. 因为配置了环境变量,可以cmd命令直接安装.假如电脑上有两个版本的python,建议进入到目录安装. 安装的命令为 pip install requests(Beautifulsoup4 /lxml ) 三条分别执行. 安装结束,可以尝试网上一些简单的例子,明白了解 Beautifulso

java爬取网页内容简单例子（2）——附jsoup的select用法详解

http://www.cnblogs.com/xiaoMzjm/p/3899366.html [背景] 在上一篇博文java爬取网页内容简单例子(1)——使用正则表达式里面,介绍了如何使用正则表达式去解析网页的内容,虽然该正则表达式比较通用,但繁琐,代码量多,现实中想要想出一条简单的正则表达式对于没有很好正则表达式基础的人——比如说我T_T——是一件蛮困难的事.这一篇,我们改用jsoup,一个强大的解析html工具,去解析html,你会发现,一切都变得很容易. [准备工作] 下载:jsou

Scrapy精华教程（六）——自动爬取网页之II（CrawlSpider）

一.目的. 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存. 但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自动实现多网页爬取功能. 在教程(五)

java抓取网页数据，登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

使用Post方法模拟登陆爬取网页(转)

使用Post方法模拟登陆爬取网页最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.io.PrintWriter; import java.net.HttpURLConnection; import java.net.URL; impo

猜你喜欢

Animator 笔记

Animator类 1.几个常用的成员函数 (1)SetFloat/GetFloat SetInteger/GetInteger SetBool/GetBool SetTrigger/GetT ...

HDU 3342 Legal or Not (最短路拓扑排序?)

Legal or Not Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tota ...

(一) 1 代码如下: //页面中写入html内容 document.write("<h1>Hello World!</h1>") 2 代码如下: //为了 ...

java集合1

DatabaseError: no such table: django_session

最近我也遇到这个问题了,从网上查了下,说是数据库同步出了问题,只需要运行如下命令:python manage.py syncdb就可以了 (这是django1.4之前的命令,1.4之后的是 pytho ...

ubuntu14.04本地域名服务器配置

dnsmasq 1 修改dnsmasq配置文件/etc/dnsmasq.conf # Change this line if you want dns to get its upstream serv ...

Devexpress VCL Build v2014 vol 14.2.4 发布

What's New in 14.2.4 (VCL Product Line) New Major Features in 14.2 What's New in VCL Products 14.2 B ...

协议分析：IP校检和算法

定义:校验和是针对IP报头的纠错字段.校验和不计算被封装的数据,UDP.TCP和ICMP都有各自的校验和.报头校验和字段包含一个16位二进制补码和,这是由数据包发送者计算得到的.接受者将连同原始校验和 ...

POJ 2104 归并树

链接: http://poj.org/problem?id=2104 代码: 31 int a[MAXN], num[MAXN]; 32 VI tree[MAXN << 2]; 33 34 ...

hdu1871 无题 (贪心扫描)

Problem Description http://acm.hdu.edu.cn/showproblem.php?pid=1871 就要复试了,外地的考生都要在学校附近住宾馆了.假设在学校附近有C家 ...

HDU1103 Flo's Restaurant 【模拟】

Flo's Restaurant Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...

关于oracle批量处理数据

用游标逐条数据更新实在是太慢了,并且在同一个表中进行一系列的查询后删除.删除后插入很有可能会循环过载,因此批量处理数据很重要,下面是我在项目中写的一小部分存储过程的部分功能操作,主要实现的是把同类数据 ...

smtp简单邮件传输

1.建立dns(mail.mail.com和liunx.linux.com) /etc/named.rfc1912.zones /var/named/liunx.com.zone /var/named ...

asp.net mvc 自定义pager封装与优化

asp.net mvc 自定义pager封装与优化 Intro 之前做了一个通用的分页组件,但是有些不足,从翻页事件和分页样式都融合在后台代码中,到翻页事件可以自定义,再到翻页和样式都和代码分离, 自 ...

jQuery插件制作方法详解

jQuery插件制作方法详解 jquery插件给我的感觉清一色的清洁,简单.如Jtip,要使用它的功能,只需要在你的元素的class上加上Jtip,并引入jtip.js及其样式即可以了.其他事情插件 ...

DataTable分页代码

/// <summary> /// DataTable分页 /// </summary> /// <param name="dt">DataTa ...

bzoj1558 [JSOI2009]等差数列

传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1558 [题解] 这题恶心死人了啊.. 网络上题解很多都是看代码看代码..真是太不负责任了.. ...

sql server ABS函数和PI函数

--ABS(x)返回x的绝对值 --PI()返回圆周率的值

HBASE 0.98版本安装，三步曲：安装Zookeeper 3.4.5

1.下载zookeeper 3.4.5 2.解压 3.挪到合适的位置 /home/hadoop/zookeeper 4.设置一个zookeeper放置数据的位置 /home/hadoop/zk 5.修 ...

ifly

// Iflytek_Exam_1.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> #in ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.054 s.