自己写个网络爬虫玩玩

用java写的,而且是用来爬邮箱的,关于邮箱的正则只是随便写写,需要优化,仅供娱乐。

import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class spider {
 public static void main(String[] args) {
  try {
   getMail();
  } catch (Exception e) {
   e.printStackTrace();
  }
 }

public static void getMail() throws Exception {
  URL url = new URL("需要爬邮箱的网址");
  URLConnection conn = url.openConnection();
  BufferedReader in = new BufferedReader(new InputStreamReader(conn.getInputStream()));
  
  String regex = "[a-zA-Z0-9]{6,12}@[a-zA-Z]{2,8}(\\.[a-zA-Z]{2,3}){1,2}";
  String line = null;
  while((line = in.readLine()) != null){
   Pattern p = Pattern.compile(regex);
   Matcher m = p.matcher(line);
   while(m.find()){
    System.out.println(m.group());
   }
  }
 }
}

时间: 2024-12-21 03:57:02

自己写个网络爬虫玩玩的相关文章

Python写的网络爬虫程序(很简单)

Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现. python程序如下: import re,urllib strTxt="" x=1 ff=open("wangzhi.txt","r") for line in ff.readlines(): f=open(str(x)+".txt&

如何用SHELL写好网络爬虫

上周,老大压下来任务,让写一个网络爬虫,负责爬某一个行业网站的数据信息.由于本人只会 shell 编程语言,其它编程语言从未涉猎,因此就只能硬着头皮用 shell 去写了. 转眼之前已经过去一周了,一切从无到有,经历的坎坷无数,这里我就不一一吐槽. 这里呢,我就简单和大家分享下,我个人对,如何用 shell 去写好网络爬虫的几点拙见,希望有想法的朋友联系我一起交流交流想法,没有想法的就看看有精华就吸收走,有糟粕的果断弃之. 1.你肯定要简单了解下网络爬虫是什么!这个定义在谷歌一搜一大堆,这里我就

看我如何利用Python写简单网络爬虫

平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看 先分析网站内容,红色部分即是网站文章内容div,可以看到,每一页有15篇文章 随便打开一个div来看,可以看到,蓝色部分除了一个文章标题以外没有什么有用的信息,而注意红色部分我勾画出的地方,可以知道,它是指向文章的地址的超链接,那么爬虫只要捕捉到这个地址就可以了. 接下来在一个问题就是翻页问题,可以看到,这和大多数网站不同,底部没有页数标签,而是查看更多,

使用Python写的第一个网络爬虫程序

今天尝试使用python写一个网络爬虫代码,主要是想访问某个网站,从中选取感兴趣的信息,并将信息按照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,由于对python不熟悉,把代码也粘贴在下面. 1, 使用url打开网站网页 import urllib2 data = urllib2.urlopen(string_full_link).read().decode('utf8') print data 2,使用正则表达式匹配 import re #一般的英文匹配 r

Java实现网络爬虫

昨晚用自己写的网络爬虫程序从某网站了下载了三万多张图片,很是爽快,今天跟大家分享几点内容. 一.内容摘要 1:Java也可以实现网络爬虫 2:Jsoup.jar包的简单使用 3:可以爬某网站的图片,动图以及压缩包 4:可以考虑用多线程加快下载速度 二.准备工作 1:安装Java JDK 2:下载Jsoup.jar 3:安装Eclipse或其他编程环境 4:新建一个Java项目,导入Jsoup.jar 三.步骤 1:用Java.net包联上某个网址获得网页源代码 2:用Jsoup包解析和迭代源代码

基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)

原文地址http://blog.csdn.net/qy20115549/article/details/52203722 本文为原创博客,仅供技术学习使用.未经允许,禁止将其复制下来上传到百度文库等平台. 目录 网络爬虫框架 网络爬虫的逻辑顺序 网络爬虫实例教学 model main util parse db 再看main方法 爬虫效果展示 网络爬虫框架 写网络爬虫,一个要有一个逻辑顺序.本文主要讲解我自己经常使用的一个顺序,并且本人经常使用这个框架来写一些简单的爬虫,复杂的爬虫,也是在这个基

老蜗牛写采集:网络爬虫(一)

搞采集,那第一步离不开的肯定是蜘蛛,那我们必须的科普一下,何为网络蜘蛛? 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 详细自己搜百度百科 那话又说回来了,其实说网络爬虫,术语好像好像很高大上,其实不外乎写一个http请求,然后到互联网去抓取感兴趣的数据.方式不外乎两种:一种是带有目的爬,然后抓取自己想要的数据,老牛写的蜘蛛基本

用Python写一个最简单的网络爬虫

什么是网络爬虫?这是百度百科的解释: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫. 爬虫可以做什么?爬虫可以帮助我们在茫茫互联网中爬取我们需要的特定数据,这个特定数据可以是任何想获得的数据. 爬虫是一个让人热血的话题,因为当你在写爬虫的时候,你会感觉到自己是在做一件很NB的事,而每当写出一个爬虫,就会在此基础上不断尝试写出更NB的爬虫,有

手把手教你写网络爬虫(1):网易云音乐歌单

把之前发表在微信公众号的爬虫系列文章迁移过来,热热身,就当备份了. 手把手教你写网络爬虫(1) 作者:拓海 摘要:从零开始写爬虫,初学者的速成指南! 封面: 大家好,<手把手教你写网络爬虫>连载开始了!在笔者的职业生涯中,几乎没有发现像网络爬虫这样的编程实践,可以同时吸引程序员和门外汉的注意.本文由浅入深的把爬虫技术和盘托出,为初学者提供一种轻松的入门方式.请跟随我们一起踏上爬虫学习的打怪升级之路吧! 介绍 什么是爬虫? 先看看百度百科的定义: 简单的说网络爬虫(Web crawler)也叫做