[Java]知乎下巴第1集:爬虫世界百度不仅仅可以拿来测网速

上一集中我们说到需要用Java来制作一个知乎爬虫,那么这一次,我们就来研究一下如何使用代码获取到网页的内容。

首先,没有HTML和CSS和JS和AJAX经验的建议先去W3C(点我点我)小小的了解一下。

说到HTML,这里就涉及到一个GET访问和POST访问的问题。

如果对这个方面缺乏了解可以阅读W3C的这篇:《GET对比POST》

啊哈,在此不再赘述。

然后咧,接下来我们需要用Java来爬取一个网页的内容。

这时候,我们的百度就要派上用场了。

没错,他不再是那个默默无闻的网速测试器了,他即将成为我们的爬虫小白鼠!~

我们先来看看百度的首页:

相信大家都知道,现在这样的一个页面,是HTML和CSS共同工作的结果。

我们在浏览器中右击页面,选择“查看页面源代码”:

没错,就是这一坨翔一样的东西。这就是百度页面的源代码。

接下来我们的任务,就是使用我们的爬虫也获取到一样的东西。

先来看一段简单的源码:

[java] view plaincopy

  1. import java.io.*;
  2. import java.net.*;
  3. public class Main {
  4. public static void main(String[] args) {
  5. // 定义即将访问的链接
  6. String url = "http://www.baidu.com";
  7. // 定义一个字符串用来存储网页内容
  8. String result = "";
  9. // 定义一个缓冲字符输入流
  10. BufferedReader in = null;
  11. try {
  12. // 将string转成url对象
  13. URL realUrl = new URL(url);
  14. // 初始化一个链接到那个url的连接
  15. URLConnection connection = realUrl.openConnection();
  16. // 开始实际的连接
  17. connection.connect();
  18. // 初始化 BufferedReader输入流来读取URL的响应
  19. in = new BufferedReader(new InputStreamReader(
  20. connection.getInputStream()));
  21. // 用来临时存储抓取到的每一行的数据
  22. String line;
  23. while ((line = in.readLine()) != null) {
  24. //遍历抓取到的每一行并将其存储到result里面
  25. result += line;
  26. }
  27. } catch (Exception e) {
  28. System.out.println("发送GET请求出现异常!" + e);
  29. e.printStackTrace();
  30. }
  31. // 使用finally来关闭输入流
  32. finally {
  33. try {
  34. if (in != null) {
  35. in.close();
  36. }
  37. } catch (Exception e2) {
  38. e2.printStackTrace();
  39. }
  40. }
  41. System.out.println(result);
  42. }
  43. }

以上就是Java模拟Get访问百度的Main方法,

可以运行一下看看结果:

啊哈,和我们前面用浏览器看到的一模一样。至此,一个最最简单的爬虫就算是做好了。

但是这么一大坨东西未必都是我想要的啊,怎么从中抓取出我想要的东西呢?

以百度的大爪子Logo为例。

临时需求:

获取百度Logo的大爪子的图片链接。

先说一下浏览器的查看方法。

鼠标对图片右击,选择审查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一样):

啊哈,可以看到在一大堆div的围攻下的可怜的img标签。

这个src就是图像的链接了。

那么在java中我们怎么搞呢?

事先说明,为了方便演示代码,所有代码均未作类封装,还请谅解。

我们先把前面的代码封装成一个sendGet函数:

[java] view plaincopy

  1. import java.io.*;
  2. import java.net.*;
  3. public class Main {
  4. static String sendGet(String url) {
  5. // 定义一个字符串用来存储网页内容
  6. String result = "";
  7. // 定义一个缓冲字符输入流
  8. BufferedReader in = null;
  9. try {
  10. // 将string转成url对象
  11. URL realUrl = new URL(url);
  12. // 初始化一个链接到那个url的连接
  13. URLConnection connection = realUrl.openConnection();
  14. // 开始实际的连接
  15. connection.connect();
  16. // 初始化 BufferedReader输入流来读取URL的响应
  17. in = new BufferedReader(new InputStreamReader(
  18. connection.getInputStream()));
  19. // 用来临时存储抓取到的每一行的数据
  20. String line;
  21. while ((line = in.readLine()) != null) {
  22. // 遍历抓取到的每一行并将其存储到result里面
  23. result += line;
  24. }
  25. } catch (Exception e) {
  26. System.out.println("发送GET请求出现异常!" + e);
  27. e.printStackTrace();
  28. }
  29. // 使用finally来关闭输入流
  30. finally {
  31. try {
  32. if (in != null) {
  33. in.close();
  34. }
  35. } catch (Exception e2) {
  36. e2.printStackTrace();
  37. }
  38. }
  39. return result;
  40. }
  41. public static void main(String[] args) {
  42. // 定义即将访问的链接
  43. String url = "http://www.baidu.com";
  44. // 访问链接并获取页面内容
  45. String result = sendGet(url);
  46. System.out.println(result);
  47. }
  48. }

这样看起来稍微整洁了一点,请原谅我这个强迫症。

接下来的任务,就是从获取到的一大堆东西里面找到那个图片的链接。

我们首先可以想到的方法,是对页面源码的字符串result使用indexof函数进行String的子串搜索。

没错这个方法是可以慢慢解决这个问题,比如直接indexOf("src")找到开始的序号,然后再稀里哗啦的搞到结束的序号。

不过我们不能一直使用这种方法,毕竟草鞋只适合出门走走,后期还是需要切假腿来拿人头的。

请原谅我的乱入,继续。

那么我们用什么方式来寻找这张图片的src呢?

没错,正如下面观众所说,正则匹配。

如果有同学不太清楚正则,可以参照这篇文章:[Python]网络爬虫(七):Python中的正则表达式教程

简单来说,正则就像是匹配。

比如三个胖子站在这里,分别穿着红衣服,蓝衣服,绿衣服。

正则就是:抓住那个穿绿衣服的!

然后把绿胖子单独抓了出来。

就是这么简单。

但是正则的语法却还是博大精深的,刚接触的时候难免有点摸不着头脑,

向大家推荐一个正则的在线测试工具:正则表达式在线测试

有了正则这个神兵利器,那么怎么在java里面使用正则呢?

先来看个简单的小李子吧。

啊错了,小栗子。

[java] view plaincopy

  1. // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
  2. // 相当于埋好了陷阱匹配的地方就会掉下去
  3. Pattern pattern = Pattern.compile("href=\"(.+?)\"");
  4. // 定义一个matcher用来做匹配
  5. Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主页</a>");
  6. // 如果找到了
  7. if (matcher.find()) {
  8. // 打印出结果
  9. System.out.println(matcher.group(1));
  10. }

运行结果:

index.html

没错,这就是我们的第一个正则代码。

这样应用的抓取图片的链接想必也是信手拈来了。

我们将正则匹配封装成一个函数,然后将代码作如下修改:

[java] view plaincopy

  1. import java.io.*;
  2. import java.net.*;
  3. import java.util.regex.*;
  4. public class Main {
  5. static String SendGet(String url) {
  6. // 定义一个字符串用来存储网页内容
  7. String result = "";
  8. // 定义一个缓冲字符输入流
  9. BufferedReader in = null;
  10. try {
  11. // 将string转成url对象
  12. URL realUrl = new URL(url);
  13. // 初始化一个链接到那个url的连接
  14. URLConnection connection = realUrl.openConnection();
  15. // 开始实际的连接
  16. connection.connect();
  17. // 初始化 BufferedReader输入流来读取URL的响应
  18. in = new BufferedReader(new InputStreamReader(
  19. connection.getInputStream()));
  20. // 用来临时存储抓取到的每一行的数据
  21. String line;
  22. while ((line = in.readLine()) != null) {
  23. // 遍历抓取到的每一行并将其存储到result里面
  24. result += line;
  25. }
  26. } catch (Exception e) {
  27. System.out.println("发送GET请求出现异常!" + e);
  28. e.printStackTrace();
  29. }
  30. // 使用finally来关闭输入流
  31. finally {
  32. try {
  33. if (in != null) {
  34. in.close();
  35. }
  36. } catch (Exception e2) {
  37. e2.printStackTrace();
  38. }
  39. }
  40. return result;
  41. }
  42. static String RegexString(String targetStr, String patternStr) {
  43. // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
  44. // 相当于埋好了陷阱匹配的地方就会掉下去
  45. Pattern pattern = Pattern.compile(patternStr);
  46. // 定义一个matcher用来做匹配
  47. Matcher matcher = pattern.matcher(targetStr);
  48. // 如果找到了
  49. if (matcher.find()) {
  50. // 打印出结果
  51. return matcher.group(1);
  52. }
  53. return "";
  54. }
  55. public static void main(String[] args) {
  56. // 定义即将访问的链接
  57. String url = "http://www.baidu.com";
  58. // 访问链接并获取页面内容
  59. String result = SendGet(url);
  60. // 使用正则匹配图片的src内容
  61. String imgSrc = RegexString(result, "即将的正则语法");
  62. // 打印结果
  63. System.out.println(imgSrc);
  64. }
  65. }

好的,现在万事俱备,只差一个正则语法了!

那么用什么正则语句比较合适呢?

我们发现只要抓住了src="xxxxxx"这个字符串,就能抓出整个src链接,

所以简单的正则语句:src=\"(.+?)\"

完整代码如下:

[java] view plaincopy

  1. import java.io.*;
  2. import java.net.*;
  3. import java.util.regex.*;
  4. public class Main {
  5. static String SendGet(String url) {
  6. // 定义一个字符串用来存储网页内容
  7. String result = "";
  8. // 定义一个缓冲字符输入流
  9. BufferedReader in = null;
  10. try {
  11. // 将string转成url对象
  12. URL realUrl = new URL(url);
  13. // 初始化一个链接到那个url的连接
  14. URLConnection connection = realUrl.openConnection();
  15. // 开始实际的连接
  16. connection.connect();
  17. // 初始化 BufferedReader输入流来读取URL的响应
  18. in = new BufferedReader(new InputStreamReader(
  19. connection.getInputStream()));
  20. // 用来临时存储抓取到的每一行的数据
  21. String line;
  22. while ((line = in.readLine()) != null) {
  23. // 遍历抓取到的每一行并将其存储到result里面
  24. result += line;
  25. }
  26. } catch (Exception e) {
  27. System.out.println("发送GET请求出现异常!" + e);
  28. e.printStackTrace();
  29. }
  30. // 使用finally来关闭输入流
  31. finally {
  32. try {
  33. if (in != null) {
  34. in.close();
  35. }
  36. } catch (Exception e2) {
  37. e2.printStackTrace();
  38. }
  39. }
  40. return result;
  41. }
  42. static String RegexString(String targetStr, String patternStr) {
  43. // 定义一个样式模板,此中使用正则表达式,括号中是要抓的内容
  44. // 相当于埋好了陷阱匹配的地方就会掉下去
  45. Pattern pattern = Pattern.compile(patternStr);
  46. // 定义一个matcher用来做匹配
  47. Matcher matcher = pattern.matcher(targetStr);
  48. // 如果找到了
  49. if (matcher.find()) {
  50. // 打印出结果
  51. return matcher.group(1);
  52. }
  53. return "Nothing";
  54. }
  55. public static void main(String[] args) {
  56. // 定义即将访问的链接
  57. String url = "http://www.baidu.com";
  58. // 访问链接并获取页面内容
  59. String result = SendGet(url);
  60. // 使用正则匹配图片的src内容
  61. String imgSrc = RegexString(result, "src=\"(.+?)\"");
  62. // 打印结果
  63. System.out.println(imgSrc);
  64. }
  65. }

这样我们就能用java抓出百度LOGO的链接了。

好吧虽然花了很多时间讲百度,但是基础要打扎实啦,下次我们正式开始抓知乎咯!~

时间: 2024-10-18 02:06:44

[Java]知乎下巴第1集:爬虫世界百度不仅仅可以拿来测网速的相关文章

[Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶

身边的小伙伴们很多都喜欢刷知乎,当然我也不例外, 但是手机刷太消耗流量,电脑又不太方便. 于是,就诞生了这一款小软件:铛铛铛铛!知乎下巴=.= 知乎下巴,音译就是知乎下吧 ~ 首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求. 需求如下: 1.模拟访问知乎官网(http://www.zhihu.com/) 2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐 3.下载指定分类中的所有问答,比如:投资,编程,挂科 4.下载指定回答者的所有回答 5.最好有个一键点赞的变态功能(这样我就可

[转] [Java] 知乎下巴第5集:使用HttpClient工具包和宽度爬虫

原文地址:http://blog.csdn.net/pleasecallmewhy/article/details/18010015 下载地址:https://code.csdn.net/wxg694175346/zhihudown 说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够的. 在这里我们可以使用HttpClient这个第三方jar包,下

[Java]知乎下巴第3集:来人啊快把知乎的答案装到篮子里去

上次我们已经能把知乎的问题抓出来了,但是答案还木有抓出来. 这一回合,我们就连着把答案也一起从网站中抠出来=.= 前期我们抓取标题是在该链接下: http://www.zhihu.com/explore/recommendations 但是显然这个页面是无法获取答案的. 一个完整问题的页面应该是这样的链接: http://www.zhihu.com/question/22355264 仔细一看,啊哈我们的封装类还需要进一步包装下,至少需要个questionDescription来存储问题描述:

Java知多少(110)数据库之插入记录

插入数据表记录有3种方案 一.使用Statement对象 实现插入数据表记录的SQL语句的语法是: insert into 表名(字段名1,字段名2,……)value (字段值1,字段值2,……) 例如: insert into ksInfo(考号,姓名,成绩,地址,简历)value(‘200701’,’张大卫’534,’上海欧阳路218弄4-1202’,’’) 实现同样功能的Java程序代码是: sql = “insert intoksIno(考号,姓名,成绩,地址,简历)”; sql= =

Java知多少(111)几个重要的java数据库访问类和接口

修改数据表记录也有3种方案. 一.使用Statement对象 实现修改数据表记录的SQL语句的语法是:    update表名 set 字段名1 = 字段值1,字段名2 = 字段值2,……where特定条件例如: update ksInfo set 姓名 = ‘张小卫’where 姓名 = ‘张大卫’ 先创建一个SQL语句,然砶调用Statement对象的executeUpdate()方法.例如, 1 sql = “update ksInfo set 姓名 = ‘”+txtName.getTex

Java知多少(108)数据库查询简介

利用Connection对象的createStatement方法建立Statement对象,利用Statement对象的executeQuery()方法执行SQL查询语句进行查询,返回结果集,再形如getXXX()的方法从结果集中读取数据.经过这样的一系列步骤就能实现对数据库的查询. [例 13-9]Java应用程序访问数据库.应用程序打开考生信息表ksInfo,从中取出考生的各项信息.设考生信息数据库的结构如下: 类型 字符串 字符串 整数 字符串 字符串 字段名 考号 姓名 成绩 地址 简历

Java知多少(107)几个重要的java数据库访问类和接口

编写访问数据库的Java程序还需要几个重要的类和接口. DriverManager类 DriverManager类处理驱动程序的加载和建立新数据库连接.DriverManager是java.sql包中用于管理数据库驱动程序的类.通常,应用程序只使用类DriverManager的getConnection()静态方法,用来建立与数据库的连接,返回Connection对象: static Connection getConnection(String url,String username,Stri

Java知多少(112)数据库之删除记录

删除数据表也有3种方案 一.使用Statement对象 删除数据表记录的SQL语句的语法是: delete from 表名 where 特定条件 例如 : delete from ksInfo where 姓名 = ‘张大卫’ 先创建一个SQL语句,然后调用Statement对象的executeUpdate()方法: stmt.executeUpdate(sql); 二.使用ResultSet对象 先创建一个SQL语句,然后调用Statement对象的executeUpdate()方法.例如:

Java知多少(3) 就业方向

Java的就业前景如何,看培训班就知道了,以Java培训为主的达内,已经上市. 根据IDC的统计,在所有软件开发类人才的需求中,对JAVA工程师的需求曾达到全部需求量的50%以上.而且,JAVA工程师的薪水相对较高.通常来说,具有3~5年开发经验的工程师,年薪10万是很正常的一个工资.一些重点院校的优秀毕业生能够进入国内一流的IT企业(百度.腾讯.阿里巴巴等),年薪一般在20万左右,拿到多个offer的,证明很有实力,可以跟企业谈价,幸运的话可以拿到25万. 目前,Java的主要就业方向有三个.