爬虫第一步遇到的坑

最近，跟着一个视频来学习，视频上爬取36kr这个网站，我也跟着写了，感觉挺简单的，使用Jsoup很快就拿到页面上的文字。谁知再分析网页获得自己需要的数据的时候，只能获得一个根标签，里面什么也没有，第一次爬虫遇到这样的问题，顿时懵逼了。问了几个人之后，自己明白了这是因为我要抓取的页面数据，它是使用react来实现的，也就是通过javaScript的库渲染完成的。到此我基本知道了原因和接下来怎么抓取。

Jsoup不支持解析javaScript动态渲染的页面，在这里选取了HtmlUnit来解析。

首先到官网(HtmlUnit)上下载jar包。

看下HtmlUnit的解析过程：

final WebClient webClient=new WebClient();
webClient.getOptions().setCssEnabled(false);//关闭css
webClient.getOptions().setJavaScriptEnabled(true);//这个要为true,false依然获取不到
final HtmlPage page=webClient.getPage("https://36kr.com/");

HtmlDivision htmlDiv =page.querySelector("#app");//获取第一个div
System.out.println(htmlDiv.asXml());
webClient.close();

setJavaScriptEnabled(true)设置为true之后，运行的时候会出现一些警告信息。

原文地址：https://www.cnblogs.com/yangms/p/9859042.html

时间： 2024-11-05 20:33:53

爬虫第一步遇到的坑的相关文章

【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验

一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对IP的检测.本文介绍的是利用Redis数据库实现的分布式爬虫,Redis是一种常用的菲关系型数据库,常用数据类型包括String.Hash.Set.List和Sorted Set,重要的是Redis支持主从复制,主机能将数据同步到从机,也就能够实现读写分离.因此我们可以利用Redis的特性,借助req

学习Python爬虫第一步，Bs4库

首先是安装BS4库因为Python的pip真的很方便,所以一般不出意外,只需要一个pip就足以完成一个库的安装. pip install beautifulsoup4 名字很长不要记错名字呦. 想要利用爬虫获得我们想要的内容,就一定要学会一个解析HTML的库. 我们总不能用正则表达式,匹配出我们需要的内容,那任务量一定是巨大的,繁琐的,很少有人去那么做,除非你就是需要这个网页中特定的元素. 怎么使用BS4库? Bs4库和有些库还有一些不同,像我们学习爬虫一定要学习的requests库,我们只需

Python爬虫——第一个小爬虫01

Python小爬虫——贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后要有一定的交互,程序不能太傻吧最后实现对用户所给的链接进行抓取一.页面获取要让python可以进行对网页的访问,那肯定要用到urllib之类的包.So先来个 import urllib urllib中有 urllib.urlopen(str) 方法用于打开网页并返回一个对象,调用这个对象的read()方法后能直接获得网页的源代码,内容与

手把手教你写电商爬虫-第一课找个软柿子捏捏

话说现在基本上大家都在网上买东西,国家经济数据已经可以在网络购物的数据中略微窥见一二,再加上目前B2B行业的持续火爆,大有把所有交易搬到网上来的趋势,这个系列教程就来讲讲如果爬取这些大量的电商交易的数据. 工具要求:教程中主要使用到了 1.神箭手云爬虫框架这个是爬虫的基础,2.Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确基础知识:本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单教程正式

Linux——搭建PHP开发环境第一步：mysql

原文链接:http://www.jb51.net/article/83647.htm 1.第一步就是看linu是否安装了mysql,经过rpm -qa|grep mysql查看到centos下安装了mysql5.1,那就开始卸载咯 2.接下来就是卸载mysql5.1了,命令:rpm -e mysql-libs --nodeps 3.yum中之后mysql5.1,安装还是5.1,现在就要去增加一个新的repo rpm -Uvh http://mirror.steadfast.net/epel/6/

第三章、面向对象第一步部分

一.类与对象的基本概念类:抽象的概念集合,表示的是一个共性的产物,类之中定义的是属性和行为(方法): 对象:是一种个性的表示,表示一个独立的个体,每个对象拥有自己独立的属性,依靠属性区分不同的对象. 类与对象的区别:类是对象的模板,对象是类的实例,类只有通过对象才可以使用,开发中应该先产生类,再产生对象.类不能直接使用,方法可以直接使用. 二.类与对象的定义 1.类的定义: 在JAVA中定义类,可以使用class关键字完成, 语法为: 1 class 类名称{ 2 属性(变量): 3 行为(方

yii 第一步

第一步:index.php // include Yii bootstrap filerequire_once(dirname(__FILE__).'/../../framework/yii.php');defined('YII_DEBUG') or define('YII_DEBUG',true); // create a Web application instance and run//Yii::createWebApplication()->run(); $configFile=dirn

标题优化是google海外推广的第一步吗

在很多站长的眼里,都认为标题优化是google推广的第一步,但真的是这样吗?下面具体分析分析其中的正确性. 1.网站标题应该对用户有足够的吸引力. 什么都有就是没有重点,网页标题好像一个人的头衔一样,如果你看到一张名片上印了十几个头衔,你会很鄙视这个人,而对于这样的网页,搜索引擎也不喜欢.所以,你的一个网页只要用一个主要的关键词写入标题中,如果一个意思有多个表达,可以适当列举几个.比如"网站运营-网站运营方案下载"这样还是可以的.搜索引擎也是根据网站标题和网站内容判定你的网站主要写的是

核心思想：用技术创造价值的第一步：定义价值点，也就是找到杠杆的支点（陈天桥是典范）

杠杆技术本就是一种杠杆. 曾经,技术的草莽时期,是一个英雄辈出的年代.两个人可以创造 Unix,C 语言,一个人也可以发明 Linux,也可以写出 Foxmail.掌握了技术,就可能创造历史,那时技术的杠杆很高. 如今,是技术的成熟时期,个体英雄少了,更多是一种团队和集团军作战的时代.如果你是技术的绝世高手(精的极致),那你需要找到一支契合你技能的场景与队伍,加入进去.此时个人的技术杠杆也许不像曾经那么高 —— 能创造历史,但也许你们这个队伍还是有机会能创造历史. 前几年,Facebook 曾

猜你喜欢

PopupWindow 动画

1.PopupWindow 简介首先看android.widget.PopupWindow.java源码注释: /** * <p>A popup window that can be u ...

客户端和服务端如何使用Token和Session

一.我们先解释一下他的含义: 1.Token的引入:Token是在客户端频繁向服务端请求数据,服务端频繁的去数据库查询用户名和密码并进行对比,判断用户名和密码正确与否,并作出相应提示,在这样的背 ...

二分图的最大匹配

转载自http://blog.csdn.net/pi9nc/article/details/11848327 二分图:简单来说,如果图中点可以被分为两组,并且使得所有边都跨越组的边界,则这就是一个二分 ...

ArcGIS10.x Engine直连提示连接超时ORA-12170 来自：http：//www.iarcgis.com/？p＝1004

导语随着Esri大力宣传直连,用户也越来越由服务连接,改为直连,当然ArcGIS Engine开发用户也不例外. 环境 Oracle数据库,ArcGIS版本不限,不过由于9版本多以服务连接,以10版 ...

[AaronYang]C#人爱学不学[6]

不要回头,不要将就,做到这两点,人生就会简单很多幸福很多 --Aaronyang的博客(www.ayjs.net)-www.8mi.me 1. 运算符,还有哪些你能学到? 1.1 不安全运算符: si ...

poj3281 Dining 最大流(奇妙的构图)

我是按照图论500题的文档来刷题的,看了这题怎么也不觉得这是最大流的题目.这应该是题目做得太少的缘故. 什么是最大流问题?最大流有什么特点? 最大流的特点我觉得有一下几点: 1.只有一个起点.一个终点 ...

UVA 714 二分最大化最小值

题意:输入t表示有多个样例,输入n,group表示有n个数分为group组使每组和最小 #include<iostream> #include<string.h> using ...

【CodeForces 698A】Vacations

f[i][0..2]表示第i天休息|运动|比赛最少的休息天数. #include <cstdio> #include <cstring> #include <algori ...

Mysql与其他数据库一些不同地方

1.Insert Set语句mysql> create table wison_test1(id int,name varchar(10));Query OK, 0 rows affected ...

20个很棒的android开源项目帮助你提升开发技能

转载请注明出处:http://blog.csdn.net/crazy1235/article/details/56087721 对程序员来说,最好的学习也是阅读,多看别人优秀的代码,加以总结学习应用. ...

Serializable的序列化与反序列化

使用Serializable序列化,只要实现Serializable接口即可.一般情况下都会显示设置静态成员变量serialVersionUID为固定值.序列化时使用ObjectOutputStrea ...

codevs 4189 字典（字典树）

#include<iostream> #include<cstdio> #include<cstring> #define maxn 300100 #define ...

在线时长缓存

/** * @desc 在线时长缓存 * @var string * @access public */ const KEY_ONLINE_CACHE = 'hd ...

C# .NET 获取网络适配器信息和路径信息

C# .NET 获取网络适配器信息 1:NetworkInterface 类: 该类位于 System.Net.NetworkInformation 命名空间该类可以方便的检测本机有多少个网卡(网络 ...

http://www.rabbitmq.com/

什么是RabbitMQ 官网http://www.rabbitmq.com/ 1.应用程序间健壮的消息发送 2.简单易用 3.可在所有主流操作系统运行 4.支持巨量的开发者平台 5.开源和商用双重支持 ...

hdu1535——Invitation Cards

Invitation Cards Time Limit: 10000/5000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others ...

7种寻址方式

一.立即寻址方式操作数作为指令的一部分而直接写在指令中,这种操作数称为立即数,这种寻址方式也就称为立即数寻址方式. 立即数可以是8位.16位或32位,该数值紧跟在操作码之后.如果立即数为16位或32 ...

Hibernate 配置文件

映射文件(.hbm.xml) 1 <?xml version="1.0" encoding="UTF-8"?> 2 <!DOCTYPE hib ...

Linux中基于ptrace的外挂程序设计

所谓的外挂程序就是在某个进程执行的过程中,其他进程可以动态的修改进程中的数据或代码,从而影响程序的执行路径,并最终影响程序的运行结果.在windows上我们有系统库函数writeprocess()可以 ...

Oracle创建表时涉及的参数解析

1.oracle pctfree和pctused详解 http://www.cnblogs.com/linjiqin/archive/2012/01/16/2323320.html http:// ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.020 s.