Jsoup:
是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
Apache POI:
是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。
Commons codec:
用来处理常用的编码方法的工具类包,不仅是编码,也可用于解码。
dom4j:
是一个Java的XML API,类似于jdom,用来读写XML文件的。dom4j是一个十分优秀的JavaXML API,具有性能优异、功能强大和极其易使用的特点,同时它也是一个开放源代码的软件,可以在SourceForge上找到它。
HttpClient:
是 Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议,越来越多的
Java 应用程序需要直接通过 HTTP 协议来访问网络资源。
Jaxen:
是一个Java编写的开源的XPath库。这是适应多种不同的对象模型,包括DOM,XOM,dom4j和JDOM。也可以作为适配器,转换Java字节代码或XML的Java
bean为xml,从而使您可以使用XPath查询这些树了。
JDOM:
是一个开源项目,它基于树型结构,利用纯JAVA的技术对XML文档实现解析、生成、序列化以及多种操作。
juniversalchardet:
是一个判断猜测文件编码的java工具
SimpleImage:
是阿里巴巴的一个Java图片处理的类库,可以实现图片缩略、水印等处理。
jpedal:
是开源纯Java的PDF文档解析库,可以用来读取PDF文档中的文字、图形。
protobuf:
这个干的事儿其实和XML差不多,也就是把某种数据结构的信息,以某种格式保存起来。主要用于数据存储、传输协议格式等场合
Netty:
是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。
Trove:
是一种开放源代码的 Java 集合包,提供了核心 Java 集合类的高效替代品,特别针对于实现其键或值是基本类型的集合。
SimpleImage:
是阿里巴巴的一个Java图片处理的类库,可以实现图片缩略、水印等处理。
jpedal:
是开源纯Java的PDF文档解析库,可以用来读取PDF文档中的文字、图形。