Jython使用jsoup获取网页标题与链接信息

目的:获取网站链接,可以实现无人工干预的资料获取。

1 java实现的jsoup HTML解析库

下载:http://jsoup.org/

2 工作平台Ubuntu

3 使用Jython调用jsoup实现提取网页联接信息

代码:

#coding=utf-8

#doc from http://jsoup.org/apidocs/

from org.python.core import codecs
codecs.setDefaultEncoding('utf-8')

import sys
#print(sys.defaultencoding)

sys.path.append("/home/xxx/software/htmlparse/jsoup-1.7.3.jar");

from org.jsoup import *

doc = Jsoup.connect("http://www.baidu.com").get();

elms = doc.getAllElements();

head = elms.select("head")
page_title = head.text()
print(page_title)

hrfs = elms.select("[href^=http]")
for h in hrfs:
	title = h.text()
	url = h.attr('href')
	print title + ", " + url

效果如下:

百度一下,你就知道

体验iPhone上最好用的中文输入法!, http://srf.baidu.com/ios8/pc.html

登录, https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

新闻, http://news.baidu.com

hao123, http://www.hao123.com

地图, http://map.baidu.com

视频, http://v.baidu.com

贴吧, http://tieba.baidu.com

登录, https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F

设置, http://www.baidu.com/gaoji/preferences.html

更多产品, http://www.baidu.com/more/

新闻, http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=

贴吧, http://tieba.baidu.com/f?kw=&fr=wwwt

知道, http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt

音乐, http://music.baidu.com/search?fr=ps&key=

图片, http://image.baidu.com/i?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&word=

视频, http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=

地图, http://map.baidu.com/m?word=&fr=ps01000

文库, http://wenku.baidu.com/search?word=&lm=0&od=0

把百度设为主页, http://www.baidu.com/cache/sethelp/index.html

关于百度, http://home.baidu.com

About Baidu, http://ir.baidu.com

时间: 2024-08-07 17:01:21

Jython使用jsoup获取网页标题与链接信息的相关文章

php正则获取网页标题、关键字、网页描述代码

php正则获取网页关键字,代码如下: function get_keywords($html) { $html=strtolower($html); preg_match("@<head[^>]*>(.*?)</head>@si",$html, $regs); $headdata = $regs[1]; preg_match("/<meta +name *=["']?keywords["']? *content=[&qu

Python2获取网页标题

Python获取网页标题 使用Python2.x的urllib2和lxml,速度应该还快于BeautifulSoup4(话说回来,为什么大家都要用BS4呢?一个XPATH不就完了吗) 没有安装过的,用pip安装一下 pip install lxml Shell演示: >> from lxml import etree >> import urllib2 >> page = etree.HTML(urllib2.urlopen('https://blog.csdn.net

使用Jsoup解决网页中图片链接问题

在做Facebook和WhatsApp分享的时候,分享出去的谷歌短链,Facebook获取不到大图,和竞品展示的不一样,WhatsApp分享出去的短链没有图片和描述. WhatsApp: 分析竞品UCNews,发现他们分享出去的WhatsApp链接指向的网页,在meat标签中添加了相关的属性,然后在自己的站中加入相关标签,问题解决. <meta property="og:image" content="http://img.masala-sg.goldenmob.com

用EXCEL批量获取网页标题的方法

这段时间准备做淘宝,但不知道卖什么产品,因此想从一些B2B 网站上扒拉一些产品词下来挨个研究,但一个一个的打开网页查看产品太慢太费事,但想到这些产品词都存在于网页标题上,因此想到了用excel来批量获取网页的标题.经过一番查找,在网上找到了两种方法(其实是两组代码). 打开excel找到开发者工具,点击"Visual Basic" 在下图所示位置右键点击添加模块 填入如下代码: Function Title(url As String) As String With CreateObj

jsoup获取网页属性

package com.open1111.jsoup; import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.client.methods.HttpGet;import org.apache.http.impl.client.CloseableHttpClient;import org.apache.http.impl

怎样获取网页视频下载链接

上网时,经常会遇到很有趣的视频想要收藏下来,但是网页一般不都不会直接提供下载链接.这种情况下可以尝试一下其他方法获取他的下载链. 可以尝试下使用硕鼠网提供的破解链服务 http://www.flvcd.com/ 硕鼠网提供网页视频链接获取的服务,使用比较简单. 进入网页后,在如图提示的输入框输入视频地址. 这个地址就是看视频的那个页面的地址. 然后点击开始GO 这样就获得了下载地址了. 剩下的操作就根据提示可以轻松完成了. 而且下载的时候,可能根据视频网的不同,会有不同清晰度的版本选择. 不过版

PHP CURL或file_get_contents获取网页标题的代码及两者效率的稳定性问题

PHP CURL与file_get_contents函数都可以获取远程服务器上的文件保存到本地,但在性能上面两者完全不在同一个级别,下面我先来介绍PHP CURL或file_get_contents函数应用例子,然后再简单的给各位介绍一下它们的一些小区别吧. 推荐方法 CURL获取 ? 1 2 3 4 5 6 7 8 9 10 11 12 <?php $c = curl_init(); $url = 'www.jb51.net'; curl_setopt($c, CURLOPT_URL, $ur

【java】&lt;Jsoup&gt;获取网页中的图片

要做Android课程设计了,做一个爬漫画的东东练一下手 1 package asd; 2 3 import java.io.File; 4 import java.io.FileOutputStream; 5 import java.io.IOException; 6 import java.io.InputStream; 7 import java.io.OutputStream; 8 import java.net.URL; 9 import java.net.URLConnection;

php curl 正则获取网页标题

<?php /****/ //Gary xu //[email protected] /****/ namespace Xuyaoxiang; class Snoopy { public $pattern_array=array( 'title'=>'/<title>(\s*.*)<\/title>/i', 'description'=>'/<meta +name="[d|D]escription" +content="(.*)