用 Java 抓取优酷、土豆等视频

1. [代码][JavaScript]代码  
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
/**
* 视频工具类
* @author sunlightcs
* 2011-4-6
* http://hi.juziku.com/sunlightcs/
*/
public class VideoUtil {
         
        /**
         * 获取视频信息
         * @param url
         * @return
         */
        public static Video getVideoInfo(String url){
                Video video = new Video();
                 
                if(url.indexOf("v.youku.com")!=-1){
                        try {
                                video = getYouKuVideo(url);
                        } catch (Exception e) {
                                video = null;
                        }
                }else if(url.indexOf("tudou.com")!=-1){
                        try {
                                video = getTudouVideo(url);
                        } catch (Exception e) {
                                video = null;
                        }
                }else if(url.indexOf("v.ku6.com")!=-1){
                        try {
                                video = getKu6Video(url);
                        } catch (Exception e) {
                                video = null;
                        }
                }else if(url.indexOf("6.cn")!=-1){
                        try {
                                video = get6Video(url);
                        } catch (Exception e) {
                                video = null;
                        }
                }else if(url.indexOf("56.com")!=-1){
                        try {
                                video = get56Video(url);
                        } catch (Exception e) {
                                video = null;
                        }
                }
                 
                return video;
        }
         
         
        /**
         * 获取优酷视频
         * @param url  视频URL
         */
        public static Video getYouKuVideo(String url) throws Exception{
                Document doc = getURLContent(url);
                 
                /**
                 *获取视频缩略图 
                 */
                String pic = getElementAttrById(doc, "s_sina", "href");
                int local = pic.indexOf("pic=");
                pic = pic.substring(local+4);
                 
                /**
                 * 获取视频地址
                 */            
                String flash = getElementAttrById(doc, "link2", "value");
                 
                /**
                 * 获取视频时间
                 */    
                String time = getElementAttrById(doc, "download", "href");
                String []arrays = time.split("\\|");
                time = arrays[4];
                 
                Video video = new Video();
                video.setPic(pic);
                video.setFlash(flash);
                video.setTime(time);
                 
                return video;
        }
         
         
        /**
         * 获取土豆视频
         * @param url  视频URL
         */
        public static Video getTudouVideo(String url) throws Exception{
                Document doc = getURLContent(url);
                String content = doc.html();
                int beginLocal = content.indexOf("");
                content = content.substring(beginLocal, endLocal);
                 
                /**
                 * 获取视频地址
                 */    
                String flash = getScriptVarByName("iid_code", content);
                flash = "http://www.tudou.com/v/" + flash + "/v.swf";
                 
                /**
                 *获取视频缩略图 
                 */
                String pic = getScriptVarByName("thumbnail", content);
                 
                /**
                 * 获取视频时间
                 */    
                String time = getScriptVarByName("time", content);
 
                Video video = new Video();
                video.setPic(pic);
                video.setFlash(flash);
                video.setTime(time);
                 
                return video;
        }
         
         
        /**
         * 获取酷6视频
         * @param url  视频URL
         */
        public static Video getKu6Video(String url) throws Exception{
                Document doc = getURLContent(url);
                 
                /**
                 * 获取视频地址
                 */
                Element flashEt = doc.getElementById("outSideSwfCode");
                String flash = flashEt.attr("value");
                 
                /**
                 * 获取视频缩略图
                 */
                Element picEt = doc.getElementById("plVideosList");
                String time = null;
                String pic = null;
                if(picEt!=null){
                        Elements pics = picEt.getElementsByTag("img");
                        pic = pics.get(0).attr("src");
                         
                        /**
                         * 获取视频时长
                         */
                        Element timeEt = picEt.select("span.review>cite").first(); 
                        time = timeEt.text();手绘图片
                }else{http://www.bizhizu.cn/shouhui/?
                        pic = doc.getElementsByClass("s_pic").first().text();
                }
                 
                Video video = new Video();
                video.setPic(pic);
                video.setFlash(flash);
                video.setTime(time);
                 
                return video;
                 
        }
         
         
        /**
         * 获取6间房视频
         * @param url  视频URL
         */
        public static Video get6Video(String url) throws Exception{
                Document doc = getURLContent(url);
                 
                /**
                 * 获取视频缩略图
                 */
                Element picEt = doc.getElementsByClass("summary").first();
                String pic = picEt.getElementsByTag("img").first().attr("src");
                 
                /**
                 * 获取视频时长
                 */
                String time = getVideoTime(doc, url, "watchUserVideo");
                if(time==null){
                        time = getVideoTime(doc, url, "watchRelVideo");
                }
                 
                /**
                 * 获取视频地址
                 */
                Element flashEt = doc.getElementById("video-share-code");
                doc = Jsoup.parse(flashEt.attr("value"));  
                String flash = doc.select("embed").attr("src");
                 
                Video video = new Video();
                video.setPic(pic);
                video.setFlash(flash);
                video.setTime(time);
                 
                return video;
        }
         
         
        /**
         * 获取56视频
         * @param url  视频URL
         */
        public static Video get56Video(String url) throws Exception{
                Document doc = getURLContent(url);
                String content = doc.html();
                 
                /**
                 * 获取视频缩略图
                 */
                int begin = content.indexOf("\"img\":\"");
                content = content.substring(begin+7, begin+200);
                int end = content.indexOf("\"};");
                String pic = content.substring(0, end).trim();
                pic = pic.replaceAll("\\\\", "");               
                 
                /**
                 * 获取视频地址
                 */
                String flash = "http://player.56.com" + url.substring(url.lastIndexOf("/"), url.lastIndexOf(".html")) + ".swf";
                 
                Video video = new Video();
                video.setPic(pic);
                video.setFlash(flash);
                 
                return video;
        }
 
        /**
         * 获取6间房视频时长    
         */
        private static String getVideoTime(Document doc, String url, String id) {
                String time = null;
                 
                Element timeEt = doc.getElementById(id); 
                Elements links = timeEt.select("dt > a");
                 
                 
                for (Element link : links) {
                  String linkHref = link.attr("href");
                  if(linkHref.equalsIgnoreCase(url)){
                          time = link.parent().getElementsByTag("em").first().text();
                          break;
                  }
                }
                return time;
        }
         
                         
        /**
         * 获取script某个变量的值
         * @param name  变量名称
         * @return   返回获取的值 
         */
        private static String getScriptVarByName(String name, String content){
                String script = content;
                 
                int begin = script.indexOf(name);
                 
                script = script.substring(begin+name.length()+2);
                 
                int end = script.indexOf(",");
                 
                script = script.substring(0,end);
                 
                String result=script.replaceAll("‘", "");
                result = result.trim();
                 
                return result;
        }
         
         
        /**
         * 根据HTML的ID键及属于名,获取属于值
         * @param id  HTML的ID键
         * @param attrName  属于名
         * @return  返回属性值
         */
        private static String getElementAttrById(Document doc, String id, String attrName)throws Exception{
                Element et = doc.getElementById(id);
                String attrValue = et.attr(attrName);
                 
                return attrValue;
        }
         
         
         
        /**
         * 获取网页的内容
         */
        private static Document getURLContent(String url) throws Exception{
                Document doc = Jsoup.connect(url)
                  .data("query", "Java")
                  .userAgent("Mozilla")
                  .cookie("auth", "token")
                  .timeout(6000)
                  .post();
                return doc;
        }
         
         
        public static void main(String[] args) {
                //String url = "http://v.youku.com/v_show/id_XMjU0MjI2NzY0.html";
                //String url = "http://www.tudou.com/programs/view/pVploWOtCQM/";
                //String url = "http://v.ku6.com/special/show_4024167/9t7p64bisV2A31Hz.html";
                //String url = "http://v.ku6.com/show/BpP5LeyVwvikbT1F.html";
                //String url = "http://6.cn/watch/14757577.html";
                String url = "http://www.56.com/u64/v_NTkzMDEzMTc.html";
                Video video = getVideoInfo(url);
                System.out.println("视频缩略图:"+video.getPic());
                System.out.println("视频地址:"+video.getFlash());
                System.out.println("视频时长:"+video.getTime());
        }
}
 
/************************************************************************************/
 
/**
* 视频封装
*/
public class Video {
        private String flash;
        private String pic;
        private String time;
        public String getFlash() {
                return flash;
        }
        public void setFlash(String flash) {
                this.flash = flash;
        }
        public String getPic() {
                return pic;
        }
        public void setPic(String pic) {
                this.pic = pic;
        }
        public String getTime() {
                return time;
        }
        public void setTime(String time) {
                this.time = time;
        }
}

用 Java 抓取优酷、土豆等视频

时间: 2024-10-11 03:41:47

用 Java 抓取优酷、土豆等视频的相关文章

java平台利用jsoup开发包,抓取优酷视频播放地址与图片地址等信息。

/******************************************************************************************** * author:[email protected]大钟 * E-mail:[email protected] * http://blog.csdn.net/conowen * 注:本文为原创.仅作为学习交流使用,转载请标明作者及出处. *************************************

java抓取12306火车余票信息

最近在弄一个微信的公众帐号,涉及到火车票查询,之前用的网上找到的一个接口,但只能查到火车时刻表,12306又没有提供专门的查票的接口.今天突然想起自己直接去12306上查询,抓取查询返回的数据包,这样就可以得到火车票的信息.这里就随笔记一下获取12306余票的过程. 首先,我用firefox浏览器上12306查询余票.打开firefox的Web控制台,选上网络中的"记录请求和响应主体" 然后输入地址日期信息之后点击网页上的查询按钮,就能在Web控制台下看到网页请求的地址了: 就是图片中

java 抓取网页图片

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86

java抓取网页数据,登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

古永锵在27日还表彭博社:阿里巴巴应该收购优酷土豆

淘宝安全交易平台 www.xunjie36.com 淘宝店铺出售www.360feiyue.com 淘宝店铺交易www.360feiyue.com[关键词]淘宝安全交易平台 www.xunjie36.com 淘宝店铺出售www.360feiyue.com 淘宝店铺交易www.360feiyue.com淘宝1心 CM Research公司表示,随着腾讯等竞争对手不断推进自己的数字化战略,阿里巴巴需要优酷土豆的5亿用户来保住自己中国最大电子商务公司的地位.据艾瑞咨询数据显示,随着消费者开始热衷于通过

jsoup实现java抓取网页内容。

Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力.但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup . jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非

ios UIWebView 播放优酷土豆视频

将下面的代码嵌套在html里,然后webView加载这个网页.或这段html码,就行了,无需要使用像网上说的html5去兼容 ios UIWebView 播放优酷土豆视频

优酷&土豆视频广告屏蔽器 v1.0

本软件用于屏蔽优酷&土豆视频网站广告,先第一步,第二步,再第三步,最后重启浏览器即可,希望大家喜欢!~ https://pan.baidu.com/s/1kUORH8F 优酷&土豆视频广告屏蔽器 v1.0

怎样获取优酷站内视频的MP4格式地址,嵌入到手机页面播放

最近的有关项目需要使用video标签播放视频,并且视频的路径src是优酷里面的视频,所以需要得到优酷里面的mp4路径才能播放. 但是在网上查了下资料,看到优酷的播放格式是一个m3u8文件,如图所示: 请问在移动端页面中播放优酷里面的视频,怎样实现?