Httpclient爬取优酷网

参考:http://www.cnblogs.com/lchzls/p/6277210.html

/httpClient/src/main/java/com/louis/youku/Page.java

/**
 * Project Name:httpClient
 * File Name:Page.java
 * Package Name:com.louis.youku
 * Date:2017年11月9日上午9:11:28
 * Copyright (c) 2017, [email protected] All Rights Reserved.
 *
*/

package com.louis.youku;
/**
 * ClassName:Page
 * Function: TODO ADD FUNCTION.
 * Reason:     TODO ADD REASON.
 * Date:     2017年11月9日 上午9:11:28
 * @author   michael
 * @version
 * @since    JDK 1.7
 * @see
 */
public class Page {
    //页面内容
    private String content;

    //总播放量
    private String allnumber;

    //每日播放增量
    private String daynumber;

    //评论数
    private String commentnumber;

    //收藏数
    private String collectnumber;

    //赞
    private String supportnumber;

    //踩
    private String againstnumber;

    //电视剧名称
    private String tvname;

    //页面url
    private String url;

    //子集数据
    private String episodenumber;

    public String getContent() {
        return content;
    }

    public void setContent(String content) {
        this.content = content;
    }

    public String getAllnumber() {
        return allnumber;
    }

    public void setAllnumber(String allnumber) {
        this.allnumber = allnumber;
    }

    public String getDaynumber() {
        return daynumber;
    }

    public void setDaynumber(String daynumber) {
        this.daynumber = daynumber;
    }

    public String getCommentnumber() {
        return commentnumber;
    }

    public void setCommentnumber(String commentnumber) {
        this.commentnumber = commentnumber;
    }

    public String getCollectnumber() {
        return collectnumber;
    }

    public void setCollectnumber(String collectnumber) {
        this.collectnumber = collectnumber;
    }

    public String getSupportnumber() {
        return supportnumber;
    }

    public void setSupportnumber(String supportnumber) {
        this.supportnumber = supportnumber;
    }

    public String getAgainstnumber() {
        return againstnumber;
    }

    public void setAgainstnumber(String againstnumber) {
        this.againstnumber = againstnumber;
    }

    public String getTvname() {
        return tvname;
    }

    public void setTvname(String tvname) {
        this.tvname = tvname;
    }

    public String getUrl() {
        return url;
    }

    public void setUrl(String url) {
        this.url = url;
    }

    public String getEpisodenumber() {
        return episodenumber;
    }

    public void setEpisodenumber(String episodenumber) {
        this.episodenumber = episodenumber;
    }

}

/httpClient/src/main/java/com/louis/youku/DownLoadService.java

/**
 * Project Name:httpClient
 * File Name:DownLoadService.java
 * Package Name:com.louis.youku
 * Date:2017年11月9日上午9:14:16
 * Copyright (c) 2017, [email protected] All Rights Reserved.
 *
*/

package com.louis.youku;
/**
 * ClassName:DownLoadService
 * Function: TODO ADD FUNCTION.
 * Reason:     TODO ADD REASON.
 * Date:     2017年11月9日 上午9:14:16
 * @author   michael
 * @version
 * @since    JDK 1.7
 * @see
 */
public interface DownLoadService {
    public Page downLoad(String url);
}

/httpClient/src/main/java/com/louis/youku/DownLoadServiceImpl.java

/**
 * Project Name:httpClient
 * File Name:DownLoadService.java
 * Package Name:com.louis.youku
 * Date:2017年11月9日上午9:14:16
 * Copyright (c) 2017, [email protected] All Rights Reserved.
 *
*/

package com.louis.youku;
/**
 * ClassName:DownLoadService
 * Function: TODO ADD FUNCTION.
 * Reason:     TODO ADD REASON.
 * Date:     2017年11月9日 上午9:14:16
 * @author   michael
 * @version
 * @since    JDK 1.7
 * @see
 */
public interface DownLoadService {
    public Page downLoad(String url);
}

/httpClient/src/main/java/com/louis/youku/PageDownLoadUtil.java

/**
 * Project Name:httpClient
 * File Name:Page.java
 * Package Name:com.louis.youku
 * Date:2017年11月9日上午9:11:28
 * Copyright (c) 2017, [email protected] All Rights Reserved.
 *
*/

package com.louis.youku;
/**
 * ClassName:Page
 * Function: TODO ADD FUNCTION.
 * Reason:     TODO ADD REASON.
 * Date:     2017年11月9日 上午9:11:28
 * @author   michael
 * @version
 * @since    JDK 1.7
 * @see
 */
public class Page {
    //页面内容
    private String content;

    //总播放量
    private String allnumber;

    //每日播放增量
    private String daynumber;

    //评论数
    private String commentnumber;

    //收藏数
    private String collectnumber;

    //赞
    private String supportnumber;

    //踩
    private String againstnumber;

    //电视剧名称
    private String tvname;

    //页面url
    private String url;

    //子集数据
    private String episodenumber;

    public String getContent() {
        return content;
    }

    public void setContent(String content) {
        this.content = content;
    }

    public String getAllnumber() {
        return allnumber;
    }

    public void setAllnumber(String allnumber) {
        this.allnumber = allnumber;
    }

    public String getDaynumber() {
        return daynumber;
    }

    public void setDaynumber(String daynumber) {
        this.daynumber = daynumber;
    }

    public String getCommentnumber() {
        return commentnumber;
    }

    public void setCommentnumber(String commentnumber) {
        this.commentnumber = commentnumber;
    }

    public String getCollectnumber() {
        return collectnumber;
    }

    public void setCollectnumber(String collectnumber) {
        this.collectnumber = collectnumber;
    }

    public String getSupportnumber() {
        return supportnumber;
    }

    public void setSupportnumber(String supportnumber) {
        this.supportnumber = supportnumber;
    }

    public String getAgainstnumber() {
        return againstnumber;
    }

    public void setAgainstnumber(String againstnumber) {
        this.againstnumber = againstnumber;
    }

    public String getTvname() {
        return tvname;
    }

    public void setTvname(String tvname) {
        this.tvname = tvname;
    }

    public String getUrl() {
        return url;
    }

    public void setUrl(String url) {
        this.url = url;
    }

    public String getEpisodenumber() {
        return episodenumber;
    }

    public void setEpisodenumber(String episodenumber) {
        this.episodenumber = episodenumber;
    }

}
时间: 2024-12-11 16:18:17

Httpclient爬取优酷网的相关文章

selenium爬取优酷页面并下载图片

1 from selenium import webdriver 2 import requests 3 driver = webdriver.Chrome() 4 #打开优酷 5 driver.get("http://www.youku.com") 6 #点开优酷片库 7 driver.find_element_by_xpath("//*[@id='m_2544']/div/ul/li[6]/span[1]/a").click() 8 #获取所有img元素 9 l

java平台利用jsoup开发包,抓取优酷视频播放地址与图片地址等信息。

/******************************************************************************************** * author:[email protected]大钟 * E-mail:[email protected] * http://blog.csdn.net/conowen * 注:本文为原创.仅作为学习交流使用,转载请标明作者及出处. *************************************

第一篇博客(python爬取小故事网并写入mysql)

前言: 这是一篇来自整理EVERNOTE的笔记所产生的小博客,实现功能主要为用广度优先算法爬取小故事网,爬满100个链接并写入mysql,虽然CS作为双学位已经修习了三年多了,但不仅理论知识一般,动手能力也很差,在学习的空余时间前前后后DEBUG了很多次,下面给出源代码及所遇到的BUG. 本博客参照代码及PROJECT来源:http://kexue.fm/archives/4385/ 源代码: 1 import requests as rq 2 import re 3 import codecs

优酷网的架构学习笔记

记得以前给大家介绍过视频网站龙头老大YouTube的技术架构, 相信大家看了都会有不少的感触,互联网就是这么一个神奇的东西.今天我突然想到,优酷网在国内也算是视频网站的老大了,不知道他的架构相对于 YouTube是怎么样的,于是带着这个好奇心去网上找了优酷网架构的各方面资料,虽然谈得没有YouTube那么详细,但多少还是挖掘了一点,现在总结 一下,希望对喜欢架构的朋友有所帮助. 一.网站基本数据概览 据2010年统计,优酷网日均独立访问人数(uv)达到了8900万,日均访问量(pv)更是达到了1

用 Java 抓取优酷、土豆等视频

1. [代码][JavaScript]代码  import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements; /*** 视频工具类* @author sunlightcs* 2011-4-6* http://hi.juziku.com/sunlightcs/*/public class VideoUtil {       

利用Scrapy爬取1905电影网

本文将从以下几个方面讲解Scrapy爬虫的基本操作 Scrapy爬虫介绍 Scrapy安装 Scrapy实例--爬取1905电影网 相关资料 Scrapy 爬虫介绍 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改.它也提供了多种类型爬虫的基类,如BaseSpider.sitemap爬虫等,最

优酷网网络流播放地址url的获取新方法

之前所写的那篇获取优酷网网络播放地址M3U8的方法在7月份已经失效,8月份开始优酷公司采取了一种新的策略,新的策略上对应的M3U8的地址拼接为:http://pl.youku.com/playlist/m3u8?vid=xxx&type=mp4&ep={$ep}&sid={$sid}&token={$tk}&ctype=12&ev=1&oip={$oip},跟之前不同的是多出了很多参数值,这些想获取到真要花些功夫,功夫不负有心人那,在github上找

Python爬取中国天气网天气

Python爬取中国天气网天气 基于requests库制作的爬虫. 使用方法:打开终端输入 "python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个"data.csv"文件,内容请参考链接:https://www.cnblogs.com/Rhythm-/p/9255190.html 运行效果: 源码: import sys import re import requests import webbrowser from

爬虫----爬取校花网视频

import requests import re import time import hashlib def get_page(url): print('GET %s' %url) try: response=requests.get(url) if response.status_code == 200: return response.content except Exception: pass def parse_index(res): obj=re.compile('class="i