网页中抓取数据

下面写个例子,实现从网页中抓取数据。

这个例子中,只是从网页中获取了数据,但是没有进行任何处理,只是将数据保存到一个txt文件中。

该例子是在android工程中写的。

package com.example.creepertest;

import java.io.BufferedReader;

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.io.OutputStream;

import java.io.OutputStreamWriter;

import java.net.HttpURLConnection;

import java.net.MalformedURLException;

import java.net.URL;

public class Controller

{

public static final String SD_LOTTERY_URL =

"http://www.sdticai.com/zjhfx/cpmain.asp?cptype=115";

public static final String SD_LOTTERY_FILE_PATH = "/data/data/com.example.creepertest/test.txt";

private BufferedWriter mBufferedWriter = null;

private BufferedReader mBufferedReader = null;

public Controller(){

Runnable runnable = new Runnable(){

@Override

public void run() {

captureHtml();

}

};

Thread thread = new Thread(runnable);

thread.start();

}

private void captureHtml(){

try{

URL sdLotterUrl = new URL(SD_LOTTERY_URL);

HttpURLConnection httpConn =

(HttpURLConnection) sdLotterUrl.openConnection();

InputStreamReader inputStreamReader =

new InputStreamReader(httpConn.getInputStream(), "utf-8");

mBufferedReader = new BufferedReader(inputStreamReader);

OutputStream outputStream =

new FileOutputStream(SD_LOTTERY_FILE_PATH,true);

OutputStreamWriter outputStreamWriter = new OutputStreamWriter(outputStream);

mBufferedWriter = new BufferedWriter(outputStreamWriter);

String lineStr = null;

while(true){

lineStr = mBufferedReader.readLine();

if(lineStr != null){

mBufferedWriter.write(lineStr);

mBufferedWriter.newLine();

mBufferedWriter.flush();

}

else

break;

}

}

catch (MalformedURLException e){

e.printStackTrace();

}

catch (IOException e){

e.printStackTrace();

}

finally{

try {

if(mBufferedWriter != null)

mBufferedWriter.close();

if(mBufferedReader != null)

mBufferedReader.close();

} catch (Exception exception){

exception.printStackTrace();

}

}

}

}

网页中抓取数据

时间: 2024-10-11 10:34:21

网页中抓取数据的相关文章

winfrom 网页中抓取源代码

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using System.IO;//引用流 using System.Net;//引用网页 namespace WindowsFor

htmlparser实现从网页上抓取数据

package parser; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都

从网页抓取数据的一般方法

首先要了解对方网页的执行机制 ,这能够用httpwacth或者httplook来看一下http发送和接收的数据.这两个工具应该说是比較简单易懂的.这里就不再介绍了.主要关注的内容是header和post的内容.通常会包括cookie,Referer页面和其它一些乱其八糟可能看不懂的变量,还有就是正常交互的參数,比方须要post或者get的querystring所包括的东西. httplook和httpwacth 网上有非常多下载的,这里推荐使用httpwach,由于能够直接嵌入到ie中,个人认为

java抓取网页数据,登录之后抓取数据。

最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一个jsoup的jar包,我用的1.6.0..下载地址为:http://pan.baidu.com/s/1mgqOuHa 1,获取网页内容(核心代码,技术有限没封装). 2,登录之后抓取网页数据(如何在请求中携带cookie). 3,获取网站的ajax请求方法(返回json). 以上这三点我就用一个类

C# 网页数据表格抓取数据

主要方法: public List<string> datasearch() { List<string> list = new List<string>(); string url = @""+txtUrl.Text.Trim().ToString(); WebRequest request = WebRequest.Create(url); //请求url WebResponse response = request.GetResponse();

PHP的cURL库:抓取网页,POST数据及其他,HTTP认证 抓取数据

From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_init(); // 设置你需要抓取的URLcurl_setopt($curl, CURLOPT_URL, 'http://cocre.com'); // 设置headercurl_setopt($curl, CURLOPT_HEADER, 1); // 设置cURL 参数,要求结果保存到字符串中还

python自然语言处理1——从网络抓取数据

python自然语言处理1--从网络抓取数据 写在前面 本节学习python2.7 BeautifulSoup库从网络抽取数据的技术,检验之简而言之就是爬虫技术.网络编程是一门复杂的技术,在需要基础的地方,文中给出的链接地址,都是很好的教程,可以参考,我在这里不在重复发明轮子.本节的主旨在于: 帮助快速掌握基本爬虫技术,形成一条主线,能为自己的实验构造基础数据.掌握爬虫技术后,可以从网络抓取符合特定需求的数据供分析,这里学习的爬虫技术适用于数据挖掘.自然语言处理等需要从外部挖掘数据的学科. 1.

PHP Curl模拟登录并抓取数据

使用PHP的Curl扩展库可以模拟实现登录,并抓取一些需要用户账号登录以后才能查看的数据.具体实现的流程如下(个人总结): 1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: (1)登录页面的地址: (2)验证码的地址: (3)登录表单需要提交的各个字段的名称和提交方式: (4)登录表单提交的地址: (5)另外要需要知道要抓取的数据所在的地址. 2. 获取cookie并存储(针对使用cookie文件的网站): $login_url = 'http://www.xxxxx