爬取网页

下面以爬取360浏览器网页为例，代码具有通用性，改变网页路径即可

代码如下

package 爬取网页;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.MalformedURLException;
import java.net.URL;

public class Main {
public static void main(String[] args) throws Exception {
URL url=new URL("https://hao.360.cn/?h_lnk");//获取网址
BufferedReader bufferedReader=new BufferedReader(new InputStreamReader(url.openStream(),"utf-8"));//根据网页编码方式
String msg=null;
BufferedWriter bufferedWriter=new BufferedWriter(new OutputStreamWriter(new FileOutputStream("C:/a/360.html"),"utf-8"));

while((msg=bufferedReader.readLine())!=null) {
//System.out.println(msg);
bufferedWriter.append(msg);
bufferedWriter.newLine();
}
bufferedWriter.flush();
bufferedReader.close();
bufferedWriter.close();
}
}

运行代码后在C盘的a文件夹里面会有360.html文件，点击进入360网页

改变文件格式为txt可以查看网页源代码

原文地址：https://www.cnblogs.com/henuliulei/p/9470166.html

时间： 2024-10-08 04:18:15

爬取网页的相关文章

Scrapy精华教程（六）——自动爬取网页之II（CrawlSpider）

一.目的. 在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构, 在pipelines.py中实现获得数据的过滤以及保存. 但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎爬虫实现的就是对整个互联网的爬取,所以在本教程中研究使用scrapy自动实现多网页爬取功能. 在教程(五)

一个咸鱼的Python爬虫之路（三）：爬取网页图片

学完Requests库与Beautifulsoup库我们今天来实战一波,爬取网页图片.依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图.所以我找了这个网站http://www.ivsky.com 网站里面有很多的图集,我们就找你的名字这个图集来爬取 http://www.ivsky.com/bizhi/yourname_v39947/ 来看看这个页面的源代码: 可以看到我们想抓取的图片信息在<li> 里面然后图片地址在img里面那么我们这里可以用Beautifu

使用Post方法模拟登陆爬取网页(转)

使用Post方法模拟登陆爬取网页最近弄爬虫,遇到的一个问题就是如何使用post方法模拟登陆爬取网页.下面是极简版的代码: import java.io.BufferedReader; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.io.PrintWriter; import java.net.HttpURLConnection; import java.net.URL; impo

python（27）requests 爬取网页乱码，解决方法

最近遇到爬取网页乱码的情况,找了好久找到了种解决的办法: html = requests.get(url,headers = head) html.apparent_encoding html.encoding = html.apparent_encoding print html.text 头文件中添加: import sys reload(sys) sys.setdefaultencoding("utf-8")

Python爬取网页的三种方法

# Python爬取网页的三种方法之一: 使用urllib或者urllib2模块的getparam方法 import urllib fopen1 = urllib.urlopen('http://www.baidu.com').info() fopen2 = urllib2.urlopen('http://www.sina.com').info() print fopen1.getparam('charset') print fopen2.getparam('charset') #----有些

python学习之——爬取网页信息

爬取网页信息说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHtml(url,fname): #fname = 'C:\\Users\cuiliting\\Desktop\\weather_forecast.txt' data =[] page = urllib.urlopen(url) html = page.read() data.append(html)

生成器的应用，爬取网页信息

#需求:生成器的应用 #然后每次g.send(url),打印页面内容,利用g可以无限send 1 from urllib.request import urlopen #导入爬虫模块 2 def get(): 3 while True: 4 url = yield #将函数改成协程函数 5 print(urlopen(url).read()) #打印爬取网页的结果 6 7 g = get() #将函数改成生成器 8 next(g) #初始化生成器 9 g.send("http://www.bai

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读评论(4) 收藏举报分类: Python爬虫(23) Python基础知识(17) 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

python3爬取网页

爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com'print1.import urllib.request 'wd''python''opt-webpage''on''ie''gbk'GET和POST请求的不同之处是POST请求通常有"副作用" 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)

常用正则表达式爬取网页信息及HTML分析总结

Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3.获取URL最后一个参数命名图片或传递参数 4.爬取网页中所有URL链接 5.爬取网页标题title两种方法 6.定位table位置并爬取属性-属性值 7.过滤<span></span>等标签 8.获取<script></script>等标签内容 1). 获取&

猜你喜欢

使用sysbench进行压力测试

sysbench是一款开源的多线程性能测试工具,可以执行CPU/内存/线程/IO/数据库等方面的性能测试.数据库目前支持MySQL/Oracle/PostgreSQL/Drizzle,它主要包括以下几 ...

第一次作业+105032014123

任务: 1.流程图:根据被测代码,绘制程序流程图 2.测试用例设计:依据语句覆盖.判定覆盖,编写测试用例设计 3.测试结果:执行测试,并给出测试结论:通过与不通过. 4.代码优化建议:对被测代码,依据 ...

LeetCode Number of Boomerangs

原题链接在这里:https://leetcode.com/problems/number-of-boomerangs/ 题目: Given n points in the plane that are ...

PHPer转战Android的学习过程以及Android学习

原文作者: eoeadmin原文地址: http://my.eoe.cn/shuhai/archive/19684.html-------------------------------------- ...

JAVA学习篇--JSTL基金会

JSTL什么 JSTL(JSP Standard TagLibrary,JSP标准标签库)是一个不断完好的开放源码的JSP标签库. 为什么要用JSTL 我们JSP用于开发信息展现页很方便;也能够嵌入j ...

libvirt(virsh命令介绍)

有了virt-install是安装虚拟机的命令,当然也需要一个管理虚拟机的命令了,那就是virsh. virsh命令使用 virsh <command> <domain-id> ...

BZOJ 1083: [SCOI2005]繁忙的都市(MST)

裸的最小生成树..直接跑就行了 ---------------------------------------------------------------------- #include<c ...

php请求nginx服务器返回403

在centos的nginx的conf/include里配置了一个虚拟主机,没有配置虚拟域名,默认用了用主机名做域名,将端口换成自定义端口,然而总是返回403. 在网上查说一般有两种原因,一是用户权限问 ...

电话状态、电话录音

获得电话状态需要在请电脑文件中添加如下权限 <uses-permission android:name="android.permission.READ_PHONE_STATE&quo ...

C++虚函数解析（转载）

虚函数详解第一篇:对象内存模型浅析 C++中的虚函数的内部实现机制到底是怎样的呢? 鉴于涉及到的内容有点多,我将分三篇文章来介绍. 第一篇:对象内存模型浅析,这里我将对对象的内存模型进行简单的实验和总 ...

CentOS 6.5 安装nginx 1.6.3

使用epel [[email protected] /]# wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel ...

[HIHO1079]离散化（线段树、染色）

题目链接:http://hihocoder.com/problemset/problem/1079 MD坑爹,线段查询的时候左闭右开.插完挨个点找一遍扔set里,注意没染色的情况. 1 #includ ...

【模板】有向图强连同分量

求强连通分量要用到时间戳的概念算了直接给模板 ps:借鉴大白皮的写法 1 # include<cstdio> 2 # include<cstring> 3 # inclu ...

SQL Server面试题

前几天在博客园上看到一道SQL面试题,sc是表名.老师拿来与同学分享,让大家试做,要求是:查出每科成绩都>=80分的名字,看能写出几种方法.没有主外键,没有关联,脑袋一下子就蒙了.经老师讲解指导 ...

hiho1041 - 树，遍历

题目链接给一棵树,给一个序列,问能不能按这个序列遍历这棵树,满足每条边最多经过两次. -------------------------------------------------------- ...

mkconfig脚本分析

声明:本文由个人学习过程中整理而成,转载请注明出处. 1.uboot/mkconfig (1)uboot是一个多CPU多架构的统一bootloader, 为了完成针对的特定目标板,目标架构的编译,需要 ...

thinkphp-getTableInfo函数

说明 getTableInfo可以获取表信息,信息类型包括 fields,type,bind,pk,以数组的形式展示,可以指定某个信息进行获取示例 // 获取`think_user`表所有信息 ...

使用Tablayout出现标题消失的原因：setupWithViewPager（）的大坑

使用addTab方法添加标题,调用setupWithViewPager方法绑定ViewPager tabLayout.addTab(tabLayout.newTab().setText("全 ...

[ html createPattern 绘制背景平铺方式 ] canvas绘制图片 createPattern 绘制背景平铺方式属性实例

1 <!DOCTYPE html> 2 <html lang='zh-cn'> 3 <head> 4 <title>Insert you title&l ...

HDU 5242 Game (树上贪心|类树链剖分）

大意:有向图给定n-1条边然后给出每个点的权值,每个点的权值只能累加一次,问从根节点走,可以走k次能累计的最大点权和. 思路:本题可以进行两遍dfs操作,第一次为从叶子节点到跟节点的节点权值和.然后根 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.032 s.