Python3.4 获取百度网页源码并保存在本地文件中

最近学习python

版本 3.4

抓取网页源码并且保存在本地文件中

import urllib.request

url=‘http://www.baidu.com‘

#上面的url一定要写明确,如果写成www.baidu.com,下一步就会报错。
response=urllib.request.urlopen(url)
#下一步获取html,但是是Byte格式的,我们要解码
html=response.read()
html_str=html.decode(‘utf-8‘)

#下面我们把get的网页写在文件中。
f=open(r‘D:\baidu.html‘,‘w‘,encoding=‘utf-8‘)

f=write(html_str)
#写完别忘记关闭
f.close()

string和byte类型相互转换

str.encode(‘utf-8‘)

byte.decode(‘utf-8‘)

时间: 2024-08-24 21:17:55

Python3.4 获取百度网页源码并保存在本地文件中的相关文章

C#获取指定网页源码的几种方法

// WebClient private string GetWebClient(string url) { string strHTML = ""; WebClient myWebClient = new WebClient(); Stream myStream = myWebClient.OpenRead(url); StreamReader sr = new StreamReader(myStream, System.Text.Encoding.GetEncoding("

php 读取网页源码 , 导出成txt文件, 读取xls,读取文件夹下的所有文件的文件名

<?php // 读取网页源码$curl = curl_init();curl_setopt($curl, CURLOPT_URL, $url);curl_setopt($curl, CURLOPT_HEADER, 1);curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);//这个是重点.$contents = curl_exec($curl); //导出成

爬虫任务二:爬取(用到htmlunit和jsoup)通过百度搜索引擎关键字搜取到的新闻标题和url,并保存在本地文件中(主体借鉴了网上的资料)

采用maven工程,免着到处找依赖jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd&qu

html 网页源码解析:bs4中BeautifulSoup

from bs4 import BeautifulSoup result=requests.request("get","http://www.baidu.com")result.encoding="utf-8" print(result.text) #获取源码soup=BeautifulSoup(result.text,"html.parser") #解析html对象,并赋值给soup soup.title #获取网页第一个

Python爬虫学习之获取网页源码

偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义就不多说了,不知道的请自行点击查看 =>百度百科 网络爬虫,维基百科 网络爬虫 有很多编程语言都可以编写网络爬虫,只不过各有各的优缺点,这里我选择用Python语言编写爬虫,因为Python是一门非常适合用来编写爬虫的语言,用它实现爬虫的代码量相对其他语言要少很多,并且python语言对网络编程这类模块

POST教程笔记 - WinHttp获取网页源码

①.WinINet与WinHttp的异同点,为什么使用WinHttp讲解? 详情见:<WinINet与WinHttp总结>文档,已经打包给大家了. ②.WinHttp接口调用方式:微软官方地址:http://msdn.microsoft.com/en-us/ ... 84263(v=vs.85).aspxWinHttp微软提供了两种调用方式:C++调用API的版本.COM组件的版本.这里面使用的是 C++ Interface 接口的组件的方式来给大家讲解. ③.WinHttp常用命令讲解:详情

IXMLHTTPRequest获取网页源码的心得

在万一老师的博客看到一种利用IXMLHTTPRequest来获取网页源码的方法,但有2个问题没解决,自己研究了下改进了方法. 1.如果网页进行301转跳将无法获取源码 2.如果网站是gb2312编码将获取的是乱码 /////以下方法使用的是Delphi xe2编写 uses MsXML,activex; function GETHTML (const URL : string):string; // XMLHTTP接口Var XMLHTTP:IServerXMLHTTPRequest; HTML

Android 【山西违章查询实现2】(解析网页源码然后ListView显示出来)--- 客户端获取html源码

废话不多说,直接上源码 最后网页源码在result中. public void btn(View view) { new myWorker().execute("这里是网址"); } //异步操作,防止UI线程阻塞. private class myWorker extends AsyncTask<String,Void,String> { protected String doInBackground(String...urls) { StringBuilder buil

Delphi XE下获取网页源码记录

存放个自己写的获取网页源码,掌握了: 1.利用CreateOLEObject方式获取源码 2.自动判断网页格式编码 需要使用到的单元:Winapi.ActiveX,System.Win.ComObj,System.WideStrUtils 需要创建结构体:TResultWebHtml (用于存放返回的源码和Cookies) Uses Winapi.ActiveX,System.Win.ComObj,System.WideStrUtils; type TResultWebHtml = record