Python入门,以及简单爬取网页文本内容

　　最近痴迷于Python的逻辑控制，还有爬虫的一方面，原本的目标是拷贝老师上课时U盘的数据。后来发现基础知识掌握的并不是很牢固。便去借了一本Python基础和两本爬虫框架的书。便开始了自己的入坑之旅

　　言归正传

　　前期准备

　　Import requests；我们需要引入这个包。但是有些用户环境并不具备这个包，那么我们就会在引入的时候报错

　　这个样子相信大家都不愿意看到那么便出现了一下解决方案　　我们需要打开Cmd 然后进入到我们安装Python的Scripts目录下输入指令　　pip install requests　　　　当然还会出现下面的情况

又是一个报错是不是很烦  那么我们按它的提示升级一下组件   输入命令

 python -m pip install --upgrade pip

　　安装成功后我们便可以正常的导入 requests

　那么我们是不是就可以做一下什么了？比如说爬取一个网站的所有信息爬取下来？

　　import requests;　　　　　　　//导入我们需要的库

　　def GetName(url):　　//定义一个函数并且传入参数Url    　　resp=requests.get(url);　　//获取网页上的所有信息

　　//以文本的模型返回    　　return resp.text;

　　　　//定义一个字符串也就是我们要爬取的地址　　url="https:xxxxxxxxxx";

　　　　　　//函数方法　　def xieru():　　　　　　//打开一个文本，以写入的方式写入二级制文本    　　fi=open(‘E://1.txt‘,"wb+");　　　　//接受    　　con = GetName(url);　　　　　　//返还的文本转换编码格式   　　 ss=con.encode(‘utf-8‘)　　　　　　//写入打开的文本中    　　fi.write(ss);   　　 return  0;

　　　xieru();

哈哈 上面的网址就打码了哦，大家自己脑补。　　　这是我爬取的内容

原文地址：https://www.cnblogs.com/Mzcc/p/9678253.html

时间： 2024-08-02 05:32:12

Python入门,以及简单爬取网页文本内容的相关文章

python爬虫初学之:爬取网页图片

#!/usr/bin/env python3.5 # -*-coding:utf-8 -*- """ 作者:MR RaoJL 日期:'Sun Dec 25 12:28:08 2016' 用途:爬 www.aitaotu.com/guonei 网站的图片地址运行环境:Python3.5(widows或linux都可以)主要在linux下测试的现有的问题:爬取速度太慢初学者,问题估计太多 """ from itertools import ch

java实现多线程使用多个代理ip的方式爬取网页页面内容

项目的目录结构核心源码: package cn.edu.zyt.spider; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.util.Properties; import cn.edu.zyt.

简单爬取网页源码

import urllib.request url = 'http://www.baidu.com/' response = urllib.request.urlopen(url) data = response.read() str_data = data.decode('utf_8') # print(str_data) with open('baidu.html','w',encoding='utf_8') as f: f.write(str_data) 原文地址:https://www.

抓取网页文本内容

使用的是WebRequest类,在这以http://novel.hongxiu.com/a/1036665/10425842.html为例. 代码如下: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Net; using System.Text; u

angular简单爬取百度搜索内容提示

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>百度搜索</title> //引入相关插件 <script src="https://cdn.bootcss.com/angular.js/1.3.8/angular.js"></script> <script src="https://c

C#使用xpath简单爬取网站的内容

public static void Get() { // string xpathtrI = "//*[@id='classify-list']/dl/dd/a/cite/span/i"; #region 获取首页的分类 ////主页的html地址 //string urlHome = "http://www.qidian.com/"; //HtmlWeb web = new HtmlWeb(); //HtmlAgilityPack.HtmlDocument ht

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读评论(4) 收藏举报分类: Python爬虫(23) Python基础知识(17) 版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规模最大和增长最快的开放式的在线百科系统,其典型

python之爬取网页数据总结（一）

今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件. 因为配置了环境变量,可以cmd命令直接安装.假如电脑上有两个版本的python,建议进入到目录安装. 安装的命令为 pip install requests(Beautifulsoup4 /lxml ) 三条分别执行. 安装结束,可以尝试网上一些简单的例子,明白了解 Beautifulso