Python入门,以及简单爬取网页文本内容

  最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据。后来发现基础知识掌握的并不是很牢固。便去借了一本Python基础和两本爬虫框架的书。便开始了自己的入坑之旅

  言归正传

  前期准备

  Import requests;我们需要引入这个包。但是有些用户环境并不具备这个包,那么我们就会在引入的时候报错

  

  这个样子相信大家都不愿意看到那么便出现了一下解决方案  我们需要打开Cmd 然后进入到我们安装Python的Scripts目录下输入指令  pip install requests    当然还会出现下面的情况    

又是一个报错是不是很烦  那么我们按它的提示升级一下组件   输入命令

 python -m pip install --upgrade pip

  安装成功后我们便可以正常的导入 requests

 那么我们是不是就可以做一下什么了?比如说爬取一个网站的所有信息爬取下来?
  import requests;       //导入我们需要的库

  def GetName(url):  //定义一个函数并且传入参数Url      resp=requests.get(url);  //获取网页上的所有信息

  //以文本的模型返回      return resp.text;

    //定义一个字符串也就是我们要爬取的地址  url="https:xxxxxxxxxx";

      //函数方法  def xieru():      //打开一个文本,以写入的方式写入二级制文本      fi=open(‘E://1.txt‘,"wb+");    //接受      con = GetName(url);      //返还的文本转换编码格式      ss=con.encode(‘utf-8‘)      //写入打开的文本中      fi.write(ss);      return  0;

   xieru();

哈哈 上面的网址就打码了哦,大家自己脑补。   这是我爬取的内容  
 


       
 

原文地址:https://www.cnblogs.com/Mzcc/p/9678253.html

时间: 2024-10-10 07:40:05

Python入门,以及简单爬取网页文本内容的相关文章

python爬虫初学之:爬取网页图片

#!/usr/bin/env python3.5 # -*-coding:utf-8 -*- """ 作者:MR RaoJL 日期:'Sun Dec 25 12:28:08 2016' 用途:爬 www.aitaotu.com/guonei 网站的图片地址 运行环境:Python3.5(widows或linux都可以)主要在linux下测试的 现有的问题:爬取速度太慢 初学者,问题估计太多 """ from itertools import ch

java实现多线程使用多个代理ip的方式爬取网页页面内容

项目的目录结构 核心源码: package cn.edu.zyt.spider; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.util.Properties; import cn.edu.zyt.

简单爬取网页源码

import urllib.request url = 'http://www.baidu.com/' response = urllib.request.urlopen(url) data = response.read() str_data = data.decode('utf_8') # print(str_data) with open('baidu.html','w',encoding='utf_8') as f: f.write(str_data) 原文地址:https://www.

抓取网页文本内容

使用的是WebRequest类,在这以http://novel.hongxiu.com/a/1036665/10425842.html为例. 代码如下: using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Net; using System.Text; u

angular简单爬取百度搜索内容提示

<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>百度搜索</title> //引入相关插件 <script src="https://cdn.bootcss.com/angular.js/1.3.8/angular.js"></script> <script src="https://c

C#使用xpath简单爬取网站的内容

public static void Get() { // string xpathtrI = "//*[@id='classify-list']/dl/dd/a/cite/span/i"; #region 获取首页的分类 ////主页的html地址 //string urlHome = "http://www.qidian.com/"; //HtmlWeb web = new HtmlWeb(); //HtmlAgilityPack.HtmlDocument ht

[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】

[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pythonpython爬虫正则表达式html知识总结 2016-04-07 06:13 3615人阅读 评论(4) 收藏 举报  分类: Python爬虫(23)  Python基础知识(17)  版权声明:本文为博主原创文章,转载请注明CSDN博客源地址!共同学习,一起进步~ 这篇文章主要是介绍Pytho

[python学习] 简单爬取维基百科程序语言消息盒

文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是较少,希望提供一些思想和方法对大家有所帮助.如果有错误或不足之处,欢迎之处:如果你只想知道该篇文章最终代码,建议直接阅读第5部分及运行截图. 一. 维基百科和Infobox 你可能会疑惑Infobox究竟是个什么东西呢?下面简单介绍. 维基百科作为目前规模最大和增长最快的开放式的在线百科系统,其典型

python之爬取网页数据总结(一)

今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests    Beautifulsoup4   lxml  三个插件. 因为配置了环境变量,可以cmd命令直接安装.假如电脑上有两个版本的python,建议进入到目录安装. 安装的命令为 pip install requests(Beautifulsoup4   /lxml  ) 三条分别执行. 安装结束,可以尝试网上一些简单的例子,明白了解 Beautifulso