小白学爬虫——第一部分:简单学习Python

学习目录
定义新函数
文件读写
数组
字符串
字典
定义新函数
创一个小群,供大家学习交流聊天
如果有对学python方面有什么疑惑问题的,或者有什么想说的想聊的大家可以一起交流学习一起进步呀。
也希望大家对学python能够持之以恒
python爱好群,
如果你想要学好python最好加入一个组织,这样大家学习的话就比较方便,还能够共同交流和分享资料,给你推荐一个学习的组织:快乐学习python组织 可以点击组织二字,可以直达


通过定义函数名和一组语句序列来定义一个新函数,然后在执行时调用这个函数。一旦定义了一个函数,程序中可以重复使用。
def是用来定义函数的保留关键字。函数命名与变量命名的规则基本上是一样的。字母、数字以及一些符号是合法的,但是函数名的第一个字符不能是数字。不能使用保留关键字命名函数,也要避免函数名和变量名相同。
函数名后面的空括号表明这个函数没有指定参数,若有形式参数,写入括号内用逗号隔开。函数定义的第一行叫做函数头,剩余的部分叫做函数体。
函数头必须以冒号结束,函数体必须缩进。按照惯例,一般缩进4个空格。函数体可以包括任意数量的语句。在Python语言中,是严格缩进的,否则会报错,缩进字符会在用Python写代码时主动提示,这一点不必担心。同时,值得注意的是,在if语句,for循环的使用过程中,也要在冒号后再开始写相应代码。

def hello():

print(‘Hello World!‘)

文件读写
读文件
要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符:

f = open(‘/Users/test.txt‘,‘r‘)

f.read()

f.close()

标示符‘r‘表示读,这样,我们就成功地打开了一个文件。如果文件打开成功,接下来,调用read()方法可以一次读取文件的全部内容。最后一步是调用close()方法关闭文件。文件使用完毕后必须关闭,因为文件对象会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限的。
写文件
与读文件类似,先用open()函数打开文件,传入文件名和标识符‘w‘,表示写。你可以调用write()来写入文件,但是务必要调用f.close()来关闭文件。
当我们写文件时,操作系统往往不会立刻把数据写入磁盘,而是放到内存缓存起来,空闲的时候再慢慢写入。只有调用close()方法时,操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了。

f = open(‘/Users/michael/test.txt‘,‘w‘)

f.write(‘Hello, world!‘)

f.close()

数组
不含任何元素的列表称为空列表,使用空的方括号([])创建一个空列表。列表内的可以是数字,字符串,或者嵌套列表。各元素用逗号隔开,字符串需要加‘‘。

[10, 20, 30, 40]

[‘crunchy frog‘, ‘ram bladder‘, ‘lark vomit‘]

可以按照序号来读取数组中的指定序号元素,序号从零开始。x[a:b]表示返回集合中下标a至b(不包括b)的元素集合,x[:b]表示从开始至b(不包括b),x[a:]表示从a至结束。
介绍一些数组的方法:
L.append(var) #追加元素
L.pop(var) #返回最后一个元素,并从list中删除之
L.remove(var) #删除第一次出现的该元素
L.count(var) #该元素在列表中出现的个数
L.index(var) #该元素的位置,无则抛异常
L.extend(list) #追加list,即合并list到L上
L.sort() #排序
L.reverse() #倒序
字符串
字符串是字符的序列,而列表是一系列值的序列。字符列表与字符串是不同的。
如果想把一个字符串分成单独的单词,使用split函数:

s = ‘pining for the fjords‘

>> t = s.split()

>> print t

[‘pining‘, ‘for‘, ‘the‘, ‘fjords‘]

>> print t[2]

the

介绍一些字符串的方法:
S.find(substring, [start [,end]]) #可指范围查找子串,返回索引值,否则返回-1
S.lower() #转小写
S.upper() #转大写
字典
dict = {‘ob1′:’computer’, ‘ob2′:’mouse’, ‘ob3′:’printer’}
每一个元素是pair,包含key、value两部分。key是Integer或string类型,value 是任意类型,key与value之间以冒号隔开。字典中的键(key)是唯一的,而值并不唯一。

>> items = [(‘name‘, ‘Gumby‘), (‘age‘, 42)]

>> d = dict(items)

>> d

{‘name‘: ‘Gumby‘, ‘age‘: 42}

作者:Leena_c9a7
链接:https://www.jianshu.com/p/39d3a2c6f43b
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

原文地址:http://blog.51cto.com/14136111/2351037

时间: 2024-10-12 12:59:19

小白学爬虫——第一部分:简单学习Python的相关文章

小白学爬虫:网易云音乐歌单(一)

从零开始写爬虫,初学者的速成指南! 介绍 什么是爬虫? 先看看百度百科的定义: 号:923414804群里有志同道合的小伙伴,互帮互助,群里有不错的视频学习教程和PDF! 简单的说网络爬虫(Web crawler)也叫做网络铲(Web scraper).网络蜘蛛(Web spider),其行为一般是先"爬"到对应的网页上,再把需要的信息"铲"下来. 为什么学习爬虫? 看到这里,有人就要问了:google.百度等搜索引擎已经帮我们抓取了互联网上的大部分信息了,为什么还

学爬虫,需要掌握哪些Python基础?

入手爬虫确实不要求你精通Python编程,但基础知识还是不能忽视的,那么我们需要哪些Python基础呢? 首先我们先来看看一个最简单的爬虫流程: 第一步要确定爬取页面的链接,由于我们通常爬取的内容不止一页,所以要注意看看翻页.关键字变化时链接的变化,有时候甚至要考虑到日期:另外还需要主要网页是静态.动态加载的. 第二步请求资源,这个难度不大,主要是Urllib,Request两个库的使用,必要时候翻翻官方文档即可 第三步是解析网页.请求资源成功后,返回的整个网页的源代码,这时候我们就需要定位,清

小白学爬虫:PhantomJS实战(五)

摘要:从零开始写爬虫,初学者的速成指南! 大家好!从今天开始,我要与大家一起打造一个属于我们自己的分布式爬虫平台,同时也会对涉及到的技术进行详细介绍.大家如果有什么好的想法请多留言,多提意见,一起来完善我们的爬虫平台.在正式介绍平台之前,先用一些篇幅对基础篇做一点补充. 模拟滚动 这次的目标是爬一个众筹网站的所有项目,项目列表页如下:https://www.kaistart.com/project/more.html.打开后进行分析,页面显示出10个项目: 号:923414804群里有志同道合的

小白学爬虫:Scrapy入门(四)

摘要:从零开始写爬虫,初学者的速成指南! 上期我们理性的分析了为什么要学习Scrapy,理由只有一个,那就是免费,一分钱都不用花! 号:923414804群里有志同道合的小伙伴,互帮互助,群里有不错的视频学习教程和PDF! 咦?怎么有人扔西红柿?好吧,我承认电视看多了.不过今天是没得看了,为了赶稿,又是一个不眠夜...言归正传,我们将在这一期介绍完Scrapy的基础知识, 如果想深入研究,大家可以参考官方文档,那可是出了名的全面,我就不占用公众号的篇幅了. 架构简介 下面是Scrapy的架构,包

小白学爬虫:开源爬虫框架对比(三)

摘要:从零开始写爬虫,初学者的速成指南! 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过<手把手>系列的前两篇,那么今天的内容就非常容易理解了.细心的读者也许会有疑问,为什么不学出身名门的Apache顶级项目Nutch,或者人气飙升的国内大神开发的Pyspider等框架呢?原因很简单,我们来看一下主流爬虫框架在GitHub上的活跃度: ProjectLanguageStarWatchFork NutchJava1111195808 webmagicJava42166182

小白学爬虫:迷你爬虫架构(二)

摘要:从零开始写爬虫,初学者的速成指南! 介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要继续打好基础,本期我们先介绍爬虫的种类,然后选取最典型的通用网络爬虫,为其设计一个迷你框架.有了自己对框架的思考后,再学习复杂的开源框架就有头绪了. 今天我们会把更多的时间用在思考上,而不是一根筋的co

小白学爬虫:分布式爬虫(六)

手把手教你写网络爬虫 摘要:从零开始写爬虫,初学者的速成指南! 下面是一个超级计算机的排行榜,如果我们能拥有其中任意一个,那么我们就不需要搞什么分布式系统.可是我们买不起,即使买得起,也交不起电费,所以我们只好费脑子搞分布式. RankSystemCoresRmaxRpeakPower (kW) 1Tianhe-2China3,120,00033,862.754,902.417,808 2TitanUS560,64017,590.027,112.58,209 3SequoiaUS1,572,86

简单学习Python的web框架Django(一)

我的学习环境是Windows 7,首先安装Python,我安装的版本是Python 2.7,之后需确认"C:\Python27\Scripts;C:\Python27;"这两个路径添加到Path系统变量里面了. 图一 然后下载Django.我下载的版本是Django-1.8.tar.gz.然后解压,命令行方式进入解压目录,用"setup.py install"命令来安装.安装完成后,在python shell中输入"import django",

小白学ES 06 - 通过Kibana学习ES的基础语法

目录 1 document结构 2 document的常见CRUD操作 2.1 添加商品: 添加文档并建立索引 2.2 查询商品: 检索文档 2.3 修改商品: 替换文档 2.4 修改商品: 更新文档 2.5 删除商品: 删除文档 1 document结构 ES是一款面向文档的数据搜索.分析引擎. document结构说明: (1) 基于面向对象的开发思想, 应用系统中的数据结构都是很复杂的: 对象中嵌套对象, 如CRM系统中的客户对象中, 还会嵌入客户相关的企业对象. (2) 对象数据存储到数