Python学习笔记之爬虫1

爬虫的操作步骤：

爬虫三步走

爬虫第一步：使用requests获得数据：

1.导入requests

2.使用requests.get获取网页源码

import requests
r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text

爬虫第二步：使用BeautifulSoup4解析数据：

1.导入bs4

2.解析网页数据

3.寻找数据

4.for循环打印

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)

爬虫第三步：使用pandas保存数据：

1.导入pandas

2.新建list对象

3.使用to_csv写入

import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

完整的爬虫

import requests
r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text

from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)

import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

代码运行结果：

原文地址：https://www.cnblogs.com/PeterZhang1520389703/p/8177550.html

时间： 2024-12-11 13:39:19

Python学习笔记之爬虫1的相关文章

python学习笔记："爬虫+有道词典"实现一个简单的英译汉程序

1.有道的翻译网页:www.youdao.com Fig1 Fig2 Fig3 Fig4 再次点击"自动翻译"->选中'Network'->选中'第一项',如下: Fig5 然后显示出如下内容,红框画出的部分是等会编写代码需要的地方: Fig6 Fig7 再看看翻译的结果: Fig8 2.python实现英译汉: 原理:把需要翻译的内容输入给有道词典,然后通过程序把翻译的结果爬下来. 1 # -*- coding:utf-8 -*- 2 """

python学习笔记之爬虫之爬取百度贴吧某一帖子

从大神这儿静觅 ? Python爬虫实战二之爬取百度贴吧帖子讲的很不错,按照步骤一步一步的做效果很明显.第一次真正做出一个小爬虫程序,所以在csdn写出来也是对自己的一种鞭策一种鼓励,不喜勿喷,还请大神不吝赐教. 因为大神博文讲的很详细(真心详细),所以步骤我就不一一细说了先把自己的代码贴出来(大部分一样): #!/usr/bin/env python # coding=utf-8 import urllib2 import urllib import re class Tool(object

Python学习笔记——与爬虫相关的网络知识

1 关于URL URL(Uniform / Universal Resource Locator):统一资源定位符,用于完整地描述Internet上网页和其他资源的地址的一种标识方法 URL是爬虫的入口,--非常重要基本格式: scheme://host[:port# ]/path/.../[?query-string][#anchor] scheme:协议(例如:http.https.ftp) host:服务器的IP地址或域名 port#:服务器端口(协议默认端口80,可缺省) path:访

python学习笔记目录

人生苦短,我学python学习笔记目录:week1 python入门 week2 python基础week3 python进阶week4 python高阶week5 python数据结构与算法week6 网络编程week7 数据库技术之入门week8 数据库技术之MySQL和redis和mongodbweek9 前端技术之HTML和CSSweek10 前端技术之JavaScript和DOMweek11 前端框架之jQueryweek12 前端框架之bootstrapweek13 网络框架之入门w

OpenCV之Python学习笔记

OpenCV之Python学习笔记直都在用Python+OpenCV做一些算法的原型.本来想留下发布一些文章的,可是整理一下就有点无奈了,都是写零散不成系统的小片段.现在看到一本国外的新书<OpenCV Computer Vision with Python>,于是就看一遍,顺便把自己掌握的东西整合一下,写成学习笔记了.更需要的朋友参考. 阅读须知: 本文不是纯粹的译文,只是比较贴近原文的笔记: 请设法购买到出版社出版的书,支持正版. 从书名就能看出来本书是介绍在Pytho

python学习笔记12-模块使用

python学习笔记12-模块使用模块os,sys 什么是模块? 模块os,sys 模块是Python组织代码的一种基本方式一个Python脚本可以单独运行,也可以导入到另外一个脚本运行,用import hello语句来导入,不用加入.py 什么是Python的包? Python的模块可以按照目录组织为包创建一个包的步骤: 创建一个名字为包名的目录在改目录下创建一个__init__.py文件根据需要,在该目录下存放脚本文件或已编译的扩展及子包 import pack.m1,pack.

python学习笔记2—python文件类型、变量、数值、字符串、元组、列表、字典

python学习笔记2--python文件类型.变量.数值.字符串.元组.列表.字典一.Python文件类型 1.源代码 python源代码文件以.py为扩展名,由pyton程序解释,不需要编译 [[email protected] day01]# vim 1.py #!/usr/bin/python print 'hello world!' [[email protected] day01]# python 1.py hello world! 2.字节代码 Python源码文件

Python学习笔记--未经排版

Python 学习笔记 Python中如何做到Print() 不换行答:Print("输出内容",end='不换行的分隔内容'),其中end=后面为2个单引号注:在Python 2.x中,Print "输出内容", 即在输出内容后加一逗号 Python中 is 和 == 的区别答:Python中的对象包含三要素:id.type.value 其中id用来唯一标识一个对象,type标识对象的类型,value是对象的值 is判断的是a对象是否就是b对象,是通过id来

Python学习笔记_Python对象

Python学习笔记_Python对象 Python对象标准类型其他内建类型类型对象和type类型对象 Python的Null对象None 标准类型操作符对象值的比较对象身份比较布尔类型标准类型的内建函数 typeObj cmpobj1 obj2 strobj reprobj typeobj isinstanceobj 标准类型的分类存储模型更新模型访问模型不支持的类型 Python学习笔记_Python对象首先来理解一个通俗的含义,什么是对象?其实对象无论在什么语言里面