python 一个简单的爬虫(1)

1.一个简单的爬虫:爬取豆瓣的热门电影的信息

技能:获取网页源码,正则表达式,函数调用,全局变量的定义

 1 #! /usr/bin/env python
 2 # -*- coding=utf-8 -*-
 3 import requests
 4 import json
 5 import re
 6 import sys
 7 reload(sys)
 8 sys.setdefaultencoding("utf-8")
 9 classinfo = []
10 f = open(‘info.txt‘,‘w‘)
11
12 num = 0
13 def write(htm):
14     titl = re.findall(‘data-tit(.*?)data-enough‘,htm.text,re.S)
15     for each in titl:
16         #print each
17         info = {}
18         #print each
19         info[‘title‘] = re.search(‘le="(.*?)"‘,each,re.S).group(1)
20         info[‘year‘] = re.search(‘data-release="(.*?)" data‘,each,re.S).group(1)
21         info[‘Rating‘]= re.findall(‘data-rate="(.*?)" data-star‘,each,re.S)[0]
22         info[‘time‘] = re.findall(‘data-duration="(.*?)" data-re‘,each,re.S)[0]
23         info[‘reg‘] = re.findall(‘data-region="(.*?)" data-dir‘,each,re.S)[0]
24         info[‘act‘] = re.findall(‘data-actors="(.*?)" data-in‘,each,re.S)[0]
25         global num #全局的定义
26         num = num + 1
27         f.writelines(‘%d\n‘ %num)
28         f.writelines(u‘电影名:‘+info[‘title‘] + ‘\n‘)
29         f.writelines(u‘主演:‘+info[‘act‘] + ‘\n‘)
30         f.writelines(u‘电影地区:‘ + info[‘reg‘]+‘\n‘)
31         f.writelines(u‘上映年份:‘ + info[‘year‘]+‘\n‘)
32         f.writelines(u‘电影时长:‘ + info[‘time‘]+‘\n‘)
33         f.writelines(u‘评分:‘ + info[‘Rating‘]+‘\n\n‘)
34 def getremen():
35     # html = requests.get(‘http://movie.douban.com/‘)
36     url = ‘http://movie.douban.com/‘
37     html = requests.get(url)
38     html.encoding = ‘utf-8‘
39     # print html.text
40     write(html)
41 if __name__ == "__main__":
42     getremen()
时间: 2024-10-10 09:37:21

python 一个简单的爬虫(1)的相关文章

$python爬虫系列(1)——一个简单的爬虫实例

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html中图片的html标签特征,用正则解析出所有的图片url链接列表: 根据图片的url链接列表将图片下载到本地文件夹中. 2. urllib+re实现 #!/usr/bin/python # coding:utf-8 # 实现一个简单的爬虫,爬取百度贴吧图片 import urllib import r

python 最简单的爬虫

一个简单的爬虫工程 环境: OS:Window10 python:3.7 安装一些库文件 pip install requests pip install beautifulsoup4 pip install lxml 在安装的时候如果遇到了你的pip版本过低的错误的话,可以找到你本地的C:\Users\XXX\PycharmProjects\getHtml\venv\Lib\site-packages下面的pip-18.1.dist-info文件夹删除,之后在进行更新 下面是提取一个网页的图片

一个简单网络爬虫示例(转载)

在学生时期,可能听到网络爬虫这个词会觉得很高大上,但是它的简单实现可能学生都不难懂. 网络爬虫应用,就是把整个互联网真的就当做一张网,像蜘蛛网那样,应用就像一个虫子,在网上面按照一定的规则爬动. 现在互联网应用最广的就是http(s)协议了,本文例子就是基于使用http(s)协议的,只作为示例,不涉及复杂的算法(实际上是最重要的). 设计思路: 程序入口从一个或多个url开始,通过http(s)获取url的内容,对获取到内容处理,获取内容中需要爬取的信息,获取到内容中的url链接,再重复以上步骤

【转】使用webmagic搭建一个简单的爬虫

[转]使用webmagic搭建一个简单的爬虫 刚刚接触爬虫,听说webmagic很不错,于是就了解了一下. webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫. 这句话说的真的一点都不假,像我这样什么都不懂的人直接下载部署,看了看可以调用的方法,马上就写出了第一个爬虫小程序. 以下是我学习的过程: 首先需要下载jar:http://webmagic.io/download.html 部署好后就建一个class继承PageProcesso

Python网络爬虫 - 一个简单的爬虫例子

下面我们创建一个真正的爬虫例子 爬取我的博客园个人主页首页的推荐文章列表和地址 scrape_home_articles.py from urllib.request import urlopen from bs4 import BeautifulSoup import re html = urlopen("http://www.cnblogs.com/davidgu") bsObj = BeautifulSoup(html, "html.parser") for

使用python编写简单网络爬虫(一)

总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下: ------------------------------------------------------------------------------------------- #coding=utf-8 # 导入urllib和re模块  import urllib import re # 定义获取百度图库URL的类

[Python学习] 简单网络爬虫抓取博客文章及思想介绍

        前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要包括: 1.介绍爬取CSDN自己博客文章的简单思想及过程 2.实现Python源码爬取新浪韩寒博客的316篇文章 一.爬虫的简单思想      最近看刘兵的<Web数据挖掘>知道,在研

python scrapy 简单的爬虫

1 scrapy的文档 比较简单 http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html 我假定你已经安装了Scrapy.假如你没有安装,你可以参考这篇文章. 在本文中,我们将学会如何使用Scrapy建立一个爬虫程序,并爬取指定网站上的内容 1. 创建一个新的Scrapy Project scrapy creatproject "project-name" 2. 定义你需要从网页中提取的元素Item 3.实现一

工位上的Python——一个简单的UDP广播实例

最近状态神勇,头脑清晰,趁此良机,多多学习,多多看书,把以前看不懂的地方重新看了下,收获匪浅,现把两个简单的小例子献给大家: 先是一个简单的UDP广播接收的小服务器,使用UDP广播,需要注意下协议的使用,已经最最重要的socket选项的设置,设置为传说中的"socket.SO_BROADCAST",不需要有监听,接收客户端的消息使用recvfrom,发送消息使用sendto: 代码如下: !/usr/bin/env python  #coding:utf-8 import socket