爬虫_豆瓣全部正在热映电影 (xpath)

单纯地练习一下xpath

 1 import requests
 2 from lxml import etree
 3
 4
 5 def get_url(url):
 6     html = requests.get(url)
 7     return html.text
 8
 9
10 def parse_html(html):
11     informations = []
12     html_element = etree.HTML(html)
13     ul = html_element.xpath(‘//ul[@class="lists"]‘)[0]
14     for li in ul:
15         href = li.xpath(‘.//li[@class="poster"]/a/@href‘)
16         title = li.xpath(‘normalize-space(.//li[@class="stitle"]/a/@title)‘)  #normalize-space 去掉换行符
17         mark = li.xpath(‘.//span[@class="subject-rate"]/text()‘)
18         actor = li.xpath(‘@data-actors‘)
19         director = li.xpath(‘@data-director‘)
20     # print(etree.tostring(uls, encoding=‘utf-8‘).decode(‘utf-8‘))
21         information = {
22             ‘href‘: href,
23             ‘title‘: title,
24             ‘mark‘: mark,
25             ‘actors‘: actor,
26             ‘director‘: director
27         }
28         informations.append(information)
29
30     print(informations)
31
32
33 def main():
34     url = ‘https://movie.douban.com/cinema/nowplaying/beijing/‘
35     html = get_url(url)
36     parse_html(html)
37
38
39 if __name__ == ‘__main__‘:
40     main()

原文地址:https://www.cnblogs.com/MC-Curry/p/9408938.html

时间: 2024-10-11 05:29:47

爬虫_豆瓣全部正在热映电影 (xpath)的相关文章

爬虫_电影天堂 热映电影(xpath)

写了一天才写了不到100行.不过总归是按自己的思路完成了 1 import requests 2 from lxml import etree 3 import time 4 5 BASE = 'http://www.dytt8.net' 6 def get_one_page(url): 7 headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome

python爬虫获取豆瓣网前250部电影的详细信息

网址 https://movie.douban.com/top250 一共250部电影,有分页,获取每一部的详细信息 不采用框架,使用 urilib读取网页,re进行正则表达式匹配,lxml进行xpath查找 1 from film import * 2 from urllib import request 3 import time,re 4 url=r'https://movie.douban.com/top250?start=' 5 for i in range(10): 6 url=ur

用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from selenium import webdriver import unittest from time import sleep class DoubanMovie(unittest.TestCase):     def setUp(self):          self.dr = webdriv

python爬虫,爬豆瓣top250电影

python爬虫,爬豆瓣top250电影 import string import re import urllib2 class DouBanSpider(object) : def __init__(self) : self.page = 1 self.cur_url = "http://movie.douban.com/top250?start={page}&filter=&type=" self.datas = [] self._top_num = 1 def

抓取猫眼热映口碑榜

看了两三个爬虫程序,就自己写了一个简单的爬虫程序,爬取的是:猫眼电影-榜单-热映口碑榜11月6号的数据 from urllib import request import re def getHtml(url, ua_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko'): headers = {"User-Agent":ua_agent} req = request.Request(url, headers=

1-1 用Python抓取豆瓣及IMDB上的电影信息

下面的代码可以抓取豆瓣及IMDB上的电影信息,由于每段代码使用的数据源自上一段代码输出的数据,所以需要按顺序执行. step1_getDoubanMovies.py 1 # -*- coding: utf-8 -*- 2 ''' 3 该脚本得到豆瓣上所有电影的如下信息: 4 "rate": "7.5", 5 "cover_x": 2000, 6 "is_beetle_subject": false, 7 "title

# [爬虫Demo] pyquery+csv爬取猫眼电影top100

目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.com/board/4?offset=0 翻页操作只会改变offset偏移量,每部电影的信息都在dd标签内,使用pyquery库中的css选择器直接解析页面 代码君 css选择器直接选择和使用find()方法的区别:find()用于选择子节点,因此限定了选择的区域,速度可能要快些,直接传入''选择器可能

Node.js学习 爬虫下载豆瓣电影top250图片

利用node.js实现爬虫,并且爬取豆瓣电影top250的列表和图片. 1 什么是node.js 简单的说 Node.js 就是运行在服务端的 JavaScript.Node.js 是一个基于Chrome JavaScript 运行时建立的一个平台.Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎 2 什么是爬虫 (又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 3

爬虫_电影ftp下载地址

站点:http://www.dy2018.com/ 数据库:mysql 账号:root 密码:123456 建表语句:CREATE TABLE dy2008_url (id int(9) NOT NULL AUTO_INCREMENT, url varchar(2000) NOT NULL, status tinyint(2) NOT NULL, PRIMARY KEY(id)); 代码: <?php declare(ticks = 1); pcntl_signal(SIGQUIT, 'sign