用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新

目前正在学Python爬虫,正在读崔庆才的《Python3网络爬虫开发实战》,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪。。。。),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码

这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况)

import requests
from pyquery import PyQuery as pq

def get_one_page(url):
    headers = {
        ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36‘
    }
    html = requests.get(url=url,headers=headers)
    return html.text

def parse_one_page(html):
    doc = pq(html)
    items = doc(‘dd .board-item-main .board-item-content .movie-item-info‘).items()
    for item in items:
        name = item.find(‘.name‘).text()
        star = item.find(‘.star‘).text()
        time = item.find(‘.releasetime‘).text()
        score = item.siblings(‘.movie-item-number .score .integer‘).text() + item.siblings(‘.movie-item-number .score .fraction‘).text()
        print(‘电影名:‘ + name + ‘\n‘ +
              star + ‘\n‘ + time + ‘\n‘ + ‘评分:‘+score +‘\n‘)

url = ‘http://maoyan.com/board/4‘
html = get_one_page(url)
parse_one_page(html)

原文地址:https://www.cnblogs.com/Weixu-Liu/p/9191216.html

时间: 2024-10-02 20:42:32

用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新的相关文章

抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法

import requests import re import json import time from bs4 import BeautifulSoup from pyquery import PyQuery as pq from lxml import etree # 获取页面源码 def get_one_page(url): try: headers = { # 伪装请求头 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10

Python 3网络爬虫开发实战.pdf(崔庆才著)

内容简介  · · · · · · 本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.requests.正则表达式.Beautiful Soup.XPath.pyquery.数据存储.Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,后介绍了pyspider框架.Scrapy框架和分布式爬虫. 本书适合Python程序员阅读. 作者简介  · · · · · · 崔庆才 北京航空航天大学硕士,静觅博客(https:/

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著 百度云链接: https://pan.baidu.com/s/1cIB7etdwh8_eybTiatDbQQ 原文地址:http://blog.51cto.com/11018611/2326618

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

<Python3网络爬虫实战案例(崔庆才著)>中文版PDF下载,附源代码+视频教程,带目录资料下载:https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ 原文地址:http://blog.51cto.com/7369682/2330247

崔庆才python爬虫教程

崔庆才python爬虫教程全套资源,免费获取!(获取方式见下) 课程列表: 现在关注公众号:小熊学python,回复:“崔庆才爬虫”,即可免费获取! 崔庆才python爬虫教程全套资源! 原文地址:https://www.cnblogs.com/dylan123/p/12272754.html

# [爬虫Demo] pyquery+csv爬取猫眼电影top100

目录 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 代码君 [爬虫Demo] pyquery+csv爬取猫眼电影top100 站点分析 https://maoyan.com/board/4?offset=0 翻页操作只会改变offset偏移量,每部电影的信息都在dd标签内,使用pyquery库中的css选择器直接解析页面 代码君 css选择器直接选择和使用find()方法的区别:find()用于选择子节点,因此限定了选择的区域,速度可能要快些,直接传入''选择器可能

selenium+chrome抓取淘宝宝贝-崔庆才思路

站点分析 源码及遇到的问题 在搜索时,会跳转到登录界面 step1:干起来! 先取cookie step2:载入cookie step3:放飞自我 关于phantomJS浏览器的问题 源码 站点分析 看了交互,好复杂 看了下Ajax,好复杂 看了下其他内容,看不懂... 所以,没啥好分析的,直接上selenium吧 源码及遇到的问题 在搜索时,会跳转到登录界面 这个没有办法,是淘宝的反爬虫机制. 因为通过selenium webdriver调用的浏览器会有很多异于正常浏览器的参数,具体生成了啥参

爬取崔庆才大神的爬虫教程,最后存储到mysql

# -*- coding: utf-8 -*-#coding:utf8import requests,time,unittestfrom lxml import etreeimport pymysqlurl ='http://cuiqingcai.com/1052.html' head = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0

分享《Python 3网络爬虫开发实战》中文PDF+源代码+崔庆才

下载:https://pan.baidu.com/s/1XNJwYJRurKN1bScroixpYA更多资料分享:http://blog.51cto.com/14087171 <Python 3网络爬虫开发实战>中文PDF+源代码 中文版PDF,606页,带目录和书签,文字可以复制粘贴. 配套源代码: 经典书籍,讲解详细: 如图: 原文地址:http://blog.51cto.com/14087171/2321606