爬取网易新闻排行榜

#网络爬虫之最基本的爬虫：爬取[网易新闻排行榜](http://news.163.com/rank/)

**一些说明：** 

* 使用urllib2或requests包来爬取页面。

* 使用正则表达式分析一级页面，使用Xpath来分析二级页面。

* 将得到的标题和链接，保存为本地文件。

import os
import sys
import requests
import re

from lxml import etree

def StringListSave(save_path, filename, slist):
    # 检测是否有这个文件目录，不存在的话，会自动创建
    if not os.path.exists(save_path):
        os.makedirs(save_path)
    path = save_path+"/"+filename+".txt"
    with open(path, "w+") as fp:
        for s in slist:
            # 做了utf8转码,转为终端可识别的码制
            fp.write("%s\t\t%s\n" % (s[0].encode("utf8").decode(‘utf-8‘), s[1].encode("utf8").decode(‘utf-8‘)))

def Page_Info(myPage):
    ‘‘‘Regex‘‘‘
    # 这里的re.findall 返回的是一个元组列表,内容是 (.*?) 中匹配到的内容
    # 析取每个链接的标题和链接
    mypage_Info = re.findall(r‘<div class="titleBar" id=".*?"><h2>(.*?)‘
                             r‘</h2><div class="more"><a href="(.*?)">.*?</a></div></div>‘, myPage, re.S)
    return mypage_Info

def New_Page_Info(new_page):
    ‘‘‘Regex(slowly) or Xpath(fast)‘‘‘
    # 将new_page的内容转为html格式的树
    dom = etree.HTML(new_page)
    # 析取 <tr <td <a中的文本
    new_items = dom.xpath(‘//tr/td/a/text()‘)
    # 析取 <tr <td <a中的链接, @href 是一个属性
    new_urls = dom.xpath(‘//tr/td/a/@href‘)
    assert(len(new_items) == len(new_urls))
    return zip(new_items, new_urls)

def Spider(url):
    i = 0
    print("downloading ", url)
    myPage = requests.get(url).content.decode("gbk")
    myPageResults = Page_Info(myPage)
    save_path = "网易新闻抓取"
    filename = str(i)+"_"+"新闻排行榜"
    StringListSave(save_path, filename, myPageResults)
    i += 1
    for item, url in myPageResults:
        print("downloading ", url)
        new_page = requests.get(url).content.decode("gbk")
        newPageResults = New_Page_Info(new_page)
        filename = str(i)+"_"+item
        StringListSave(save_path, filename, newPageResults)
        i += 1

if __name__ == ‘__main__‘:
    print("start")
    start_url = "http://news.163.com/rank/"
    Spider(start_url)
    print("end")

解析一：检测是否有这个文件目录，不存在的话，会自动创建

import os
save_path = "网易新闻抓取"
if not os.path.exists(save_path):
   os.makedirs(save_path)

解析二：os.mkdir 与 os.makedirs 区别及用法：

（1）mkdir( path [,mode] )

作用：创建一个目录，可以是相对或者绝对路径，mode的默认模式是0777。
如果目录有多级，则创建最后一级。如果最后一级目录的上级目录有不存在的，则会抛出一个OSError。

（2）makedirs( path [,mode] )

作用：创建递归的目录树，可以是相对或者绝对路径。
如果子目录创建失败或者已经存在，会抛出一个OSError的异常，Windows上Error 183即为目录已经存在的异常错误。如果path只有一级，与mkdir一样。

总结：os.mkdir()创建路径中的最后一级目录；os.makedirs()创建多层目录。

解析三：文件操作，with open as追加文本内容实例：

（1）最常见的读写操作

import re
with open(‘/rr.txt‘, ‘w‘) as f:
   f.write(‘hello world‘)

如图所示：

追加写入文件内容：

import re
with open(‘/rr.txt‘, ‘a‘) as f:
    f.write(‘hello world\n‘)
    # print(f.readline(1))

如图所示：

（2）一些正则表达式的关键词

w：以写方式打开，

a：以追加模式打开 (从 EOF 开始, 必要时创建新文件)

r+：以读写模式打开

w+：以读写模式打开 (参见 w )

a+：以读写模式打开 (参见 a )

rb：以二进制读模式打开

wb：以二进制写模式打开 (参见 w )

ab：以二进制追加模式打开 (参见 a )

rb+：以二进制读写模式打开 (参见 r+ )

wb+：以二进制读写模式打开 (参见 w+ )

ab+：以二进制读写模式打开 (参见 a+ )fp.read([size])

解析四：python格式化输出

%s\t\t%s\n

解： %s：字符串； \n：换行； \t: 横向制表符

1、打印字符串

2、打印整数

3、打印浮点数

4、打印浮点数（指定保留小数点位数）

5、指定占位符宽度

6、指定占位符宽度，指定对其方式

原文地址：https://www.cnblogs.com/qy1234/p/9461637.html

时间： 2024-08-04 07:03:19

爬取网易新闻排行榜的相关文章

Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为此小编建了个群 624440745. 不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选

scrapy爬取网易新闻内容

最近在写毕业论文,是做个文本分类相关的题目.想抓取网易新闻里那些新闻内容作为分析的数据,于是就又照着scrapy的文档照做了一遍... 感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件,我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了,大家可以先看看.地址为http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html 下面是我做的情况 1.创建项目运行命令

利用scrapy抓取网易新闻并将其存储在mongoDB

好久没有写爬虫了,写一个scrapy的小爬爬来抓取网易新闻,代码原型是github上的一个爬虫,近期也看了一点mongoDB.顺便小用一下.体验一下NoSQL是什么感觉.言归正传啊.scrapy爬虫主要有几个文件须要改动.这个爬虫须要你装一下mongodb数据库和pymongo,进入数据库之后.利用find语句就能够查看数据库中的内容,抓取的内容例如以下所看到的: { "_id" : ObjectId("5577ae44745d785e65fa8686"), &qu

第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有

【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜

实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install lxml) IDEA开发工具:PyCharm_2017.3 Python版本:Python3 期望结果:爬取出排行版歌名以及对应歌手运行效果图: 音乐排行榜: 爬取数据结果图: 像这种简单的爬取就没必要使用Scrapy框架进行处理,是在有点大材小用,不过如果你刚开始学Scrapy的话,拿这些简单的练

爬取校园新闻

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文.show-info. 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息. 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. 将获取新闻详情的代码定义成一个函数 def getNe

爬取校园新闻首页的新闻的详情，使用正则表达式，函数抽离

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息

crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息我们以百度新闻为列: 1.分析网站首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息然后查看源码,看看在源码里是否有这条新闻,可以看到源文件里没有这条信息,这种情况爬虫是无法爬取到信息的那么我们就需要抓包分析了,启动抓包软件和抓包

爬取网易

爬取国内,国际,军事,航空四个板块对应,标题,缩略图,关键字,发布时间,url # -*- coding: utf-8 -*- import scrapy from selenium import webdriver from wangyiPro.items import WangyiproItem from scrapy_redis.spiders import RedisSpider class WangyiSpider(RedisSpider): name = 'wangyi' #allo