爬虫实例1-爬取新闻列表和发布时间

一、新建工程


scrapy
 startproject shop

二、Items.py文件代码:


import scrapy

class
 ShopItem(scrapy.Item):

title = scrapy.Field()

time = scrapy.Field()

三、shopspider.py文件爬虫代码


#
 -*-coding:UTF-8-*-

import scrapy

from shop.items
 import ShopItem

class
 shopSpider(scrapy.Spider):

name = "shop"

allowed_domains =
 ["news.xxxxxxx.xx.cn"]

start_urls = ["http://news.xxxxx.xxx.cn/hunan/"]

def parse(self,response):

item
 = ShopItem()

item[‘title‘]
 =
 response.xpath("//div[@class=‘txttotwe2‘]/ul/li/a/text()").extract()

item[‘time‘]
 =
 response.xpath("//div[@class=‘txttotwe2‘]/ul/li/font/text()").extract()

yield
 item

四、pipelines.py文件代码(打印出内容):

注意:如果在shopspider.py文件中打印出内容则显示的是unicode编码,而在pipelines.py打印出来的信息则是正常的显示内容。


class
 ShopPipeline(object):

def process_item(self, item, spider):

count=len(item[‘title‘])

print ‘news count: ‘ ,count

for i in range(0,count):

print ‘biaoti: ‘+item[‘title‘][i]

print ‘shijian: ‘+item[‘time‘][i]

return item

五、爬取显示的结果:


[email protected]:~/shop#
 scrapy crawl shop --nolog

news count:  40

biaoti:  xxx建成国家食品安全示范城市

shijian:
 (2017-06-16)

biaoti: xxxx考试开始报名

……………………

…………………..

时间: 2024-10-12 07:59:25

爬虫实例1-爬取新闻列表和发布时间的相关文章

requests库和BeautifulSoup4库爬取新闻列表

画图显示: import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt txt = open("zuihou.txt","r",encoding='utf-8').read() wordlist = jieba.lcut(txt) wl_split=" ".join(wordlist) mywc = WordCloud().generate(wl_spl

用requests库和BeautifulSoup4库爬取新闻列表

1.用requests库和BeautifulSoup4库,爬取校园新闻列表的时间.标题.链接.来源. import requests from bs4 import BeautifulSoup mt="http://news.gzcc.cn/html/xiaoyuanxinwen/" res=requests.get(mt) res.encoding='utf-8' soup=BeautifulSoup(res.text,"html.parser") for new

爬虫实例(一)——爬取微博动态

首语:开始准备认真学习爬虫了,先从基础的开始学起,比如先爬取微博的个人动态. 两个难点:获取动态加载的内容和翻页这两项操作. 对象:何炅的个人 需要的URL: 首页url:https://weibo.com/hejiong?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=1#feedtop 我们可以直接用get方法请求该URL,但是注意要带上cookies,这样才能得到网页信息.cookies

Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

<工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短评信息,一共20条.一般我们加载大量数据的时候,都会做分页,但是这个页面没有,只有一个滚动条. 随着滚动条往下拉,信息自动加载了,如下图,变40条了.由此可见,短评是通过异步加载的. 我们不可能一次性将滚动条拉到最下面,然后来一次性获取全部的数据.既然知道是通过异步来加载的数据,那么我们可以想办法直接去获取这些异步的数据. 打开 Network 查看分析 http 请求,可以

爬虫爬取新闻(二)

第一版爬取新闻的用下来最大的感受是: 爬取多少条不能自己设置 速度太慢了 这次把这两点优化下: 通过读取用户输入的数字来设置每个频道爬取新闻数量,采用多线程优化爬取速度 1 # -*- coding:utf-8 -*- 2 3 import os,time 4 import sys 5 import urllib 6 from urllib import request 7 import re,threading 8 from lxml import etree 9 10 11 def Stri

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

爬虫入门之爬取策略 XPath与bs4实现(五)

爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面.而决定这些URL排列顺序的方法,叫做抓取策略.下面重点介绍几种常见的抓取策略: 1 深度优先遍历策略: 深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接.我们以下面的图为例:遍历的路径:A-F-G E-H-I B C D

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果 当你运行代码后,文件夹就会越来越多,如果爬完的话会有2

scrapy爬虫框架(四)-爬取多个网页

scrapy爬虫框架(四) 爬取多个网页 思路:通过判断句子控网站中,下一页是否还有a标签来获取网址,拼接后继续爬取,最终写入json文件中. juziSpider.py # -*- coding: utf-8 -*- import scrapy from juzi.items import JuziItem class JuzispiderSpider(scrapy.Spider): name = 'juziSpider' allowed_domains = ['www.juzikong.co