简单爬虫项目实战(一)

概述

  最近自己想搞一个小的项目,这个项目我们就先从爬虫开始,爬取直播吧的NBA滚动新闻,再存入数据库。先写个简单点的,后期再不断的优化下。

准备

  直播吧对于喜欢看球的朋友肯定不陌生,https://www.zhibo8.cc/,打开我们看到如下界面,

我们选择NBA新闻tab,然后选择滚动新闻,

我们按下F12,分析下这个请求

我们试着来直接请求下这个地址

哈哈,太好了,这个就是页面上的内容啊,我们就要解析这个数据,就能得到所有数据,是不是很简单呢

代码

    conn = pymysql.connect("localhost", "root", "123456", "news")  # 获取连接
    cursor = conn.cursor()  # 获取游标 默认元组类型
    cursor = conn.cursor(pymysql.cursors.DictCursor)
    insert_news_sql = ‘insert into news(title, url, hash, publish_time, news_type, from_name) values(%s, %s, %s, %s, %s, %s)‘

    response = requests.get("https://m.zhibo8.cc/json/hot/24hours.htm")
    news_list = json.loads(response.text).get(‘news‘)
    news_data = ()
    for news in news_list:
        title = news.get(‘title‘)
        news_type = news.get(‘type‘)
        publish_time = news.get(‘createtime‘)
        url = news.get(‘from_url‘)
        from_name = news.get(‘from_name‘)
        hash_str = hash(title)
        news_data = (title, url, hash_str, publish_time, news_type, from_name)
        cursor.execute(insert_news_sql, news_data)  # 执行语句

    conn.commit()  # 提交
    cursor.close()  # 关闭游标
    conn.close()  # 关闭连接

  

原文地址:https://www.cnblogs.com/xiaobaobei/p/10080724.html

时间: 2024-10-18 09:03:22

简单爬虫项目实战(一)的相关文章

Go语言之高级篇Beego框架之爬虫项目实战

一.爬虫项目 1.爬虫基础 a.网页上面会有相同的数据 b.去重处理 布隆过滤器哈希存储 c.标签匹配: 正则表达式beautiful soup或lxml这种标签提取库 d.动态内容 phantomjs selenium 二. 原文地址:https://www.cnblogs.com/nulige/p/10386915.html

Java爬虫项目实战(一)

目的: 通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) .市(City).县(County).镇(town).村委会(village) 主网站链接: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html 主要jar包: http://jsoup.org/packages/jsoup-1.8.1.jar 之前一节我们说过java爬虫从网络上利用jsoup获取网页文本,也就是说我们可以有三种方法获取h

[小项目实战]分公司c3750简单mls qos限速,asa5510实现url过滤

现分公司的一个车间要出租给外加工单位,是我们boss的朋友,所以网络设备什么的都是由我们提供,大概车间办公室10+电脑左右,我们自己电脑总数在60台,其中能上外网的30+,领导让我去做这个项目,要求如下: 1.外租网络不能访问我们内网,可以访问外网 2.带宽的问题,我们总带宽是10M,我们分部实施了ad管理,像一些P2P下载软件用户是没有权限安装的,平时不搞迅雷下载和在线看视频的话,带宽还是足够的,而外加工那个单位电脑我们是无法控制的,所以领导要求把他们带宽限制在4M左右. 3.领导要求过滤一些

Maven实战(二)构建简单Maven项目

1.创建一个简单的项目 利用这个命令: mvn archetype:generate -DgroupId=cn.edu.app -DartifactId=simple -Dversion=1.0 -DarchetypeArtifactId=maven-archetype-quickstart (这里稍微解释一下,archetype:generate  前面archetype说我们用了maven的archetype插件,后面的generate指的是该插件的一个目标,后面groupId,artifa

Swift开发iOS项目实战视频教程(一)---iOS真简单

本课主要介绍iOS项目的创建.第一个iOS项目的开发.UILabel.UIButton的使用. 假设你看完此视频还认为iOS非常难,请你来找我! 本教程摒弃枯燥的语法和知识解说,全是有趣有料的项目实战! 视频链接:v.youku.com/v_show/id_XNzI4NDQzNDIw.html 高清视频下载:pan.baidu.com/s/1ntHl79B 代码下载:pan.baidu.com/s/1bn3sKsZ swift交流群:307561190

如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

来自 Scrapy 官方账号的推荐 需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控制爬虫,感觉命令行操作太麻烦,希望能够通过浏览器直接部署和运行项目 专业用户: 有 N 台云主机,通过 Scrapy-Redis 构建分布式爬虫 希望集成身份认证 希望在页面上直观地查看所有云主机的运行状态 希望能够自由选择部分云主机,批量部署和运行爬虫项目,实现集群管理 希望自动执行日志分析,以及

Python简单爬虫第六蛋!(完结撒花)

第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也会遇到没有网络的情况,这个就很扎心了,有什么办法呢?所以这个项目基于这么一个现实背景来分析实现一下,把我们前几次讲到一些技术方法都运用一遍. (有人可能会说直接下载一个txt格式的小说文本文件不就好了,虽然是挺方便的,但是懒惰是不好的习惯,而且也没有运用到所学的知识,那么我们何必要学习呢?为什么要学,看完实例

30天搞定大数据爬虫项目,数据爬虫、全文检索、数据可视化、爬虫项目监控

好,开始今天的文章. 今天主要是来说一下怎么可视化来监控你的爬虫的状态. 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样.今天我来讲一种可视化的方法. 关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据. 1.成品图 这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M.爬虫的原理都是一样的,只不过将数据存到InfluxDB的方式不一样

Vue + Spring Boot 项目实战(一):项目简介 &#619178;

原文: http://blog.gqylpy.com/gqy/489 置顶:来自一名75后老程序员的武林秘籍--必读(博主推荐) 来,先呈上武林秘籍链接:http://blog.gqylpy.com/gqy/401/ 你好,我是一名极客!一个 75 后的老工程师! 我将花两分钟,表述清楚我让你读这段文字的目的! 如果你看过武侠小说,你可以把这个经历理解为,你失足落入一个山洞遇到了一位垂暮的老者!而这位老者打算传你一套武功秘籍! 没错,我就是这个老者! 干研发 20 多年了!我也年轻过,奋斗过!我