简单爬虫项目实战（一）

概述

　　最近自己想搞一个小的项目，这个项目我们就先从爬虫开始，爬取直播吧的NBA滚动新闻，再存入数据库。先写个简单点的，后期再不断的优化下。

准备

　　直播吧对于喜欢看球的朋友肯定不陌生，https://www.zhibo8.cc/，打开我们看到如下界面，

我们选择NBA新闻tab,然后选择滚动新闻，

我们按下F12，分析下这个请求

我们试着来直接请求下这个地址

哈哈，太好了，这个就是页面上的内容啊，我们就要解析这个数据，就能得到所有数据，是不是很简单呢

代码

    conn = pymysql.connect("localhost", "root", "123456", "news")  # 获取连接
    cursor = conn.cursor()  # 获取游标 默认元组类型
    cursor = conn.cursor(pymysql.cursors.DictCursor)
    insert_news_sql = ‘insert into news(title, url, hash, publish_time, news_type, from_name) values(%s, %s, %s, %s, %s, %s)‘

    response = requests.get("https://m.zhibo8.cc/json/hot/24hours.htm")
    news_list = json.loads(response.text).get(‘news‘)
    news_data = ()
    for news in news_list:
        title = news.get(‘title‘)
        news_type = news.get(‘type‘)
        publish_time = news.get(‘createtime‘)
        url = news.get(‘from_url‘)
        from_name = news.get(‘from_name‘)
        hash_str = hash(title)
        news_data = (title, url, hash_str, publish_time, news_type, from_name)
        cursor.execute(insert_news_sql, news_data)  # 执行语句

    conn.commit()  # 提交
    cursor.close()  # 关闭游标
    conn.close()  # 关闭连接

原文地址：https://www.cnblogs.com/xiaobaobei/p/10080724.html

时间： 2024-10-18 09:03:22

简单爬虫项目实战（一）的相关文章

Go语言之高级篇Beego框架之爬虫项目实战

一.爬虫项目 1.爬虫基础 a.网页上面会有相同的数据 b.去重处理布隆过滤器哈希存储 c.标签匹配: 正则表达式beautiful soup或lxml这种标签提取库 d.动态内容 phantomjs selenium 二. 原文地址:https://www.cnblogs.com/nulige/p/10386915.html

目的: 通过网络爬虫爬取中国最小粒度的区域维度信息,包括省(Province) .市(City).县(County).镇(town).村委会(village) 主网站链接: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2015/index.html 主要jar包: http://jsoup.org/packages/jsoup-1.8.1.jar 之前一节我们说过java爬虫从网络上利用jsoup获取网页文本,也就是说我们可以有三种方法获取h

[小项目实战]分公司c3750简单mls qos限速，asa5510实现url过滤

现分公司的一个车间要出租给外加工单位,是我们boss的朋友,所以网络设备什么的都是由我们提供,大概车间办公室10+电脑左右,我们自己电脑总数在60台,其中能上外网的30+,领导让我去做这个项目,要求如下: 1.外租网络不能访问我们内网,可以访问外网 2.带宽的问题,我们总带宽是10M,我们分部实施了ad管理,像一些P2P下载软件用户是没有权限安装的,平时不搞迅雷下载和在线看视频的话,带宽还是足够的,而外加工那个单位电脑我们是无法控制的,所以领导要求把他们带宽限制在4M左右. 3.领导要求过滤一些

Maven实战（二）构建简单Maven项目

1.创建一个简单的项目利用这个命令: mvn archetype:generate -DgroupId=cn.edu.app -DartifactId=simple -Dversion=1.0 -DarchetypeArtifactId=maven-archetype-quickstart (这里稍微解释一下,archetype:generate 前面archetype说我们用了maven的archetype插件,后面的generate指的是该插件的一个目标,后面groupId,artifa

Swift开发iOS项目实战视频教程（一）---iOS真简单

本课主要介绍iOS项目的创建.第一个iOS项目的开发.UILabel.UIButton的使用. 假设你看完此视频还认为iOS非常难,请你来找我! 本教程摒弃枯燥的语法和知识解说,全是有趣有料的项目实战! 视频链接:v.youku.com/v_show/id_XNzI4NDQzNDIw.html 高清视频下载:pan.baidu.com/s/1ntHl79B 代码下载:pan.baidu.com/s/1bn3sKsZ swift交流群:307561190

如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

来自 Scrapy 官方账号的推荐需求分析初级用户: 只有一台开发主机能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控制爬虫,感觉命令行操作太麻烦,希望能够通过浏览器直接部署和运行项目专业用户: 有 N 台云主机,通过 Scrapy-Redis 构建分布式爬虫希望集成身份认证希望在页面上直观地查看所有云主机的运行状态希望能够自由选择部分云主机,批量部署和运行爬虫项目,实现集群管理希望自动执行日志分析,以及

Python简单爬虫第六蛋！（完结撒花）

第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也会遇到没有网络的情况,这个就很扎心了,有什么办法呢?所以这个项目基于这么一个现实背景来分析实现一下,把我们前几次讲到一些技术方法都运用一遍. (有人可能会说直接下载一个txt格式的小说文本文件不就好了,虽然是挺方便的,但是懒惰是不好的习惯,而且也没有运用到所学的知识,那么我们何必要学习呢?为什么要学,看完实例

30天搞定大数据爬虫项目，数据爬虫、全文检索、数据可视化、爬虫项目监控

好,开始今天的文章. 今天主要是来说一下怎么可视化来监控你的爬虫的状态. 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样.今天我来讲一种可视化的方法. 关于爬虫数据在mongodb里的版本我写了一个可以热更新配置的版本,即添加了新的爬虫配置以后,不用重启程序,即可获取刚刚添加的爬虫的状态数据. 1.成品图这个是监控服务器网速的最后成果,显示的是下载与上传的网速,单位为M.爬虫的原理都是一样的,只不过将数据存到InfluxDB的方式不一样

Vue + Spring Boot 项目实战（一）：项目简介 򗊪

原文: http://blog.gqylpy.com/gqy/489 置顶:来自一名75后老程序员的武林秘籍--必读(博主推荐) 来,先呈上武林秘籍链接:http://blog.gqylpy.com/gqy/401/ 你好,我是一名极客!一个 75 后的老工程师! 我将花两分钟,表述清楚我让你读这段文字的目的! 如果你看过武侠小说,你可以把这个经历理解为,你失足落入一个山洞遇到了一位垂暮的老者!而这位老者打算传你一套武功秘籍! 没错,我就是这个老者! 干研发 20 多年了!我也年轻过,奋斗过!我