(python)获取阅FM网站的文章数据

看了很小清新应用（火柴盒，一个，阅FM），自己也想做一把文艺青年，做一个文艺应用,但是没有数据，只能自己去爬了，打开阅FM网站和Fildder

逐个分析链接，发现了上图圆圈里的链接，复制到浏览器中打开，不正是我们想要的吗

多次尝试可以发现，这个链接每次返回的结果都是不一样的，所以有这一个链接就够了，下面的工作就是获取数据，然后保存到数据库中了。

db.py

import MySQLdb

def connectDb():
    conn = MySQLdb.connect(host='localhost',user='root',passwd='',db='yuefm',port=3306,charset='utf8')
    cur = conn.cursor();#获得游标
    return conn,cur;

def insertDb(conn,cur,data):
    sql = "insert into yuefm (body,short_id,title,is_liked,source,likes,is_opened,date_created,int_id,id) values('%s','%s','%s','%s','%s','%s','%s','%s','%s','%s')" % (data[0],data[1],data[2],data[3],data[4],data[5],data[7],data[6],data[8],data[9])
    try:
       # 执行sql语句
        cur.execute(sql)
       # 提交到数据库执行
        conn.commit()
        print data[1]+"-------------success"
    except:
       # 发生错误时回滚
        conn.rollback()

    	print 'error'
    # 关闭数据库连接
    conn.close()

main.py

# -*- coding: utf-8 -*-   

import urllib
import json
import db
import threading
import time
def timer():
    t = threading.Timer(5,startTask) #每5s执行一次任务
    t.start()

def startTask():
    path = "http://yue.fm/api/articles/random"
    result = urllib.urlopen(path).read()

    jsonval=json.loads(result)  #获取返回的json结构
    data= jsonval.values()
    conn,cur = db.connectDb()
    db.insertDb(conn,cur,data) #插入数据
    timer()

if __name__ == '__main__':
    timer()
    while True:
        time.sleep(1)

时间： 2024-08-24 18:36:14

(python)获取阅FM网站的文章数据的相关文章

python爬取某个网站的图片并保存到本地

python爬取某个网站的图片并保存到本地 #coding:utf-8 import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.

Python+requests 爬取网站遇到中文乱码怎么办？

分类: Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml 这里说下lxml,lxml是python的一个html.xml解析库,lxml使用XPath能快速,简单的定位元素并获取信息.下面进入正题 1. 遇到的中文乱码问题 1.1 简单的开始使用requests来拔取网站内容十分方便,一个最简单的代码段只需要2-3行代码就行. 点击(此

[转载]python实现带验证码网站的自动登陆

原文地址:python实现带验证码网站的自动登陆作者:TERRY-V 早听说用python做网络爬虫非常方便,正好这几天单位也有这样的需求,需要登陆XX网站下载部分文档,于是自己亲身试验了一番,效果还不错. 本例所登录的某网站需要提供用户名,密码和验证码,在此使用了python的urllib2直接登录网站并处理网站的Cookie. Cookie的工作原理: Cookie由服务端生成,然后发送给浏览器,浏览器会将Cookie保存在某个目录下的文本文件中.在下次请求同一网站时,会发送该Coo

使用python中的matplotlib进行绘图分析数据

http://blog.csdn.net/pipisorry/article/details/37742423 matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图.而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中. 它的文档相当完备,并且 Gallery页面中有上百幅缩略图,打开之后都有源程序.因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定. 在Linux下比较著名的数据图工具

Zzzj Submit：WordPress 百度熊掌号/原创保护文章数据推送插件 V3.4

Zzzj Submit:WordPress 百度熊掌号/原创保护文章数据推送插件 V3.4 Zzzj Submit是一款根据百度站长平台原创保护提交接口而升级开发的WordPress插件,目前插件已经开始适配百度熊掌号(原百度官方号)的数据提交内测,可实现用户自动自主的将文章推送至官方号及原创保护文章推送,支持定时文章推送. 即日起"Zzzj Submit"插件将从WordPress百度原创保护提交插件升级为WordPress百度熊掌号数据提交插件,由于百度熊掌号目前属于内测期间,故该

如何监听第三方应用程序(SOAP or RESTful 客户端)访问HTTPS网站时的数据？

随着互联网的应用越来越多,在我们的日常开发和调试当中(比如调试SOAP和RESTFul的时候),我们常常需要访问用第三方的工具访问HTTPS的网站,为了简化描述,本文使用IE浏览器访问Google 提供的https://www.googleapis.com/discovery/v1/apis RESTful服务为例,注意这个是基于https协议的访问,如果用第三方的嗅探工具,比如wiresharp,即使我们能把http的数据包抓到,显示出来的内容也是乱码,因为传送的内容经过了加密,而加密的私钥就

python 爬取天猫美的评论数据

笔者最近迷上了数据挖掘和机器学习,要做数据分析首先得有数据才行.对于我等平民来说,最廉价的获取数据的方法,应该是用爬虫在网络上爬取数据了.本文记录一下笔者爬取天猫某商品的全过程,淘宝上面的店铺也是类似的做法,不赘述.主要是分析页面以及用Python实现简单方便的抓取. 笔者使用的工具如下 Python 3--极其方便的编程语言.选择3.x的版本是因为3.x对中文处理更加友好. Pandas--Python的一个附加库,用于数据整理. IE 11--分析页面请求过程(其他类似的流量监控工具亦可).

code first网站发布后数据表中没有数据问题

code first网站发布后数据表中没有数据问题 (1).将internal sealed class Configuration类访问修饰符改为public class Configuration : DbMigrationsConfiguration<SimpleNews.EntityModels.SimpleNewsContext> (2).在Global文件的Start()方法中加入下面一段代码 Database.SetInitializer( new MigrateDatabas

【Python】Python获取命令行参数

有时候需要用同一个Python程序在不同的时间来处理不同的文件,此时如果老是要到Python程序中去修改输入.输出文件名,就太麻烦了.而通过Python获取命令行参数就方便多了.下面是我写得一个小程序,希望对大家有所帮助. 比如下面一个程序test.py是通过接受命令行两个参数,并打印出这两个参数. import sys #需导入sys模块 print sys.argv[1], sys.argv[2] #打印出从命令行接受的两个参数 Linux下运行:python test.py Hello P