【转】用Python写了个金融数据爬虫,半小时干了全组一周的工作量

用Python写了个金融数据爬虫,半小时干了全组一周的工作量

原创kk12345677 最后发布于2019-08-21 16:59:54 阅读数 1652 收藏
展开
最近,越来越多的研究员、基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么?

事实上在2019年,这已经不是一个问题了。Python已成为国内很多顶级投行、基金、咨询等泛金融、商科领域的必备技能。中金公司、银河证券、南方基金、银华基金在招聘分析师岗位时,纷纷要求熟练掌握Python数据分析技能。

Excel我已经用的很好了,为什么还要学Python?

我们都知道,无论是行业研究员、基金经理还是审计人员,工作的核心基本都是频繁处理大量数据。之前,分析师们依赖的武器就是Excel。但随着数据量的增多和更易用更强大工具的出现,Excel越来越跟不上时代了。

正如小编的一个研究员朋友所说:Excel当然非常强大,并且适合新手入门理解数据。但后期有很大的缺陷。**数据量较大时,Excel处理数据效率低、容易死,往往一等就是半个小时

更重要的是,Excel做复杂的数据处理和计算时,需要手工操作、费时费力,而且**不能复用,下次用还得重新做一遍!,极大浪费了时间。Excel当然也有VBA这样的数据处理工具,但其语言晦涩难懂,身边没有一个人会用。

你能看懂这个公式的意思么,Excel编程晦涩难懂可见一斑

Python正是新一代的数据处理工具,对于每天都需要处理海量数据的分析师,Python简直就是解放生产力的救命稻草。

而且,运用Python强大的网页处理能力进行爬虫,可以为我们的数据研究提供很多便捷。

比如,我们想从中债登官网获取某债券借券存量的数据,然而,这个数在中债登上只能按日查询。如果我们想获取这只债券近一年的数据,必须重复打开中债登网、选券、改日期、点击查询、记录下结果这个操作200多次。

很过机构之前这样的工作都是交给实习生干,但是现在,只需要一个Python爬虫,十几分钟就可以解决这个问题。

不仅分析师们纷纷用上Python,现在大所的审计师在处理大量审计底稿的时候,也会使用Python 实现底稿的批量化自动处理。

审计师在处理底稿时经常面临这样的问题:客户企业不同部门财务软件版本各异,导致会计科目设置及会计处理方式不一致,此时如果用Excel人工修改,则需要耗费大量的时间。而如果用Python批量处理,基本上都是十几分钟的事。

Python强大的绘图功能,让数据导入、分析、出结果、绘图可以一次性在程序里完成,可以直接把分析/回测结果视觉化呈现出来。

正因为如此,现在国内很多金融机构在招聘中已经添加了对Python能力的要求。我们也从各大招聘网站,摘录了一些金融行业核心热门职位的技能要求:

事实上,无论是Python还是量化、大数据、Fintech,这些关键词在过去几年中热度不断提升,网络上各种资源也是层出不穷。
————————————————
版权声明:本文为CSDN博主「kk12345677」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/KK12345677/article/details/99975389

原文地址:https://www.cnblogs.com/nice-moon/p/12409057.html

时间: 2024-09-29 19:22:24

【转】用Python写了个金融数据爬虫,半小时干了全组一周的工作量的相关文章

python写的简单有效的爬虫代码

python写的简单有效的爬虫代码 by 伍雪颖 import re import urllib def getHtml(url): html = urllib.urlopen(url) scode = html.read() return scode def getImage(source): reg = r'src="(.*?\.jpg)"' imgre = re.compile(reg) images = re.findall(imgre,source) x = 0 for i

使用Python写的第一个网络爬虫程序

今天尝试使用python写一个网络爬虫代码,主要是想访问某个网站,从中选取感兴趣的信息,并将信息按照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,由于对python不熟悉,把代码也粘贴在下面. 1, 使用url打开网站网页 import urllib2 data = urllib2.urlopen(string_full_link).read().decode('utf8') print data 2,使用正则表达式匹配 import re #一般的英文匹配 r

python python 入门学习之网页数据爬虫cnbeta文章保存

需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/index.htm?page=1,咱们需要抓取的是前5页就行了.代码如下: #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2,re,time,json import sys from bs4 import BeautifulSoup r

python python 入门学习之网页数据爬虫搜狐汽车数据库

自己从事的是汽车行业,所以首先要做的第一个程序是抓取搜狐汽车的销量数据库(http://db.auto.sohu.com/cxdata/): 数据库提供了07年至今的汽车月销量,每个车型对应一个xml数据,比如速腾的销量:http://db.auto.sohu.com/xml/sales/model/model1004sales.xml 现在需要做的是遍历所有车型,以这个格式保存 ‘车型----日期----销量’. #!/usr/bin/python # -*- coding: utf-8 -*

随手用python写一个下载源码爬虫试试

最近在研读jdk源码,网上找了下资源,发现都不完整. 后来新发现了一个有完整源码的地方,主要包括了java,c,c++的东西,装逼需要,就想拿来玩玩.但是,找了好多种下载打开的方式,发现都不对.于是,我随手写了python爬虫,把他搞定. 1. 思路分析 1.1. 目标地址:http://hg.openjdk.java.net/jdk8u/jdk8u/jdk/file/dddb1b026323/,打开后先自己看下,是否符合自己的需求: 1.2. 分析此结构下主要有两种形式,一是目录文件,二是最终

用Python写了个简单小爬虫

1 #coding: utf-8 2 3 import requests,urllib2,urlparse,time,sys 4 from bs4 import BeautifulSoup 5 6 #获取百度url wd查询关键子 pn第几页 rn 每页多少条 最大50条 7 #getbaidu.py 关键字 爬取页数 每页数量 8 #getbaidu.py example 10 50 9 #百度特性 每页显示条数为10 20 30类型的整数 10 11 12 type = sys.getfil

python写的的简单的爬虫小程序

import re import urllib def getHtml(url): page=urllib.urlopen(url) html=page.read() return html def getpic(html): s=r'src="(.*?\.jpg)" pic_ext' piclist=re.findall(s,html) x=0 for imgurl in piclist: urllib.urlretrieve(imgurl,'%d.jpg'%x) x=x+1 htm

Python写了一个WC命令

Python 写了一个收发数据用的一个wc命令,更多学习交流请加365534424 ,直接上代码 #!/usr/bin/env python # coding:utf-8 # author: 51reboot.com # QQ群:365534424 from optparse import OptionParser import os class Wc(object):     def __init__(self):         self.n = 0              # line 

python的flex服务端数据接口开发

python的flex服务端数据接口开发 python 如果给flex提供服务端,需要提供一个网关和一个可供客户端(flex)调用的类.这方面我更加推荐用twisted来写这个网关,因为twisted有很好的异步机制. 下面的我写的一个简单的验证用户的python服务端: ______________________________DBServer.py # Copyright (c) 2009-2010 The Newjh Project."""@author: Roy@s