量化投资-数据挖掘技术与实践

      定义:量化投资就是利用数学、信息学、统计学等领域的技术对投资对象进行量化分析和优化,从而进行精确投资的行为

  1. 特点:
    1.    基于市场是非有效的或弱有效的基础。
    2.    纪律性:绝对相信模型。
    3.    系统性:多层次、多角度、多数据。
    4.    妥善运用套利的思想。找估值洼地。低估买,高估卖。
    5.    靠概率取胜。
  2. 核心----量化模型
    1.   多因子选股模型:打分法、回归法
    2.   SVM择时模型

以上基础知识为博客申请以前所学,每日分享一点。

以下内容为今日所学:

  首先,我使用了python作为我的数据分析语言。这里简单说一下我的理由,

  1.  虽然我的参考书《量化投资--数据挖掘技术与实践》是基于matlab,但是matlab虽然相比于python有一些作图上的优势,但常用的基本数据分析能力二者是相差不大的,而且python语法简单易懂。
  2.     python使用人数是多余matlab的。这里不要去特立独行,使用的人多代表它的错误更少,功能也更齐全。
  3.    python节省了我的时间成本,matlab我需要从头了解。

      所以我基于python,今天主要分享一些获取数据的方法:

  python这边有许多接口都可以获得金融相关数据,当然其他数据应该也有,墨默并没有去了解他们。

  这些股市相关数据的接口封装在pandas内部,有的朋友们可能了解过,之前是在pandas.io.data里面封装的,但是现在早已经换地方了,再次通过pandas.io.data导入会报错。

  现在我们可以在 pandas_datareader.data 导入:

1 import pandas_datareader.data as web

      在这里我们以在雅虎中读取数据为例:

 代码十分简单:

1 start = datetime.datetime(2019,8,1)   #开始时间
2 end = datetime.date.today()               #结束时间
3
4 apple = web.DataReader("AAPL","yahoo",start,end)  #在雅虎获取苹果公司(AAPL)
5                                                                                   #2019年8月1日以来的数据
6 type(apple)                                     #查看数据类型:pandas.core.frame.DataFrame
7 apple.head()                                       #打印前5行代码
8
9 apple.to_csv("url/apple.csv")            #将数据存储到名为apple 的csv文件

运行结果:

apple.csv:

 对于数据分析而言可视化是必不可少的,毕竟我们在数据预处理阶段不能拿着一张海量数据的表去看那一条数据有问题……

我简单的做了一条折线图:

1 import matplotlib.pyplot as pl
2 %pylab inline
3
4 pylab.rcParams[‘figure.figsize‘] = (15,9)               #定义画布大小
5 apple.plot(grid = True)                                          #

除了雅虎之外我们的python还可以通过tushare获取数据

Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,Tushare返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumPy/Matplotlib进行数据分析和可视化。

 1 import tushare as ts
 2 import matplotlib.pyplot as plt
 3 import mpl_finance as mpf
 4 import numpy as np
 5
 6 data = ts.get_k_data(‘600519‘, ktype=‘D‘, autype=‘qfq‘, start=‘2017-09-17‘, end=‘‘)                                       #数据获取
 7
 8 prices = data[[‘open‘, ‘high‘, ‘low‘, ‘close‘]]
 9 dates = data[‘date‘]
10
11 candleData = np.column_stack([list(range(len(dates))), prices])
12
13 fig = plt.figure(figsize=(10, 6))                 #画布
14 ax = fig.add_axes([0.1, 0.3, 0.8, 0.6])
15
16 mpf.candlestick_ohlc(ax, candleData, width=0.5, colorup=‘r‘, colordown=‘b‘)
17
18 plt.show()#展示

运行结果:

今天的分享暂且到这里,明天持续更新!

原文地址:https://www.cnblogs.com/ambdyx/p/11625071.html

时间: 2024-11-06 03:51:46

量化投资-数据挖掘技术与实践的相关文章

量化投资:数据挖掘技术与实践(MATLAB版)——互动出版网

这篇是计算机类的优质推荐>>>><量化投资:数据挖掘技术与实践(MATLAB版)> 编辑推荐 本书的读者对象为从事投资.数据挖掘.数据分析.数据管理工作的专业人士:金融.经济.管理.统计等专业的教师和学生:希望学习MATLAB的广大科研人员.学者和工程技术人员. 内容简介 全书内容分为三篇.第一篇(基础篇)主要介绍数据挖掘与量化投资的关系,以及数据挖掘的概念.实现过程.主要内容.主要工具等内容.第二篇(技术篇)系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用,主

数据挖掘与机器学习——weka应用技术与实践

第一章 weka介绍 1.1 weka简介 weka是怀卡托智分析环境(Waikato Environment for Knowledge Analysis)的英文缩写,官方网址为:<http://www.cs.waikato.ac.nz/ml/weka/>,在该网站可以免费下载可运行软件和代码,还可以获得说明文档.常见问题解答.数据集和其他文献等资源. 1.1.1 Weka的历史 团队宣称:我们的目标是要建立最先进的软件开发机器学习技术,并将其应用于解决现实世界的数据挖掘问题.目标:是机器学

Python金融应用编程(数据分析、定价与量化投资)

近年来,金融领域的量化分析越来越受到理论界与实务界的重视,量化分析的技术也取得了较大的进展,成为备受关注的一个热点领域.所谓金融量化,就是将金融分析理论与计算机编程技术相结合,更为有效的利用现代计算技术实现准确的金融资产定价以及交易机会的发现.量化分析目前已经涉及到金融领域的方方面面,包括基础和衍生金融资产定价.风险管理.量化投资等.随着大数据技术的发展,量化分析还逐步与大数据结合在一起,对海量金融数据实现有效和快速的运算与处理. 在量化金融的时代,选用一种合适的编程语言对于金融模型的实现是至关

数据挖掘技术在税务系统中的深度应用

随着计算机技术的发展和数据挖掘应用的逐渐成熟,数据挖掘技术引起了越来越多的行业的重视.在国外,政府应用数据挖掘技术发现欺诈行为已经有了30多年的历史,如今,中国的各类政府机关在信息化的进程中也都不约而同的将数据挖掘应用提到了议事日程上来.税务征管需要以更新.更便捷.更有效的方法,对大量的征管数据进行分析.提取.挖掘其隐藏信息数据中的潜能.本文着重介绍了通过数据挖掘技术如何实现纳税评估选案,从而降低征管成本,提高管理效果.    一.税务征管发展基本状况我国和许多起他国家一样每年都会因为纳税人的偷

如何学习量化投资

昨天有位大三学金融的同学留言询问如何学习.看哪些书,以便日后进入量化投资行业.我写了些建议,结果太长无法直接回复给他.熊大建议,干脆整成一篇推文,于是就有了这个番外篇. 如何学习量化投资,如何进入这个行业,每个人的方法和路径都会有不同,我谨以我的些许经验和理解做一些建议,希望有用. 首先,也是最重要的,量化投资也是投资,只不过是用量化思维分析投资问题,用量化工具寻找答案.所以,要学习量化投资,最主要的有两方面的学习:一是学习投资相关的“领域知识”(domain knowledge):二是学习相关

私募为何大都在做量化投资,有哪些优势?

量化投资已经成为私募基金发展最快的策略.逐步从定性投资向量化投资转型,是私募基金等机构投资者的不二选择. 什么是量化投资 量化投资概念具有狭义和广义两个不同的含义. 通常意义的量化投资指狭义量化投资,是指使用数量化方法做出投资决策,实现既定投资策略的投资方式.量化投资区别于定性投资的鲜明特征是使用数学模型做出投资决策,往往但非必然由计算机程序批量发出交易指令. 从广义角度看,量化投资及其分析方法已经有100余年历史,在投资过程中的作用无处不在,日趋广泛深入. 纵观全球投资学发展史,就是各种量化投

【数据挖掘技术】关联规则(Apriori算法)

一.关联规则中的频繁模式   关联规则(Association Rule)是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出: [频繁模式]: Frequent Pattern,即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称为关联(Association). 二.应用关联规则的经典案例:沃尔玛超市中“啤酒和尿不湿”的经典营销案例 购物篮分析(Basket Analysis):通

【数据挖掘技术】神经网络模型

神经网络模型 一.神经网络模型 对网络模型的研究始于20世纪40年代,作为一门交叉学科,它是人类基于对其大脑神经认识的基础上,人工构造实现某种功能的网络模型.经过将近70年的发展,神经网络模型已成为机器学习的典型代表,它不依照任何概率分布,而是模仿人脑功能进行抽象运算.神经网络(Neutral Network)是通过数学算法来模仿人脑思维的,它是数据挖掘中机器学习的典型代表.神经网络是人脑的抽象计算模型,我们知道人脑中有数以百亿个神经元(人脑处理信息的微单元),这些神经元之间相互连接,是的人的大

【数据挖掘技术】聚类分析

聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”.针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分.经过划分后,每个群组内部个对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度. 聚类技术一方面本身就是一种模型技术,通过有效聚类后的结果常常可以直接指导落地应用实践:另一方面聚类技术又常常作为数据分析过程中前期进行数据摸底和数据清洗.数据整理(数据转换)的工具,在实践应用中有多样性.多元性等特点. 一.聚类分析的