我是如何通过机器学习和高频交易赚到500K美元的

https://zhuanlan.zhihu.com/p/87398668

翻译一篇外文博客,觉得里面的一些东西现在仍有参考意义,分享一下。

整个系统一个人做的真的挺累的,刚开始是被标题吸引了,看到后面越来越觉得觉得工作量真的好大,而且是2009-2010年的时候。

作者的P&L看着相当耀眼啊,当然,有人怀疑~。

好玩的是,下面有人讨论作者用的只是优化算话和程序化交易,并不是ML,作者还在解释,哈哈~~。

还有就是做数字货币亏了的一个哥们说对自己帮助很大,哈哈。

水平不足,译的不太好,只能凑合看,英文阅读无障碍者可以点击下面链接看原文。

https://jspauld.com/post/35126549635/how-i-made-500k-with-machine-learning-and-hft?jspauld.com



这篇博客详细记录了我在2009-2010是如何通过高频交易赚到500k美元的。因为是完全独立的交易者而且此程序将不会再用,所以我很乐意毫无保留的进行分享。我的交易主要是Russel2000和DAX期货合约。

我坚信我成功的关键不在于复杂的金融公式而是在于算法的系统设计。这一设计将诸多简单的要素结合在了一起,并利用机器学习来优化,从而达到利润最大化。在此,你并不需要理解复杂的技术,因为我是完全凭直觉来设计程序的。(Andrew Ng’的神奇的机器学习课程已经不可以访问了,但你如果点击此链接的化,会看到我目前的主页——Course Talk,MOOC的概览)。

首先,我要表明我的成功并不是简单的幸运。我的程序每天交易1000-4000次(其中,一半是做多,一半是做空),而且从未涉足多次合约的仓位。这意味着,对于任意一个交易来说,随机幸运会根本靠不住。但事实是,我1天的的亏损从未超过2000美元,从未出现过亏损的月份。

我的交易背景

在建立我的自动交易程序之前,我是一个拥有2年手动交易经验的交易者。这可追溯到2001年,也就是电子交易的早期阶段,当时黄牛党有大量的获利机会。我觉得自己当时所在的事情就像是在特定边界内玩游戏或赌博一样。要成功意味着要快,要有纪律,有良好的模式识别的直觉。我大概赚了25万美元,还清我的助学贷款还有剩余。Win!

在接下来的5年里,我创立了2家公司,并顺便学习了编程。直到2008年底,我才重新开始交易。因为我的第一家公司出售获得的现金流动性不足,而交易有希望获得快钱,所以我开始了下一步行动。

交易API

在2008年,我使用名为T4的软件“手动”进行交易期货。我一直想要一些自定义的快捷键,所以发现T4有API后,我开始学习C语言并建立了自己的快捷键。

当用API试水后,很快我就有了更大的野心:我想教电脑来为我交易。API提供了市场数据流,并能够方便地将订单信息发给交易所。而我所做的仅仅是在这两者之间建立起一种关联的逻辑。

算法的设计

从一开始,我的目标就是要建立一个在实盘交易之前有理由相信能够赚钱的系统。为了完成这一目标,我需要建立一个能够尽可能准确模拟实盘交易的交易模拟框架。

在实盘模式时,需要通过API来更新市场信息,所以模拟盘需要读取市场更新的数据文件。为了完成数据收集,我建立了我的第一个简单的模拟系统,它能够API相联,并根据时间戳记录数据。最终,我用4周近期市场数据来训练和测试我的系统。

有了前面的基础工作后,剩下的任务就是如何建立一个可盈利的交易系统。最后我觉得我的算法应该分为2部分:

  1. 预测价格趋势
  2. 进行盈利操作

预测价格趋势

也许任何交易系统的重要组成部分之一便是预测价格趋势。我的也不例外。我将当前价格定义为inside bed和inside offered 均值,并将预测的价格限定在10秒中内。在整个交易日,我的算法需要时时刻刻地进行计算预测。

建立和优化指标

我创建了几个能够预测短期价格趋势的指标。每一个指标会返回正或负。如果大多数时候,指标返回值为正与市场上涨相对应,指标返回值为负和市场下跌相对应,则认为指标有效。

系统能够使我快速判断指标的预测能力,所以我能够尝试不同的指标进而找到有效的。许多指标是由多个变量生成的,所以我能够通过对结果不断比较来找到这些变量的最佳值。

相对简单和基于市场近期事件及相关证券的的指标是最有效的。

精确的价格趋势预测

用指标来预测价格趋势的上升或下降远远不够。我需要精确地知道上升或下降的力度由多大。我需要一个公式将指标值转化为价格的预测。

为了完成这一目标,我追踪了50个buckets中的预测价格变动,这取决于指标的下跌范围。对于每个bucket都有一个唯一的预测值,我在下面的excel表格中进行了展示。从图可以看出随着指标值的增大,价格变化的期望也在变大。

基于这样的图,我可以用一个公式来拟合曲线。刚开始时,我是手动来拟合曲线的,但我很快下了一个程序来自动完成。

注意并非所有的指标曲线的形状是一样的。还要注意,为了均匀的分布数据点,bockets是以对数方式分布的。最后要注意,负指标值(及与之相应的价格下行预测)需要反转并与正值相结合(我的算法上下完全相同)。

单个预测和指标相结合

需要考虑的一个重要事情是每个指标并非完全独立。不能将每个指标的预测简单进行加和。关键是要找出每个指标对已知预测值的额外价值。实施起来这并不难,但意味着曲线拟合多个变量的时候应该当心,因为一个指标的改变将会影响另一个指标的预测。

为了同时用所有指标进行“曲线拟合”,我设置优化器每次更新时尽向新预测曲线走30%,在几次更新后曲线趋于稳定。(这个地方没懂,个人感觉是窗口)??

现在每个指标都为价格预测贡献了自己的力量,我只需要将他们的预测进行简单的加和进而预测10秒钟内的价格趋势。

为什么仅价格预测还不够?

你可能认为凭借这种市场优势,我可大获全胜。但是,需要记住的是市场由出价和报价组成——它不仅仅是单边价格。高频交易的成功得益于获得美丽的价格,但这并不那么容易。

下面的因素将会使建立一个盈利的系统变得很难:

  • 每次交易我都要向交易所和经纪人支付佣金
  • 差价(最高出价和最低报价之间的差价)意味着如果我只是随意买入和卖出,我将会亏死
  • 大多数史称交易量是其他机器人,如果他们认为他们有统计套利优势的话他们才会和我交易
  • 看到一个报价并不保证我能买到它。当我的买单请求发送给交易所的时候很可能卖单已经取消了。
  • 作为一个小的市场参与者,我在交易速度上处于劣势。

建立一个完整的交易模拟系统

所以,虽然有了能够用来回测和优化指标的框架,但这远远不够,更需要一个能够让我优化和回测完整的交易模拟系统的框架,它可以让我发送交易指令并达成交易。所以,在接下来的例子中我优化了总的P&L(profit&Loss的简写),并在某种程度上均化了每个交易的P&L。

这将比较棘手,而且在在某种程度上来说无法做到精确建模,但我会尽力而为。 下面是我所做的一些必要改进:

  • 在模拟市场环境下,当订单发送后,我会模拟延迟时间。事实是当我的系统检测到一个卖单时并不意味着我能立刻买到它。在系统发送买单约20毫秒后,如果卖单尚未被其他买家买走,则可认为是一个可执行交易。这并不准确,因为实际的延迟时间是不连续的并且无法得到延迟报告。
  • 当我挂买单或卖单时,我必须查看交易执行流(可通过API获取),使用它们来估算何时会执行我的订单。 为此,我必须跟踪订单在队列中的位置。这是先进先出系统。)同样,我无法完美地做到这一点,但我做出我能做到的最好估计。

了为进一步优化我的交易模拟系统,我通过API获取了实盘交易日志,并和同一时期内我的模拟交易日志进行对比。使我的模拟交易系统达到了足够的精确度,对于无法精确的部分,至少使其统计分析结果是一致(in the metrics I thought important)。

进行盈利交易

有了订单模拟模型后,我现在可以在模拟模式下发送订单并查看模拟的损益表。 但是系统如何知道何时何地买卖?

价格走势的预测仅仅是万里长征第一步。我后续做的还有给5个level出价和报价做了一个评分系统,其中包括内部出价之上的一个级别(用于买单)和内部出价之下的一个级别(用于卖单)。

如果在特定价格水平下的评分高于某个阈值,意味着应该积极买入,低于阈值的话,则应该撤销买单。

基于此,我的系统在市场上出现一个出价然后立即将其取消的情况并不少见。

价格水平评分是基于以下因子计算的:

  • 价格趋势的预测
  • 存疑的价格水平(Inner levels meant greater price move predictions were required)
  • 在我的挂单前的合约数量(越少越好)
  • 在我的挂单后的合约数量(越多越好)

从本质上讲,这些因素有助于确定“安全”的竞标/报价位置。 单靠价格变动的预测是不够的,因为它不能说明以下事实:在下标时不会自动撮合成功-只有在有人卖给我的情况下,才能撮合成功进而成交。 事实上,当有人以一定价格卖给我时就改变了交易的统计赔率。

此步骤中使用的变量均经过了。除了额外对策略参考标准的损益进行优化外,其他优化方式与价格变动指标变量的优化方式完全相同。

我的程序所忽略的内容

当人进行交易时,由于受偏见和情绪的影响,很容易导致决策失误。当然,我想再次一一列举这些偏见。下面是我的系统所忽略的一些因素:

  • 持仓价格-在交易中,经常听到有人谈论多头或空头的价格的,好像这会影响他们未来的决策一样。尽管这作为降低风险策略的一部分具有一定的有效性,但实际上与市场事件的未来进程无关。 因此,我的程序完全忽略了此信息。 这与忽略沉没成本的概念相同。
  • 卖空与退出多头-通常,交易者将用不同的标准来确定卖出多头和卖空的位置。但是,从算法角度来看,没有理由进行区分。 如果我的算法预期价格向下,卖空是个好主意,无论当前是多头,空头还是持平。
  • “加倍”策略-这是一种常见策略,交易者会在原始交易不利于他们的情况下购买更多股票。 这样一来,平均购买价格就会降低,这意味着当股票价格掉头向上的时候就会立刻赚钱(如果有向上的时刻的话)。 在我看来,除非您是沃伦·巴菲特(Warren Buffet),否则这实际上是一个可怕的策略。你会自欺欺人的认为自己做的挺好,毕竟大部分的持仓能赚钱。 问题是,如果股票价格没反弹的话,你亏的会更多。 另一个影响是,这使得很难判断是策略优势或只是幸运。 能够检测并确认我的程序确实具有优势也是重要目标之一。

风险控制

不管是从什么时候开始交易,不管当前是空头还是多头,我的算法都是用相同的方式做出决策,所以除了一些大的盈利,偶尔会有一些大的亏损。但是,你不要认为没有任何风险管理。

为了管理风险,我一次强制执行2个合约的最大头寸规模,偶尔在交易量旺盛的时候增加。为了防止市场背景发生较大变化或软件中的bug,我还设置了每日最大损失限额。这些限制条件加在了我的程序中,同时也在后端也通过我的经纪人来把关。不过碰巧的是,我从未遇到任何重大问题。

跑算法

从我开始编写程序的那一刻起,我花了大约6个月的时间才使它成功运行并盈利。实际上,大多数时间都是在学习一门新的编程语言。在改进程序的过程中,我发现接下来四个月的每个月都有增加的利润。

每周,我都会根据前4周的数据对模型进行重新训练。在捕获最近的市场行为趋势与确保算法有足够的数据来建立有意义的模型之间达成了较好的平衡。随着训练越来越耗时,我将其拆分并用Amazon EC2的8个虚拟机运行。然后将结果合并到我的本地计算机上。

我的交易成绩最好的时候是2009年10月,当时我赚了近10万。此后,尽管每个月的利润都减少了,但我仍继续在接下来的四个月中努力改进我的程序。不幸的是,到现在为止,我已黔驴技穷,因为我尝试过的任何努力似乎都无济于事。

由于无法进行改进和缺乏成长感,我开始思考新的方向。我给6家不同的高频交易公司发送了电子邮件,以查看他们是否有兴趣购买我的软件并雇用我为他们工作。没有人回答。我有一些新的创业想法想做,所以不再跟进。

更新-我将此内容发布在了《黑客新闻》上,引起了很多关注。 我只想说,我现在不主张任何人试图做这样的事情。您将需要一个拥有很多经验的非常聪明的团队,才能有获胜的希望。即使我这样做,我也相信个人很少能取得成功(尽管我听说过其他人。)

页面顶部有一条评论提到“操纵统计数据”,并将我称为“零售投资者”,量化指标将“高兴地摘下来”。 这是一个很不幸的评论,根本不是基于事实的。 除了这些,还有一些有趣的评论:http://news.ycombinator.com/item?id=4748624

作者还发布了后续常见问题解答,回答了有关此帖子的一些问题。

原文地址:https://www.cnblogs.com/dhcn/p/12105067.html

时间: 2024-08-03 02:54:30

我是如何通过机器学习和高频交易赚到500K美元的的相关文章

高频交易如何与毫秒相争

艾科朗克AcceleCom https://mp.weixin.qq.com/s/F0C6VVAq-j7CuzeuTx6k1g 4月4日 文章选自好奇心日报 眨眼 0.4 秒,常被形容快,但有家公司花了 1400 万美元,就为了让自己再快 0.07 毫秒( 0.00007 秒),5700 分之一眨眼的时间. Jump Trading 公司在全球最大期货交易所芝加哥商品交易所(CME)数据中心对面,买了一块 12 万平方米的空地.买了之后,他们没盖楼炒房,也不是为了风水,就是架微波通信基站,用于第

牛津王宁:大数据和量化金融—从机器交易 高频交易到大数据交易

牛津王宁:大数据和量化金融—从机器交易 高频交易到大数据交易 很高兴来到这里,我是第二次参加这种会议了,我这次是以第二个身份来的,就是牛津大学NIE金融大数据实验室,代表实验室过来,今天主要分享一下我们实验室做的关于量化金融的思考跟案例. 首先简单介绍一下我们的大数据NIE实验室,是一个全新的实验室,是2013年11月正式成立的,开幕仪式是牛津大学的校长哈密尔顿先生,还有香港的FDK,就是香港金融数据技术有限公司的总裁镍反其(音)先生同时自主了我们这个实验室.我们实验室的定位是世界主要大学的第一

高频交易已经竞争到纳秒级!!!(赠送HFT的18篇论文+15本书籍+9篇研报)

正文 高频交易是一种更频繁地用于快速启动金融交易的方法.这种由高速发送订单组成的自动交易形式在美国过去十年中经历了强劲的增长.Tabb Group的数据显示,高频交易目前约占美国贸易额的55%,欧洲贸易额的近40%. 高频交易(HFT,high frequency trading)中现有的一些知名投资银行.机构交易和对冲基金维权宣传机构包括Virtu Financial.KCG.DRW trading.Optiver.Tower Research Capital.Flow Traders.Hud

追踪高频交易——华尔街猎狼者(中)

如今,他和加拿大皇家银行也开始向投资者出售一个工具:程序员Zhang编写的小程序,能够延迟发给交易平台的订单.有了它,和Katsuyama一样的交易员就可以像从前一样随心所欲地下单,他们的屏幕重新变得可信起来.Katsuyama的团队给它起了一个威风凛凛的名字:“索尔”(Thor,雷神之锤).Katsuyama 说:“当我听到‘索尔’变成一个动词时,我就明白我们的方向对路了.我听到一个交易员大吼:‘Thor it’!” 另一件让Katsuyama有同样感觉的是他与几位知名基金经理的谈话.他和Pa

比特币高频交易的策略分析

许多比特币的交易平台实行零交易费,并提供交易的API接口,为实现比特币的高频交易提供了有利条件. 如何进行比特币高频交易?下面提出一个简单的交易模型. 1.根据自己的资金实力,决定每次交易的最小单位,下面以一个比特币为交易单位,所以至少要有十个比特币的交易款. 2.每5分钟决定交易一次,决定是:不交易.买入一个.卖出一个. 3.统计5分钟的买卖盘,足够买卖一个比特币的最低卖出价和最高买入价. 4.首次交易时假设已经有五个比特币,和当前市价足够买五个以上的资金. 5.第一个5分钟后,必然发生一笔按

防骗 从硬件角度看真正的 HFT 高频交易公司应该是什么样的

防骗 从硬件角度看真正的高频交易公司应该是什么样的 本人供职于一家澳大利亚的公司(www.xenon.com.au).我们公司专门生产用于 HTF 高频交易的计算机.我们公司每年出货上万台高频交易计算机给包括IMC在内的各类HTF公司,因此我也算是比较了解. 首先,一个好的HFT项目,在交易方面的确可以做到稳赚不赔,无论涨跌.但是这个稳赚不赔是指交易本身,而不是指项目本身.对于一个项目,硬件软件的折旧,电费,网费以及数据中心的租用费用都需要算作实际运营成本的一部分.所以一笔交易所赚的钱能否超过运

干货:高频交易在怎么挣钱?

https://zhuanlan.zhihu.com/p/25110977 >>>>写在前面 2016年7月30日,交易门的主角,高频交易员李奥应香港受交通大学香港校友总会之邀,做了一场题为<量化金融与高频交易>的主题分享会.征得李奥同意,交易门独家首发这次分享会的内容.本讲稿经过李奥修订,谢谢李奥. 我讲的内容会偏IT一点,因为一直都是在做IT.因为我没有正规学过数学和统计,所以可能看起来不那么正规,有一些小道消息和自己做交易以后的经验. 我会讲四个类型的交易策略,再

追踪高频交易——华尔街猎狼者(下)

2011年5月,Katsuyama团队的成员,Ronan Ryan.Rob Park等人围坐在一桌,周围堆满了<华尔街日报>主办的“科技创新奖”历届获奖者材料.加拿大皇家银行的市场部门在该奖截止前几天通知他们,建议他们将研究成果拿去参赛.于是他们正冥思苦想,看看自己以哪种类型的成果报名,才能让Thor一鸣惊人.但几经考虑后,Park发现:“没有适合我们类别的奖项.” Katsuyama也表示:“这很尴尬.我们似乎不适合任何一类奖,我觉得我们只能申请‘其他’类奖项了.” 大家迷茫了一阵后,Par

比特币高频交易的实战简易版

将比特币高频交易简单化,以下的模式可以一战. 假设价格中轴线为2250元,有5个比特币和11250元资金,可以采取以下方式进行. 先下10个主单,成交后在10元的差价出挂出副单,副单成交后再挂出主单,循环进行: 1.先在2390埋一个卖单,成交后马上在2380埋一个买单,成交后再在2390埋一个卖单,依次循环. 2.先在2340埋一个卖单,成交后马上在2330埋一个买单,成交后再在2340埋一个卖单,依次循环. 3.先在2300埋一个卖单,成交后马上在2290埋一个买单,成交后再在2300埋一个