立即开始
2015年3月3日,星期二,上午10点左右。用predict API工具针对几种股票的收盘数据创建了四个预测任务:
predict new -n "stock_1A0001_prevision_20150303" -f ../history/1A0001.txt -k "股票","上证指数","股指","大盘"
predict new -n "stock_300076_prevision_20150303" -f ../history/300076.txt -k "300076","GQY视讯"
predict new -n "stock_300079_prevision_20150303" -f ../history/300079.txt -k "300079","数码视讯"
predict new -n "stock_300080_prevision_20150303" -f ../history/300080.txt -k "300080","新大新材"
预测结果
上证指数 1A0001
2015/03/03 3341.79
2015/03/04 3350.05
2015/03/05 3347.32
2015/03/06 3351.79
2015/03/07 3357.8
2015/03/08 3363.81
2015/03/09 3366.52
GQY视讯 300076
2015/03/03 17.04
2015/03/04 16.88
2015/03/05 16.85
2015/03/06 16.87
2015/03/07 16.79
2015/03/08 16.77
2015/03/09 16.79
数码视讯 300079
2015/03/03 16.81
2015/03/04 16.72
2015/03/05 16.72
2015/03/06 16.9
2015/03/07 16.85
2015/03/08 16.85
2015/03/09 17.01
新大新材 300080
2015/03/03 9.32
2015/03/04 9.33
2015/03/05 9.33
2015/03/06 9.33
2015/03/07 9.34
2015/03/08 9.34
2015/03/09 9.34
预测与实际对比
因为与实际出入甚大,也就没有再多观察几天的价值。只取3月3日的收盘数据作对比:
名称 预测值 实际值
上证指数 1A0001 3341.79 3263.05
GQY视讯 300076 17.04 16.34
数码视讯 300079 16.81 15.75
新大新材 300080 9.32 9.22
问:怎么如此不靠谱?
答:看来做预测没那么容易。
“啤酒和尿不湿放在一起,这才相配”
关键字
百度没有理由把一个完全不靠谱的东西放出来让大家浪费时间。我们已经听闻了2014世界杯的预测传奇还有景区高峰人流预测的故事。
容我给出这次不准确的两点理由:
- 时间颗粒度过粗
股市情绪有短中长之分,以天作为颗粒去预测以分钟作为颗粒在变幻的心情,可能大了点。将来百度预测支持以周为颗粒时,恐怕结果还更准确一些。
- 关键字的选择不当
对于上证指数,我选择了"股票","上证指数","股指","大盘"这几个关键词。人们在对第二天及往后走势不看好的时候做什么?到百度去搜”大盘“,”股票“?可能是去喝闷酒吧。“闷酒“,对了这才是我们要找的”关键字“。当然这个数据是线下的,百度不知道,即收集比较困难也无必要。那么线上的,尤其是在百度上会发生什么?好吧,“银行利率”,“余额宝利息”,我同意。还有啥?好吧,“泰国旅游”,“自驾游”,我也同意。我想,这么天马行空的给定条件,应该也是百度没有一个人偷偷地玩,而把这个玩具放出来让大家一起来玩的原因之一吧。
周末问题
问:我看到你3月7号和8号也有数据并且有的还是在变的,可是这两天是周末,休市啊。怎么回事?
答:我一开始的历史数据上是没有周末和节假日数据的,结果是报错说缺失太多数据,任务提交失败。然后把周末和节假日股市休市的数据都设为了0,没想到,由于2月28日和3月1日是周末数据为0,导致预测结果一路下探,连负数都出现了!我的结论是,在以日为颗粒度作预测时,业务必须是连续,不出现大量规律不规律的中断,没有数据的情况。以天为单位时百度预测并没有把业务在周末可能的中断作为一个假设。第三次,我把节假日的数据顺延之前最后一天的数据,一般是周五的数据复制给周六周日。很自然的,周四周五周六的百度关键字搜索量的变化等因素都可能导致程序认为周末的这个值也是在变化的。
其他
我竟然选择了股票这个领域,真是利令智昏,想发财想多了。应该选黄金更妥当些。
哪些行业或数据更适合用百度预测,这是一个问题。百度已经告诉我们景区人流,交通方面,足球(这个还真有点玄乎,跟电影票房一样,参考黄金时代预测失败的例子),流行病,酒店客房订量这些方面比较准确。你看,一个特点,这些业务用百度搜索的量都很大。其他的,循此原理去发掘吧。反正你今年会不会有财运,是测不到的,但刘德华的兴许可以。