最近论文实验进行的非常的不顺利,一方面是实验聚类的效果十分的差,另一方面是做大数据的实验对计算机的性能要求很高,非常的耗费内存,每当矩阵的维度大于3000的时候,整个计算机就像中了魔法似的,像蜗牛一样慢。这样用小数据做实验效果非常的差,用大数据做实验计算机又跑不动,搞的自己很愚昧,不知道是自己数据集的问题,还是聚类算法的问题。
通过读论文,做实验,让自己学会了坚忍,深刻地理解了用机器学习处理大规模数据所带来的挑战,以及明白了无论做什么事情都要上心。
普卢塔克说,萨特斯为了告诉他的士兵坚忍和智慧比蛮力更重要的道理,把两匹马带到他们面前,然后让两个人拔光马的尾毛。一个人是魁梧的大力士,他抓住尾巴拔了又拔,但一点效果也没有;另一个人是一个精明的、长相狡黠的裁缝,他微笑着,每次拔掉一根毛,很快就把尾巴把得光秃秃的。
当然,这个故事每个人都有自己的理解。我自己学到的是裁缝的心态,面对困难的事情,能够认准目标,耐住性子,一步一步往前走。不怕慢,只怕站,以及欲速则不达的道理。
面对实验的挑战,自己精疲力尽。也许是自己实验的方法有问题,思路错了,现在最需要的就是静下心来,回顾自己以前读过的论文,再看一些新的论文,整理一下思路,重新出发。如果实在不行,那么开始学习集群,多线程,分布式和并行计算,搭建一个Hadoop集群进行实验。山不转水转,无论怎样,实验还是要做的,论文还是要发的。
从现在开始,自己对待论文的态度也要转变,以前自己认为论文不屑一顾,纯粹是在浪费时间,并且毫无价值可言。其实,整个生活就像一面镜子,你是什么样子的,你看到的就是什么样子的。科学只不过是经过整理和组织的常识而已。只有经过实践,然后整理自己的思想,最后以论文的形式展现出来,自己的思想才能够为更多的人所熟知,才能够为后来的人所继承,自己的思想才能够得到延续,因为写在沙地上的论文,是得不到延续的,即使再有价值,一阵微风吹过,一切美好将不再存在。
关于论文的形式与内容,也是仁者见仁,智者见智。总之,形式与内容相辅相成,一切的形式都是为内容服务的。写论文可以用Word,当然最好还是用LaTeX。要踏实,要认真,要纯粹,要简单。
既然决定发表论文,那么就要发表高质量的论文,而不是垃圾,这样至少能够对得起自己的付出,不要因为走的太远,而忘记了当初我们为什么出发。
“我常常说,当你对所讲的内容能够进行度量并能够用数字来表达的时候,证明你对这些内容是有所了解的。如果你不能用数字来表达,表明你的认识是不完整的,也是无法令人满意的:无论它是什么东西,它也许正处于知识的初级阶段,但在你的思想中,几乎从没把它上升到一个科学的高度。”
我对这句话是深有感触的,只有把现实世界,经过数学建模之后,才能够存储到计算机世界的,然后才能进行操作以及其它的什么事情。总之,数学的重要性是不言而喻的。
从现在开始,自己一边做实验,一边读论文以及相关的书籍(自己的方向是基于社交网络的推荐算法),如下所示:
- 《Recommender Systems Handbook》
- 《Recommender Systems for Social Tagging Systems》
- 《推荐系统》
- 《推荐系统实战》
- 《网络科学:原理与应用》
- 《社会计算:社区发现和社会媒体挖掘》
- 《数学分析》
- 《线性代数》
- 《概率论》
- 《统计学》
- 《随机过程》
- 《离散数学》
- 《组合数学》
- 《具体数学》
无论怎样,不得不面对的一个问题就是工作的问题,相信自己一定能够处理好论文与工作之间的关系,鱼和熊掌可以兼得。具体规划如下所示:
1、上午
数学和经典算法;英语(小数据分析)
2、下午
读论文;做实验(论文战略)
3、晚上
数据算法;英语(大数据分析)
总之,工具上精通Java、Python,SPSS和MySQL。理论上,重点学习社交网络,推荐系统,数据挖掘和机器学习。郁闷的心情只能在前行中得到缓解,排除一切干扰,一直往前走,所有的问题都必将迎刃而解。至少相信上帝是公平的,相信上帝是不会抛弃任何一个肯努力的孩子的,精诚所至,金石为开。博客容易,论文不易,且写且行。
论文战略