我说我厌恶重复,甚至鄙视那些机关事业单位重复的,没有创造性日复一日的工作。我也很讨厌Dirty work, 肯定不会去校正词典,或者是做语言标注。我讲两个故事:
第一件事情:我编程是为了避免重复劳动,但是我把大量的时间花在哪里了呢?不是深入核心,而是横向扩展。比如,开发了一个新浪微博的API接口,那么我本能的就会(甚至很愿意)去做其他微博的接口,而且并没有人要求我,也并没有什么实际的需求。为什么?因为横向扩展不费脑子,可能就是花点时间,容易看上去有“工作量”。让我觉得,哦哦,今天晚上又搞定了“腾讯微博”!好开心!
于是,我的类库就是这样横向扩展的产物,真正涉及到高精尖的地方并不多,多数都是处于同一难度“平面”的任务(虽然这个平面可能比一些人要深一些,真的就一些)。所以虽然简历上貌似做了很多事情,但本质上是重复的,和你所谓的“机关事业”的重复本质上是一样的,仅仅是表现形式不同而已。
时过境迁,不仅腾讯微博没落了,新浪微博也没落了,你的类库,留在那里,无人问津。回想起来,到底什么是重复,什么是创新呢?
第二件事情,我说我讨厌校正词典,讨厌dirty work,可是我的上司和另外一个巨牛无比的朋友,都很奇怪我为什么有这个想法。他们看来,这些语料库和词典,比程序本身还要赚钱,几十万已经是很便宜了。他们说,好的系统,算法甚至都是次要的,数据才是核心。哪里来好的数据,要么花大价钱去买,要么就需要大量的dirty work。他们还说,“你知道吗?我们当时自己都花了好多的时间来标注中文语料!” 我惊呆了。一份好的词典和语料,其价值自不必说,去校正语料,可能比写一堆代码写的还有意义,因为真的是“造福社会,造福科研”。
单词是一个个的背出来的,知识是一条条的积累出来的,经验是无数次摸爬滚打建立起来的,哪有生出来就是天才的牛人。“拒绝重复”这件事情,也许真的需要我去仔细想想,重新定义一下了。