不论是做数据挖掘也好,数据分析,数据可视化也罢,就是把混乱杂糅的数据理清给人看。我经常觉得,如果不能把自己身边的数据“整理清楚”,又怎敢去折腾什么大数据呢?由于一直以来的习惯,我特别热衷于对知识、文件分类整理。例如电脑桌面一定要用fences整理;一定要建立文件夹归纳 chrome浏览器的书签;收藏的电影动画漫画先放到暂存文件夹里,然后一定要归纳到不同的文件夹里;如此种种。虽然会多花一点时间,但是当我想要找一个我整理过的东西,经常能很快就能找到,而不会说“我似乎收藏过,只是不知道扔到硬盘的哪个角落了”。
但是对于现在文件系统中的以建立文件夹为中心的树形分类我并不满意。因为我经常会遇到这样的问题:一部电影,即属于动作片,又属于布鲁斯威利斯的作品,还是一个电影系列——那么我是应该按照影片类型来划分文件夹,还是按照演员、电影系列来划分?不论哪种划分,对我都是有意义的,这反映了寻找文件的不同路径需求。然而,问题在于一旦采用了一种划分模式来建立树形目录,那么用其他模式来搜寻文件的效率就会大大下降。
不过在web上,这个问题早就被解决了。那就是用tag(标签)系统。例如在wordpress里个人用户可以给一篇文章加上不同的标签,每个标签相当于一种分类方式。还有像插画网站www.pixiv.net,所有人共同维护标签体系,每副插画最多可以设置10个标签,所有分类、查询都依据标签而来。
标签系统本质上是文件元数据管理的一种方式。既然标签系统如此好用,为什么不能把它移植到普通的文件系统中呢?我想过的东西,99.9%别人也想过,这么直观的想法肯定有别人做过!于是我就开始了寻找。但是结果大大出乎意料,不论是windows还是linux,没有文件系统采用标签体系的,也几乎找不到类似的PC软件。而且更有很多文章告诉我这么一个问题——标签体系在文件系统中是多此一举。其中有篇介绍Zotero的文章作为知识管理工具的Zotero,就令我感慨良多。下文中多有摘录此文内容。
为什么是多此一举?
因为个人维护文件系统标签体系成本太高,一般人都坚持不了。自然没必要做了。我本科的时候自己也曾搞过个人使用的数据库服务来维护管理这些标签,但是最后也就不了了之了。但当时认为是服务作得差,而不是标签体系的问题。现在发现,其实是标签体系维护成本太高,管理不过来,所以才会不了了之。
为什么个人维护文件系统标签体系会成本太高?
- 在收藏的时候,无法坚持输入多个tag系统,有的多,有的少,甚至有的没有,导致最后凌乱;
- 当事先非常规整的Tag系统,一旦由于对某个Tag的描述改变,导致很多前面的Tag更改不及时;
- 需要记忆与复习的时候,Tag提取不便,因为Tag系统总会随着时间崩溃
简而言之,Tag系统的本质并不适合分类,而是【印象】系统,这才是Tag系统的本意。它是个云型不稳定结构,会随着时间变迁而动荡。但是,太多的人将其当做分类工具在使用,最后导致得不偿失,付出的精力往往得不到相应的产出。
为什么站酷、pixiv这样的web站点使用标签体系就没问题?
因为这些网站的首要需求是给出快速找到目标页面的方法。标签体系可以满足这个需求,而且体系随时间动荡也不要紧,网站管理员也不需要时刻掌握这么大的网站的标签系统体系结构,最多会有些数据分析师去观察这些动态变化。何况它们的标签体系是很多人一起在维护的。
个人做知识归纳的首要需求是能够全面掌控知识。但人类的知识表征结构决定了人难以使用这种不稳定结构。
人类的最佳知识表征结构是什么?
MIT认知科学家Josh发表在pnas的论文中,比较了抽象知识的不同表征结构,如星形结构、聚类结构、环形结构等等,最终还是意识到,人类的最佳知识结构是树形结构。只有树形结构,才是最符合人类认知特点的一种结构,从树的上一层到下一层,是具备唯一通道,便于大脑将知识从记忆底层快速提取出来,符合人类大脑是个认知吝啬鬼的特点;树又是兼具横向扩展与纵向扩展能力的最优雅的结构。所以,儿童学习词汇时,最初是将物体进行扁平互斥的划分并对应到不同名称,当他们意识到,以树形结构来学习时,他们的认知开始大幅度发展。这种神秘的树形结构不仅仅影响到儿童早期的认知发展,在科学界,也处处可以看到神秘之树的身影,如门捷列夫的元素周期表开创近代化学;卡尔·冯·林奈使用树形结构创立了对自然世界的基本分类法。
Tag系统与树形结构相反,它实质上是非常违背人们学习与记忆提取的规律的。尤其当Tag更多是Tag,而不是树形结构的时候。它是个云形结构,会随着时间变迁而动荡。记忆恰巧需要的不是这类时间动荡。所以,太多人对Tag系统进行了种种改良,这种改良本质上,都是在放弃Tag自身,使用了主从类的,更贴近树形结构的改良。
那么,如何更好分类?
- 以基本属性作为分类,基本属性是你可以很快归类的,不太会随时间动荡的;
- 再使用搜索代替随时间动荡的内容;
- 不再将Tag作为【分类】属性;而是当下【印象】工具。
工具推荐
zotero, 一个文献、知识管理工具。关于它的使用,参见http://www.douban.com/group/topic/45562674/
为什么文件系统没有标签分类方式?,布布扣,bubuko.com