为什么文件系统没有标签分类方式?

不论是做数据挖掘也好,数据分析,数据可视化也罢,就是把混乱杂糅的数据理清给人看。我经常觉得,如果不能把自己身边的数据“整理清楚”,又怎敢去折腾什么大数据呢?由于一直以来的习惯,我特别热衷于对知识、文件分类整理。例如电脑桌面一定要用fences整理;一定要建立文件夹归纳 chrome浏览器的书签;收藏的电影动画漫画先放到暂存文件夹里,然后一定要归纳到不同的文件夹里;如此种种。虽然会多花一点时间,但是当我想要找一个我整理过的东西,经常能很快就能找到,而不会说“我似乎收藏过,只是不知道扔到硬盘的哪个角落了”。

但是对于现在文件系统中的以建立文件夹为中心的树形分类我并不满意。因为我经常会遇到这样的问题:一部电影,即属于动作片,又属于布鲁斯威利斯的作品,还是一个电影系列——那么我是应该按照影片类型来划分文件夹,还是按照演员、电影系列来划分?不论哪种划分,对我都是有意义的,这反映了寻找文件的不同路径需求。然而,问题在于一旦采用了一种划分模式来建立树形目录,那么用其他模式来搜寻文件的效率就会大大下降。

不过在web上,这个问题早就被解决了。那就是用tag(标签)系统。例如在wordpress里个人用户可以给一篇文章加上不同的标签,每个标签相当于一种分类方式。还有像插画网站www.pixiv.net,所有人共同维护标签体系,每副插画最多可以设置10个标签,所有分类、查询都依据标签而来。

标签系统本质上是文件元数据管理的一种方式。既然标签系统如此好用,为什么不能把它移植到普通的文件系统中呢?我想过的东西,99.9%别人也想过,这么直观的想法肯定有别人做过!于是我就开始了寻找。但是结果大大出乎意料,不论是windows还是linux,没有文件系统采用标签体系的,也几乎找不到类似的PC软件。而且更有很多文章告诉我这么一个问题——标签体系在文件系统中是多此一举。其中有篇介绍Zotero的文章作为知识管理工具的Zotero,就令我感慨良多。下文中多有摘录此文内容。

为什么是多此一举?

因为个人维护文件系统标签体系成本太高,一般人都坚持不了。自然没必要做了。我本科的时候自己也曾搞过个人使用的数据库服务来维护管理这些标签,但是最后也就不了了之了。但当时认为是服务作得差,而不是标签体系的问题。现在发现,其实是标签体系维护成本太高,管理不过来,所以才会不了了之。

为什么个人维护文件系统标签体系会成本太高?

  • 在收藏的时候,无法坚持输入多个tag系统,有的多,有的少,甚至有的没有,导致最后凌乱;
  • 当事先非常规整的Tag系统,一旦由于对某个Tag的描述改变,导致很多前面的Tag更改不及时;
  • 需要记忆与复习的时候,Tag提取不便,因为Tag系统总会随着时间崩溃

简而言之,Tag系统的本质并不适合分类,而是【印象】系统,这才是Tag系统的本意。它是个云型不稳定结构,会随着时间变迁而动荡。但是,太多的人将其当做分类工具在使用,最后导致得不偿失,付出的精力往往得不到相应的产出。

为什么站酷、pixiv这样的web站点使用标签体系就没问题?

因为这些网站的首要需求是给出快速找到目标页面的方法。标签体系可以满足这个需求,而且体系随时间动荡也不要紧,网站管理员也不需要时刻掌握这么大的网站的标签系统体系结构,最多会有些数据分析师去观察这些动态变化。何况它们的标签体系是很多人一起在维护的。

个人做知识归纳的首要需求是能够全面掌控知识。但人类的知识表征结构决定了人难以使用这种不稳定结构。

人类的最佳知识表征结构是什么?

MIT认知科学家Josh发表在pnas的论文中,比较了抽象知识的不同表征结构,如星形结构、聚类结构、环形结构等等,最终还是意识到,人类的最佳知识结构是树形结构。只有树形结构,才是最符合人类认知特点的一种结构,从树的上一层到下一层,是具备唯一通道,便于大脑将知识从记忆底层快速提取出来,符合人类大脑是个认知吝啬鬼的特点;树又是兼具横向扩展与纵向扩展能力的最优雅的结构。所以,儿童学习词汇时,最初是将物体进行扁平互斥的划分并对应到不同名称,当他们意识到,以树形结构来学习时,他们的认知开始大幅度发展。这种神秘的树形结构不仅仅影响到儿童早期的认知发展,在科学界,也处处可以看到神秘之树的身影,如门捷列夫的元素周期表开创近代化学;卡尔·冯·林奈使用树形结构创立了对自然世界的基本分类法。

Tag系统与树形结构相反,它实质上是非常违背人们学习与记忆提取的规律的。尤其当Tag更多是Tag,而不是树形结构的时候。它是个云形结构,会随着时间变迁而动荡。记忆恰巧需要的不是这类时间动荡。所以,太多人对Tag系统进行了种种改良,这种改良本质上,都是在放弃Tag自身,使用了主从类的,更贴近树形结构的改良。

那么,如何更好分类?

  • 以基本属性作为分类,基本属性是你可以很快归类的,不太会随时间动荡的;
  • 再使用搜索代替随时间动荡的内容;
  • 不再将Tag作为【分类】属性;而是当下【印象】工具。

工具推荐

zotero, 一个文献、知识管理工具。关于它的使用,参见http://www.douban.com/group/topic/45562674/

为什么文件系统没有标签分类方式?,布布扣,bubuko.com

时间: 2024-08-06 18:28:42

为什么文件系统没有标签分类方式?的相关文章

css基础(css书写 背景设置 标签分类 css特性)

css书写位置 行内式写法 <p style="color:red;" font-size:12px;></p> 外联式写法 <link rel="stylesheet " href="地址" type="text/css"/> 嵌入式写法 <style type="css/stylesheet"> p{ font-size:20px; color:red;

htm基础知识,css的链入以及标签分类。

<!DocTYPE>  DOC--Document 文档  TYPE  类型  文档类型 告诉浏览器这是什么文件 单标签: meta  设置   charset  设置编码 双标签: 开始标签--结束标签 html 根元素   祖先元素 title  设置标题 body  身体 head  头部元素 css样式引入方式: 1.行内样式  直接属性style引出 属性写道引号里面 2.内部样式  写在head里面 title下 style标签里面 3.外部样式  写在css包下的css下的css

[email&#160;protected]常用标签分类,标签嵌套规则

一.html标签又叫做html元素,它分为块级元素和内联元素(也可以叫做行内元素),都是html规范中的概念.1.块级元素块级元素是指本身属性为display:block;的元素.因为它自身的特点,我们通常使用块级元素来进行大布局(大结构)的搭建. 块级元素的特点:独占一行,从上到下排布可设宽度.高度,margin,padding在不设置宽度,宽度是它父级元素,高度是它本身内容撑开的高度内部可容文本,纳块级元素,以及内联元素 常用的块级元素div常用块级容器,也是css layout的主要标签h

如何用softmax和sigmoid来做多类分类和多标签分类

首先,说下多类分类和多标签分类的区别 多标签分类: 一个样本可以属于多个类别(或标签),不同类之间是有关联的,比如一个文本被被划分成“人物”和“体育人物”两个标签.很显然这两个标签不是互斥的,而是有关联的多类分类:  一个样本属于且只属于多个分类中的一个,一个样本只能属于一个类,不同类之间是互斥的,比如一个文本只能被划分成“人物”,或者被划分成“文化”,而不能同时被划分 成“人物”和“文化”,“文化”和“人物”这两个分类就是互斥的 那么,如何用softmax和sigmoid来做多类分类和多标签分

web第七天,标签分类

一,标签分类 1,按类型分 1,block(块): div,ul,ol,li,dl,dd,dt,p,h1......h6, 特点 : ①,块是上下排列的,块是独占一行的 ②,块支持所有CSS样式 ③,当块不写宽度的时候,默认的宽是父容器的宽 ④,块永远是一个矩形区域 2,inline(内联) : span,img,a,strong,em 特点 : ①,内联是左右排列的,内联必须在一起 ②,内联有些样式是不支持的,width,height,padding-top,margin-top ③,内联元素

第十二天学习:html标签分类

关键字:html标签分类 晨跑计划: 学习计划: 对html标签进行更详细的分类 学习记录: 扩展阅读: 问题的记录与解答:

几种分类问题的区别:多类分类,多标签分类,多示例学习,多任务学习

多类分类(Multiclass Classification) 一个样本属于且只属于多个类中的一个,一个样本只能属于一个类,不同类之间是互斥的. 典型方法: One-vs-All or One-vs.-rest: 将多类问题分成N个二类分类问题,训练N个二类分类器,对第i个类来说,所有属于第i个类的样本为正(positive)样本,其他样本为负(negative)样本,每个二类分类器将属于i类的样本从其他类中分离出来. one-vs-one or All-vs-All: 训练出N(N-1)个二类

VPN的分类方式

VPN的分类方式 VPN的分类方式比较混乱.不同的生产厂家在销售它们的VPN产品时使用了不同的分类方式,它们主要是产品的角度来划分的.不同的ISP在开展VPN业务时也推出了不同的分类方式,他们主要是从业务开展的角度来划分的.而用户往往也有自己的划分方法,主要是根据自己的需求来进行的.下面简单介绍从不同的角度对VPN的分类. 一.按接入方式划分 这是用户和运营商最关心的VPN划分方式.一般情况下,用户可能是专线上(因特)网的,也可能是拨号上网的,这要根据拥护的具体情况而定.建立在IP网上的VPN也

html标签分类以及常用标签

WEB初级编程人员必须掌握的html标签分类以及常用标签 1. 内容简介: ·文本版面的编辑(格式标签.文本标签) ·超链接和锚点 ·图像和图像地图 2. 格式标签: 用于定义网页中文本的布局.缩进.位置.换行.列表等. 常用格式标签: <p></p> <center></center> <pre></pre> <ul></ul><li></li> <ol></ol&g