当基于文本的文件上传到 Confluence(例如,Word,PowerPoint 等),这些文件中的文本是可以提取并且添加到索引中的,用户可以通过索引来搜索这些文件中的文本内容,不仅仅是搜索文件名。当文件需要被重新索引的时候,我们存储提取后的文本,我们不需要对文本中的内容重新进行索引。
提取后的文本文件,通常是以版本号进行命名的,例如 2.extracted_text
, 同时还会存储文件自己的版本(如上面第八级目录中描述的)。我们只保存提取后文件的最新的版本,而不是和文件一样同时还保存了早期的版本。
https://www.cwiki.us/display/CONF6ZH/Hierarchical+File+System+Attachment+Storage
原文地址:http://blog.51cto.com/ossez/2133939
时间: 2024-10-09 07:33:37