元数据、自由分类法(Folksonomy)和大众的因特网* [摘要]自由分类法降低了应用元数据的门槛,用户通过平面化的自由关键词进行信息的分类,再以网络共享的方式发布,从而影响信息架构(Information Architecture),便利知识的组织和发现。以美味书签(del.i)、闪亮图片夹(flickr)和维基百科全书(wikipedia)为例讨论自由分类法的优缺点和应用模式。最后指出大众是因特网的主要驱动力,自由分类法技术需根据大众持续变化的需求而调整。 [关键词]自由分类法 Folksonomy 知识组织 元数据 语义网 [分类号] G350 metadata,Folksonomy and Internet for the people Mao Jun (Library of Chinese Academy of Science Beijing 100080) [Abstract] Folksonomy enable people to tag their information collaboratively with flat and free keywords, the outcome is that more people are participating into the process of categorizing knowledge without knowing or studying metadata schema like DC (Dublin Core)or DDC(Dewey Decimal Classification),the pros and cons of folksonomy are illustrated with the example applications such as del.i,flickr and wikipedia。Finally, as a technology to organize information,folksonomy should adjust increasingly to the web itself which is driven by people who use it everyday. [Keywords] folksonomy,knowledge organization,metadata,semantic web 元数据(metadata)是关于数据的数据(data about data),最初被用于描述、组织和发现因特网上的海量信息。近10年的数字图书馆、电子商务和电子政务等应用显示:都柏林核心集(DC)等元数据及元数据的互操作方案并未有效简化因特网的知识组织和信息发现。与之相反,Google等搜索引擎已成为大众获取最新信息的入口,连OCLC都将经营多年的WorldCat数据贡献给搜索引擎。后者的成功源于专注用户的需求并及时调整检索结果的次序,即依据用户的点击(链接)而不是信息本身的"元数据"来判断信息的价值。2005年初,自由分类法(Folksonomy)作为一种由用户参与和主导的信息组织方式,在Yahoo等门户网站迅速流行,成为与The Long Tail, RSS, blog, Ajax,Podcast一样众人关注的焦点,也预示元数据新的应用模式。 1 自由分类法 自由分类法是用户自发的用标签(Tag)对感兴趣的资料进行分类,并与他人共享标签的过程和结果。如下场景描述了自由分类法的使用:李明(化名)上网发现了一张大海的图片,他点击一下鼠标,在图片对应的网址和名称下增加"sea blue 2005"3个标签后保存。当30万人这样作后就有了图1,图中文字的大小和对应图片的多少呈正比。 图1:Flickr的标签总图(2005-8-12) 1.1 特点 自由分类法的特点是自由、共享和动态更新。 l 自由指任何人都可以对其感兴趣的内容进行标识,提供一个或者多个标签,或什么也不作,仅浏览他人的标签。人们不必了解DCMI修饰符,也勿需查询杜威十进制分类法(DDC)。 l 共享即任何人对内容进行标注后,他人可立刻看到这些标签,如果觉的标签不合适,还可以增加或者修改,常用的标签按字顺排列,形成上面的标签总图(TagCloud)。用RSS的方式订阅感兴趣的标签对应的资料,或发现志同道合者和他们的标签。 l 动态更新是随着人们使用不同标签标识内容信息,标签总图中一些标签字号变大,一些标签逐渐"淡出"人们的视野,这种更新使人们可随时发现当前人们的"热点"和"走势"。 自由分类法的上述特点更好的满足人们的"视觉"偏好和"读图"心理,使它比搜索引擎的输入框更直观。但它的缺点也是明显的,即缺乏等级结构,无法精确的描述信息,并且容易被滥用。尽管如此,它还是比本体(ontology)更好地预示了语义网的应用前景。 1.2 等级(Hierarchy) vs 分面(Facet) vs 标签(Tag) 自亚里斯多德提出科学分类,西方一直采用"从根到叶"的"树形"结构或等级结构进行分类,并确定了从抽象到具体,从宏观到微观的逻辑次序;在知识激增的20世纪初,印度图书馆学家阮岗纳赞发明了分面(facet),利用分面的灵活组合更准确的表达知识,但二者均限于专业人士使用。因特网信息的"爆炸性"增长挑战了等级结构和分面分类的极限,即使针对计算机信息检索发明的叙词表也难以应对,昂贵的维护费用和学习成本、漫长的更新周期和复杂的使用,使非专业用户开始转向自由分类法―并非十全十美,但更简单实用的信息组织方式。 自由分类法标志着因特网从"专家"转向"平民"。等级式分类法便于按学科对信息进行汇集,分面分类法提供按照不同的属性(分面)查找资料,而自由分类法则易于为大众使用和共享,维护成本低,三者各有优缺点。但按照"差的就是好的(worse is better)"之观点,自由分类法更容易被大多数用户接受使用,从而不断更新完善以成为下一代因特网(web 2.0)的重要特征。据此自由分类法已超出简单分类法的范畴,对信息架构,元数据和语义网络产生影响。 1.3 正反观点 自由分类法在2005年上半年引起广泛关注,并迅速在Technorati、MySpace等多个系统中推广应用。Admam Math在2004年12月撰写的文章被公认为自由分类法领域的"经典之作",他认为以往由专业人员"控制"的元数据编辑和管理,将逐渐让位于网络社区共享式的自由分类法,或至少朝此方向发展;Clay Shirky则认为同昂贵而复杂的受控词汇相比,自由分类法是一个"有胜于无(better than nothing)"的方案,他进而指出广泛讨论的本体论(ontology)过于"理想化",在当前因特网的环境下"可操作性"欠佳;David Weniberger用"知识之树"来形容分类法的不同类型和发展阶段,并将标签和自由分类法比作从树上飘落的一堆"知识树叶";Shelly Powers是自由分类法研究的"集大成者",她的网志旁征博引关于自由分类法的各种观点,并一一批判之;自由分类法(folksonomy)的最早提出者Thomas Vander Wal将其分成广义自由分类法和狭义自由分类法两种;Lou Rosefield是少数对自由分类法质疑者之一,他认为自由分类法缺乏检索功能,精确性不强,不足以解决目前元数据面临的问题。郑云深、洪波和wenxin等对自由分类法的统计分布,商业应用方面进行有益尝试探索。无论何种态度,自由分类法已不再停留在概念上供学者讨论和用户选择;而是如何更好的应用,在什么范围内应用了。 自由分类法是分类法的未来吗?自由分类法是"重量级应用(killer app)"吗?或者它会从根本上改变现有的因特网吗?这些已超过单纯的分类,进而扩展到网络本身,涉及到文化、语言、社会学、搜索引擎、心理学等诸多方面。它提供了新的视角,来看待如何组织网络信息,以及用户的参与对应用系统成功的影响。尽管如此,David Winner等人也认为自由分类法不过是另一种"元数据",用户只会"一时新鲜",过后就会"撇在一边"不用了,因而不会长久。事实也证明绝大多数因特网的用户甚至不知道如何作标签(tag),但这并不妨碍他们使用因特网。 1.4 典型应用 美味书签(http://del.) 是美国人Joshua Schachter设计并开发的网络书签管理系统。他允许用户以在线方式管理自己的书签,并与他人共享书签。美味书签最大的特点就是采用自由分类法来标注、发布和共享网络书签,并不断加入了标签分组、推荐等新的功能,它用REST方式公开自己的应用程序接口(API),也催生了Grafolicious等多项扩展应用。图2是笔者的美味书签中标签为"folksonomy"的部分网络书签(左侧,按时间排序)和标签(右侧)。 图2:笔者的美味书签界面 美味书签无疑是2005年上半年因特网最"靓丽"的风景之一,Joshua Schachter再次显示了"蚂蚁撼大象"的创新实力。从众多的模仿者和扩展应用来看,美味书签也展示了因特网是人的因特网,而不是由软件或应用系统或标准规范"主导"的。在社会化软件(social software)研究者的眼中,美味书签体现了"弱连接(loosely coupled)"的魅力;Web 2.0的倡导者则拿它来说明有"意义(meaningful or semantic)"的因特网;而搜索引擎爱好者则从它的标签总图(tagcloud)中重新发现了持续获取有价值资讯的路径等。那么自由分类法的"成功"对元数据的发展有什么启示,元数据因而应该在哪些方面进行改进呢? 2 自由分类法改造元数据 如果说元数据是"关于数据的数据(data about data)",那么自由分类法就是"关于数据的标签(tag about data)"。两者的出发点是一致的,即组织信息以便利用户的使用,只是手段不同,前者是通过专业人士和标准化推行,后者则更多依赖大众的参与和"重量级应用"。然而在不确定的因特网面前,专业人士的"万全之策(one fit all solution)"往往将简单的问题复杂化,随着因特网上信息内容的快速增长,信息类型的日益复杂化,任何标准不但有"滞后"的风险,而且面临被公司或者产品"垄断"。目前无论是元数据,还是自由分类法都还没有从全局或者根本上解决因特网信息的组织问题,也许有组织的因特网只是少数人头脑中的"幻觉"而已,人们所要作的只是在有序和无序之间保持某种动态的均衡。这有必要回顾元数据方案都柏林核心集(DC)的发展历史和现状。 2.1 DC元数据的发展历史和困境 图书馆员有最早的元数据方案(MARC)和专业的实施细则(AACR 2),在前因特网时代,图书馆员就已用元数据来整理图书、期刊等各种资料,并且对应一系列国际标准(Z39.50 ISO2588等等)。DC在因特网初期1996年推出的目的,除了简化图书馆员编目,更重要的是降低学习成本,鼓励用户参与,并且促进应用系统之间的互操作。10年后回顾这三个目标,却发现事与愿违,"南辕北辙"了。 首先是图书馆员将DC元数据不断复杂化。首先是增加修饰词(Identifier),然后是类型词汇(Type)和管理元数据,最后又发展到元数据登记系统(metadata repository)等等。从每一步看,当时的情景和需求都觉得是无可厚非,理当如此,其结果是目前google收录的80亿个网页中,有DC元数据的不到1%。从"data about data"的角度来看,DC的失败是过于关注前一个data,而忽视了用户真正需要的是后一个data,而获得后一种data的手段越来越多,DC不过是其中的一种而已,结果是"法尚应舍,何况非法"! 其次语义网引导DC元数据偏离了大众。形象的说是从"大众的元数据(metadata for the masses)"变成了"机器程序的元数据(metadata for the robot)"。语义网的基本思路是用XML/RDF标准格式编码,并引入推理机制来保证机器程序(robot)能够自动(智能?)的处理海量的信息。处理因特网上海量信息的方向是对的,但是将大众放在单纯消费者的位置,在"昂贵"的元数据基础上运行机器程序,这种理论上成功的模式在实践中却"停滞不前",而DC元数据在名称空间(namespace),RDF的"包装"下越发难以使用了。 最后对DC元数据面临严重的不合理使用(abuse)。最初DC的使用方式之一是以"<meta>"标签的方式嵌入到网页的头部,这些标签一般由网页的制作者编辑和添加。搜索引擎的机器抓取程序在索引网页是会参考或者抽取标签提供的关键词。网页的制作者为了提高网页在搜索引擎结果中的排序或者使更多的检索词汇可搜索到网页,往往在标签中添加许多同网页不相关,但又十分"热门"的词汇以提高网站或者网页的排名。无论是有意还是无意,上述作法使DC元数据的客观性受到挑战,Google等搜索引擎逐渐以分析页面之间的链接来判断网页的价值,并形成类似PageRank的排序算法,DC元数据的使用空间进而局限在图书情报领域。 2.2 自由分类法的对元数据的增值 自由分类法虽然也存在滥用风险,但在使用和控制方面比元数据要简单的多,加上它面向因特网大众,简单易用,从如下3个角度对元数据实现了增值: l 从导航到共享:从前元数据的制作由专业人士负责,其主要功能是提供一个浏览和导航的结构;而自由分类法则将元数据的制作和使用全部归于大众,并将元数据的共享作为核心和公共价值的体现; l 从复杂到简单:为了最大限度的吸引用户的参与,自由分类法简化很多,简化的界面,简化的操作和使用,并通过标签总图的方式来显示标签的变化情况; l 从生产到消费:元数据推行的前提是大多数人编辑元数据,而自由分类法的目的是大多数人能够使用标签(而不是贴标签),正所谓的"有好于无(better than nothing)" 2.3 自由分类法面临的挑战 自由分类法并不是信息组织"灵丹妙药",和元数据一样面临诸多挑战,无法象电子邮件、即时通信IM和RSS那样成为因特网的事实标准。 1. 首先是如何应付更多的对象。自由分类法如何对人(people)、地点place和任务(task)等复杂的对象进行有效标识和共享,虽然目前象43thing.com等网站都进行了有益常识,但前景并不明朗; 2. 其次商业应用前途不明。虽然多数人承认自由分类法在管理企业内部信息,促进知识管理方面有明显的优势,甚至连IBM公司都宣称在内部网开始利用自由分类法组织企业资讯,一些内容管理软件(drupal)和网志撰写工具(wordpress)亦纷纷支持自由分类法,但至今自由分类法的商业成功案例较少; 3. 第三是自由分类法提出了基于大众互动的信息架构,这种信息架构依赖于尽可能多的用户的参与,并且无法事先确定细节,这对原有的网站可获得性(accessibility)提出新的问题; 4. 最后也是最关键的是如何应对垃圾信息(spam)和不合理使用(abuse),目前自由分类法的作法是交由用户自行鉴别。 2.4 案例:Flickr interestingness(有趣) 游戏和用户的参与 闪亮照片夹(Flickr)最早是网络游戏的外挂客户端,站长Stewart Butterfield2004年初将其改造成网络共享照片夹,由于对标签(tag)或者是自由分类法的创新性利用,以及独特的大型网络角色扮演类游戏的运作思路,短短1年它就成为因特网最成功的照片共享服务站点并被Yahoo公司收购。Flickr善于倾听用户的反馈,并不断将自由分类法的最新发展应用到服务中去,它使人们通过自由分类法和标签总是能获得"惊喜",体验到前所未有的"探索"乐趣,更有人称之为"大型网络角色扮演类游戏(MMRPG)",从而使用户在参与共享的过程中活动乐趣。CNET认为"考虑到Web 上存储着数以十亿计的文件,给它们"贴标签"通常被认为是不可行的。Flickr通过征集数以千计的志愿者解决了这一问题"。 3 因特网对自由分类法的需求 因特网是一个整体,由无数终端连接而成的"虚拟世界",元数据和自由分类法,作为知识组织手段,只能在有序和无序之间获得动态平衡。当Tim.B.Lee发明万维网(WWW)的时候,它仅仅科学家的交流工具;比尔.盖茨(Bill Gates)控制了浏览器(Internet Explorer),因特网成为商人赚钱的场所,但真正的因特网不仅仅可以科学研究或者电子商务,而且是大众交流的场所,是Richard Stallman倡导的那样的开放的世界(开放源码、自由精神和开放文化)。所以说因特网是大众的因特网,大众的需求决定了自由分类法的发展方向。 3.1 因特网已成熟,持续完善中 无论是莫尔定律,还是web2.0和语义网络,都不能改变的事实是:由HTML,HTTP和URI组成的因特网已经成熟,任何新的概念、技术和重量级应用只能在因特网的局部完善,而无法对总体架构产生革命性的影响。无论是Los Almos的科学家,还是华尔街的金融家,他们都和印度加尔各答的学生一样使用同一个因特网,只是带宽和界面不同而已。因特网成为继电话、电视之后新的传媒,让整个世界的沟通渠道更加丰富,它是信息共有(Information commons),全人类的公共物品并传之于我的后代。对自由分类法,首先是如何适应一个用于谈话的因特网问题,然后才可以考虑如何在局部完善和改进。 3.2 大众的参与是技术成败的关键,而不是唯一因素 在Google以前, Excite等搜索引擎总是设法将用户"留"在他们的网站中,而Google则不限制用户的行为。它通过出色的搜索性能成为用户的首选搜索入口,从而最终赢得用户。Google、Amazon和Ebay均公开其应用编程接口(API),允许软件编程人员调用其功能,而现在的网页设计师还在利用Flash图片、javascript代码等技术为用户设计"精致而繁琐"的使用界面。同样是照片共享软件服务,ofoto等不断的降低价格吸引用户,并把服务限制在注册用户,而Flickr理智地请用户决定如何共享照片并一样开放应用编程接口(API),原因就在于前者的商业模式还停留在收费服务,而flickr已经将目标定位在个性化市场(长尾巴市场 the long tail)。用户自己控制着因特网,访问哪个网址,点击哪个链接,都由用户自己决定,而不是网页设计师和软件编程人员。象RSS和自由分类法(Folksonomy)那样,将控制权尽可能让于用户而专心提升界面的易用性和软件的功能,在不确定性的环境中与用户互动是未来唯一的选择。 3.3 Wikipedia的启示:we are internet 维基百科是自由的百科全书,为国际性的自由的开放内容的百科全书协作计划,其目标是为这个星球上的每一个人自由的提供,由他们的语言所书写的,世界知识的总和。它由Jimmy Wales 和Larry Sanger于2001年1月创建,随着成千上万的志愿者加入,到2005年8月,条目总数超过160万条,语种超过100种,其中英文条目超过60万条。面对维基百科的成功,人们不禁要问:为什么不是微软(Encarta百科全书和雄厚的资金),或者大不列颠百科全书(最大规模专业的编辑队伍和最长的编辑历史)呢?答案是过去的成功不能保证未来的成功,金钱无法购买创新,大众的参与才是项目成功的决定因素。 4 结论 自由分类法并不是一成不变的,或者说它刚刚开始,无论在名词的准确定义,还是应用范围,它尚有广阔的发展空间。同时它也是快速演化和升级的,随着大众持续的需求和新的技术手段的加盟,它推陈出新的速度要远远快于目前元数据和语义网,成为目前因特网的热点研究方向之一,随着更多的因特网用户和更快的因特网的出现,可以预计它会不断的克服自己的缺陷,如不够精确,多语种支持不够,垃圾标签的处理等问题。在用户充分参与的前提下,自由分类法可提高知识组织效率,个性化的需求和市场使元数据和数据更密切的融合。自由文化的兴起,使创新跨越了学科、国界、文化和时空,新的因特网的一代,正在用鼠标和键盘继承和发扬民主和自由的精神,所以:"不要问因特网能带给你什么,而要说你能为因特网贡献什么?" 参考文献: Adam Mathes. Folksonomies: Cooperative Classification and Communication Through Shared metadata. [2005-07-15]. /4vrc7 Daniel Terdiman. Folksonomies Tap People Power . [2005-07-15]. www./news/print/0,1294,66456,00.html Clay Shirky. folksonomies + controlled vocabularies. [2005-07-15]. /5vhaz Liz Lawley. It's the social network, stupid! . [2005-07-15]. /9wf5l Louis Rosenfeld.Folksonomies? How about metadata Ecologies? . [2005-07-15]. /home/bloug_archive/000330.html Shelley Powers .Accidental Smarts à la mode (a response to just about about any body who is interested) . [2005-07-15]. /b2fnv Shelley Powers .Cheap Eats at the Semantic Web Café. [2005-07-15]. /4ouqh Gene Smith . Visual folksonomy explanation. [2005-07-15]. /bhw8e Thomas Vander Wal. Explaining and Showing Broad and Narrow Folksonomies. [2005-07-15]. www./random/entrysel.php?blog=1635 Cory Doctorow . metacrap: Putting the torch to seven straw-men of the meta-utopia. [2005-07-15]. www./~doctorow/metacrap.htm MimiYin . HierarchyVersusFacetsVersusTags. [2005-07-15]. /bwtwa Clay Shirky. ontology is Overrated: Categories, links, and Tags. [2005-07-15]. /writings/ontology_overrated.html Jon Udell. Tag mania sweeps the Web. [2005-07-15]. /cpvz6 Tony Hammond etc. Social Bookmarking Tools (I) A General Review. [2005-07-15]. www./dlib/april05/hammond/04hammond.html David Weinberger. Taxonomies and Tags:From Trees to Piles of Leaves. [2005-07-15]. www./blogger/misc/taxonomies_and_tags.html Peter Merholz . How I Learned To Stop Worrying and Relinquish Control. [2005-07-15]. /e3g5e 维基百科全书. 维基百科条目. [2005-07-15]. zh./wiki/Wikipedia [作者简介] 毛军,博士,男,1974年生,副研究员,发表论文16篇。maoj@mail.las.ac.cn 毛军 中国科学院文献情报中心 北京 100080
本文地址:http://keair.bhha.com.cn/news/738.html
康宝晨 http://keair.bhha.com.cn/ , 查看更多