载入中
载入中
时间记忆
<<  < 2008 - >  >>
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
我的相册
最新日志
载入中
最新评论
载入中
最新回复
载入中
我的好友
站点信息
载入中
基于微格式的信息组织框架
2007-9-14 8:03:00

       本文发表在图书情报工作第八期,对微格式及其在信息组织中的应用进行探讨,这里只是提供了一个叫做框架,在2006年年底进行写作和调查的时候,其实还是发现了很多相关的具体的应用,因为增加到文章里面的,文章篇幅就有些过长,就想分开再写一篇具体如何应用,可是之后的很长一段时间,一直都在忙着弄其他的东西,时间就耽搁下来,现在也更没有什么经历了。关于微格式,还算是一个比较新的东西,放在这里希望对此感兴趣的,提供一点基础类的东西吧。图懒得贴了,去查原文吧。

 

[摘要]介绍微格式的概念,探讨微格式技术体系的概念和意义,归纳并详细论述由数据结构化定义和标记的微格式、个人及组织信息标记的微格式、网络超链接标记的微格式、评论机制标记的微格式等组成的基于微格式的信息组织与处理框架,扼要概括各类微格式的应用范围和应用方法,指出微格式的扩散对信息组织与处理的影响必将非常深远。

[关键词] 微格式 信息组织 信息处理

[分类号] G250.76

 

1 微格式概念及微格式技术体系的意义

1.1微格式的概念

20056月,微格式(Microformats)在美国超新星大会上由Technorati公司资深技术专家Tantek ?elik提出[1]所谓微格式,是指“HTML中嵌入语义元素以实现分散开发的简单规范。[2]微格式是一套基于创作公用协议的开放标准。为了更好理解微格式,微格式网站还以“微格式是什么,不是什么”这样一种开放定义的形式予以详细说明(见表1)。

1微格式的开放性定义[3]

微格式是:

微格式不是:

对数据的一种看法

一种新的语言

针对文件格式的设计原则

无限扩展和漫无边际的

适合现有行为和利用模式

让所有人试图改变他们的行为并重新编制他们的工具

与语义化的 XHTML 高度相关

一种全新的摈弃既有工作机制的方法

一系列简单的开放数据格式标准,可以更好地支持结构化博客和网络微内容的研制和实施

解决一切分类法、知识本体和其他这类总结归纳工具的方法

……

……

1.2微格式的技术体系及其意义[3-6]

所谓微格式技术体系是指由各种微格式组成一系列信息组织和处理技术的总称。微格式技术体系建立在吸纳了XML优势的XHTML语言的基础上,主要由基本微格式和复合微格式两部分组成(见图1。基本微格式是解决单一问题的最小解决方案,采用了XHTML支持的relrevclass等属性定义了具有语义的属性集,嵌入到网页文件中直接使用,或者作为复合微格式的基本组成要素。这类的微格式有XOXOXMDPrel-licenserel-tagXFN等。复合微格式由基本微格式和标准的XHTML元素组成的,解决描述复合数据类型现存标准方案与XHTML之间准确转换问题。这类的微格式有hCalendarhCardhRewiew等。

1微格式技术体系[3]

通过微格式技术体系,可以定义和标记任何可以在网上发布的数据类型或多数据类型组成的信息集合;可以定义和标记社会关系网络、个人联系信息和个人日程安排等实现第三方工具的抽取、转换;可以定义和标记版权信息、内容tag、评论、网页类型(比如:目录、主页等)等各种超链接的属性;可以定义和标记文件或信息集合及其内部任何部分的命名、抽取和链接并在网上显示结构细节;可以在现有的支持HTML的浏览器、支持RSS的阅读器上无障碍浏览;现有网络找到了走向语义网简单可行、易于操作的方法[6-10]

 

2.基于微格式的信息组织和处理框架

 

微格式技术体系按照信息组织和处理所要解决问题,可以抽象成数据结构化定义和标记的微格式、描述个人和组织信息的微格式、描述评论机制的微格式、描述超链接属性的微格式、描述其他具体应用的微格式(见下页图2)。为了支持人们利用微格式发布信息,微格式官方网站[11]提供了一系列的制作、发布和转换工具。

2.1作为数据结构化标记和定义的微格式

2.11 XMDP[12]

XMDP的全称是XHTML Meta Data Profiles,用于定义HTML的元数据配置文件。XMDP按照“简单”、“复用”和“最保守”的原则,从HTML4.0的相关规范抽取相关的“约束条件(Constraints)”、“方向(direction)”和“线索(hints)”,从XHTML1.0构建格式抽取格式元素,定义了元数据配置格式。微格式利用XMDP包含的格式定义相关的属性、属性定义、简短描述等信息,以<d1 class="profile">为格式定义头,对其他微格式的结构进行定义和标记。

2.12 XOXO[13]

XOXO是拓展型开放XHTML规范(eXtensible Open XHTML Outlines)的简称。作为数据结构化的微格式,XOXO定义了一种新的XHTML文档类型,这种文档类型以模块化XHTML的形式定义了模块框架和各种模块。制定XOXO文档类型的目的就是提供XHTML友好的规范,

2基于微格式的信息组织体系

以便于XML引擎处理和浏览器简单的互操作。

XOXO采用XHTML结构定义标签元素“body”、“head”、“html”,列表标签“dl”、“dt”、“li”等以及标签元素属性textdescriptionurl等定义了微格式赖以存在的结构,是基本的用于定义其他微格式及正确显示微格式的基础,是实现数据结构化、语义化的基础,其具体的发布则可以采用XHTML,也可以采用纯XML文件。

2.2标记描述个人和组织信息的微格式

2.21 hCard[14]hCalendar[15]

为了方便个人和组织在互联网上发布个人联系信息,国际上推出了专门的标准vCard来统一联系方式的发布内容和发布形式。但是由于vCard在网上发布的形式没有采用结构化的数据,用户无法将联系信息自动导入到个人通信录管理软件,使用基于关键词全文查询的搜索引擎也无法准确查询这部分联系数据。微格式hCard是建立vCard标准的基础上,以XHTML具有语意化的标签属性来表征个人和组织机构的联系信息,从而将非结构化的数据转变成了结构化的数据,便于第三方软件的自动抽取。

hCanlendar则是为了将互联网上发布的诸如“会议日程安排”、“课程安排”等与个人日程安排密切相关的非结构化信息转化成结构化信息的微格式。它建立在诸如vCanlendariCanlendar这样的国际日历和日程安排标准的基础上,提供对“组织者”、“时间”、“地点”等项目标记和描述,便于将这些信息导出到用户个人日程安排管理软件中。

2.22 XFN[8][16]

XFNXHTML Friends Network),是全球多媒体协议组为了在互联网上显化人类之间的关系,通过赋予超链接语义属性表征人类关系的简单方式。它以枚举的方式定义了“Friendship(朋友)”、“Professional(工作关系)”、“Geographic(地缘关系)”、“Family(家庭关系)”、“Identify(其他所有的关系)”等7种关系及其具体关系值和约束条件。比如:对于博客中以Blogroll形式列出的博客作者感兴趣博客的超链接,XFN通过简单在<a href>标签中增加一个“rel”属性来揭示博客作者和感兴趣博客之间的关系。例如:

<a bref=” http://alexody67.blogchina.com/”rel=”friend met”>

2.23 hResume[17][19]

hResume是一种复合微格式,它使用纯文本的“text”描述一般性的描述,使用hCard描述个人联系信息和相关的机构信息,使用hCalendar描述工作经验和教育背景,使用rel-tag描述个人技能,使用cite tag描述发表的作品等,专门用于发布个人简历和个人履历表信息的微格式,适合于嵌入到(XHTMLAtomRSS和专门的XML文件格式中。

信息用户寻找工作机会时,经常会分别登录不同的求职网站发布求职简历,这是一个非常繁琐的事情。采用hResume发布的简历,由于具有语义的结构化信息,支持微格式的求职网站(如:SimplyHired)可以直接抽取这些个人求职简历的信息,用户需要做的就是在个人博客上或者某个求职站点上发布hResume的个人简历。嵌入到RSSAtomhResume还可以供招聘人员使用RSS阅读器调用或者其他第三方软件抽取数据。

2.3超链接标记和描述的微格式[5][6][19]

互联网利用超链接将诸如网页、图片、音频视频、版权资料、邮箱等网络信息内容连接起来,但是现有网上的超链接是一种非结构化的数据,没有对这些超链接增加语义属性,多数链接用户在点击之前并不知道该链接资源是什么方面的内容,有些超链接虽然用户知道,但是机器却很难识别,无法实现预定目的的自动抽取。微格式技术体系中的超链接标记和描述微格式就是使用XHTML为这些超链接增加语义化标签,从而实现结构化的目的(表2)。这一类的微格式通过在<a href >标签中的“rel”属性标签来标记和描述超链接的属性。比如,以rel-tag标记和描述关键词为“Microformats”的tag

<a href=http://technorati.com/tag/Microformats rel=”tag”>Microformats</a>

2 超链接标记和描述微格式及其功能

超链接标记和描述微格式

功能描述

rel-enclosure

标记和描述目标链接是那些可以被下载的文件(图片、多媒体资料)

rel-license

标记和描述目标链接是文件的版权或者许可证信息

rel-nofollow

标记和描述目标链接是不允许网络爬虫软件对下面的链接提供权重分析和排名或标记目标链接是作者不提供质量担保的链接

rel-tag

标记和描述目标链接是一个作者提出的tag(关键词等)

rel-directory

标记和描述目标链接是一个网页目录型网页

rel-home

标记和描述目标链接是一个网站的首页

2.4评论机制标记和描述的微格式

2.41hReview [19] [20]

互联网上发布了多种多样的评论信息,从对产品(电影、音乐和书籍等)的评论,到商业服务(餐馆、旅馆等)的评论,再到对于某个人(政治人物、艺术家、电影明星等)的评论、某个事件的评论、在线资源甚至评论内容本身的评论等。对于那些想了解该产品、该服务的人来说,了解别人的评论对于即将做出的决定非常有帮助。因此,对于这些评论信息进行组织也是非常有意义的。

hReview,作为一种分布存在评论的发布标准,通过为评论内容增加语义化标签,使得评论内容数据得以结构化,以便于评论内容的发布、共享、聚合和集成。hReview是一种复合标准,充分利用hCardHCalendar标准已经定义的元素,这些元素包括:版本、概要、项目类型(产品、商业服务、事件等)、项目信息(利用hCard标识个人和商业联系信息,利用hCalendar标识事件)、评论者、评论时间(dtreviewed)、评分等级(rating)、具体的描述、tags、永久性地址(permalink)和许可证(license)等。

2.42 VoteLinks[19][21]

VoteLink是一种基本微格式,其使用的元素比较少,要解决的问题也比较简单。现存网站上为了提高产品质量,改善服务的水平,经常会在网上举行一些评选,也有一些诸如博客流行度测评、现实生活选举类似的活动也需要用户进行评选。用户只需要表示其最简单的意见,同意、不同意、中立或弃权。有些人意见的提出并不是在内容发布网站,而是在自己博客站点上,只要他按照微格式的要求进行了VoteLink的标记,其发表的意见就会被相关的识别和聚合软件获取和集成。比如为了表示对“http://www.aaa.com/aaa.html”发布内容表示反对,只要在自己博客上添加如下链接即可:

<a href=http://www.aaa.com/aaa.html rev=”vote-against”>I voted against the content of this webpage</a>

2.5其他应用标记和描述的微格式

除了上面提到4大类微格式以外,还有一些微格式,比如图2中应用于书签发布hFolk,用于地理位置经度纬度等信息标注的geo,应用于电子商务的rel-payment,应用酒评论的wine等,囿于文章的篇幅,这里不再赘述。

 

3结束语

 

微格式技术体系是一个不断发展的技术体系,由于它是基于问题枚举的解决方案,现在看起来体系也不是很完整,但是从传播学大师Rogers影响创新扩散的五大因素(相对优势、兼容性、复杂性、可测试性、可观察性)[22]来分析,由于微格式的开放、动态发展、轻量级、容易实现、容易学会等优势[23],微格式具有创新扩散应用的具大潜力[9],其对于结构化、语义化信息组织和处理的影响也必将是巨大和深远的。

 

参考文献:

[1] Microformats.org launched at Supernova 2005. [2007-1-25] http://radar.oreilly.com/archives/2005/06/ microformatsorg.html

[2][2007-1-25] http://microformats.org/wiki/Main_Page

[3] 2007-1-25] http://microformats.org/about/

[4] [2007-1-25] http://microformats.org/wiki/elemental-microformat

[5] [2007-1-25]http://microformats.org/wiki/compound-microformat

[6] Francesc Campoy FloresVincent QuintIr `ene Vatton. Templates, Microformats and Structured Editing. [2007-1-25] http://wam.inrialpes.fr/publications/2006/DocEng/DocEng2006.pdf

[7] Matthieu-P. Schapranow. Microformats A XML-document-immanent way for semantic annotations of web contents. [2007-1-25] http://myhpi.de/~schapran/pke/Microformats_-_A_XML-document-immanent_way_ for_ semantic_ annotations_of_web_contents.pdf

[8] Rphit Khare.Microformats The next (Small) Thing on the Semantic Web. IEEE Internet Computing, 2006(1):68-75

[9]Rohit KhareTantek Celik. Microformtsa Pragmatic to the Semantic Web. [2007-1-25]http://www2006.org/programme/files/pdf/p116.pdf

[10]Danny Ayer. The Short Path to the Future Web. IEEE Internet Computing200611-12):77-79

[11][2007-1-25]http://microformats.org/code/

[12] [2007-1-25]http://gmpg.org/xmdp/

[13][2007-1-25]http://microformats.org/wiki/xoxo

[14][2007-1-25]http://microformats.org/wiki/hcard

[15][2007-1-25]http://microformats.org/wiki/hcalendar

[16][2007-1-25] http://gmpg.org/xfn/

[17]John Allsopp. The Big Picture on Microformats. [2007-1-25] http://www.digital-web.com/articles/ the_big_picture_on_microformats/

[18][2007-1-25]http://microformats.org/wiki/hresume

[19]Molly E. Holzschlag. Microformats: Understanding Elemental Microformats. [2007-1-25]http://www.informit.com/guides/content.asp?g=webdesign&seqNum=293&rl=1

[20][2007-1-25]http://microformats.org/wiki/hreview

[21][2007-1-25]http://microformats.org/wiki/votelink

[22] Rogers, E. M., Diffusion of Innovations, 5th ed., New York: Free Press2003:15-16

[23] Carl Reed. Fit for Purpose Microformats. [2007-1-25] http://www.opengeospatial.org/pressroom /newsletters/200610/C1

 

libpig | 阅读全文 | 回复(0) | 引用通告 | 编辑
  • 标签:微格式 信息组织 
  • 发表评论:
    载入中
     
    Powered by Oblog.