语义Web:电脑能懂的网络

  • 来源:计算机世界
  • 关键字:语义Web,电脑,网络,eBags
  • 发布时间:2011-04-15 15:46
  尽管还处于经济衰退期,但箱包零售网eBags在2010年圣诞节期间的销售额创出新高,与上年同期相比新增了33%(在线零售行业同期销售额平均增长15%左右)。eBags共同创始人彼得·科布把这一业绩归于此前部署了Endeca公司的在线零售平台。该平台使用语义技术来分析网购者输入的关键字和点击行为,然后据此来调整商品大类、子类以及更低一级的目录划分,以让购买者快速地买到自己想要的箱包。

  eBags网站的CTO克里斯·卡明斯也认为使用基于语义技术的软件在增加销量上发挥了重要作用。“自从部署了这种软件后,我们的成交率增加了一倍。”他说。

  科布解释说,Endeca的网站导航软件让购买者可以根据类型、品牌、价格和箱包大小迅速找到自己想要的商品。“我们有超过500个品牌和4万多种箱包,用传统技术用户找起来很不方便,我们几年前就意识到语义搜索和指导对改善消费者的购物体验是多么重要。”

  由于为产品提供了非常详细的细节描述、明确的产品特性介绍以及合理的目录划分,语义技术还使得eBags网在Web搜索引擎结果页面中的位置得到了提升。最近几年来,像eBags这样引入语义技术的企业越来越多,语义技术本身也正在迅速成熟。

  语义Web最早出现在上个世纪90年代后期,由有“互联网之父”的Tim Berners-Lee第一个提出。Tim Berners-Lee 认为,语义网是一种非常有前景的技术,因为它能帮助人们准确地找到所需的资料、答案以及想要的产品。最为重要的是,这一切非常简单,不需要使用者设计出复杂的查询语句,或组合几十个不同的关键字,也不需要对数千个互不相关的URL中进行排序。

  为了实现“互联网之父”提出的这一愿景,W3C在Tim Berners-Lee的领导下制定了一些标准,以允许不同的计算平台和软件代理来识别、访问和集成来自不同网站的信息,并把企业内多个信息孤岛中的信息整合到一切。

  “例如,使用W3C组织制订的标准RDF(Resource Description Framework,资源描述框架),零售商和制造商可以相互共享非常详细的产品信息。”百思买(BestBuy)Web开发首席工程师杰依·迈尔斯介绍说,“现在,许多供应商还在使用电子表单来提供产品信息,这使得产品信息的提取非常困难。”

  迈尔斯认为,百思买目前还没有充分发挥W3C的RDF标准的潜力,他说这是一个相当长期的目标。同样,互联网之父的梦想要真正实现也非常遥远,虽然我们的确距离它越来越近。鉴于此,许多企业的决策者仍持对是否能采用语义技术实现赢利和回避风险持怀疑态度。

  “对于语义技术而言,现在还需要一个杀手级应用来说服企业用户在语义Web软件方面大胆投资,语义技术到了该突破的时候了。”咨询顾问、《技术的下一次浪潮》一文的作者菲尔·西蒙表示。

  事实上,尽管语义Web技术进展比较慢,但这项技术的确在进步,而且采用这项技术的企业也越来越多,包括电子商务、电子出版和医疗保健的市场营销和金融服务等都已经从这项技术中受益,虽然这些企业也许并不知道语义Web技术是如何发挥作用的,甚至也没有弄清楚其明确的投资回报率。另外,语义Web还衍生出新的技术,情绪分析(Sentiment Analysis)就是其中之一,情绪分析是一门用来分析人们是否真正喜欢某个公司的产品和服务以及到底是哪些人喜欢该公司的产品和服务的技术。

  此外,一些企业软件供应商,如IBM、Oracle、SAS和微软已开始在自己的产品中引入语义技术,如Oracle Database 11g Semantic Technologies 、SAS Ontology Management以及IBM‘s InfoSphere BigInsights。而网络搜索引擎,如Google、微软的Bing和雅虎也在做同样的工作。

  百思买等公司的成功就表明了语义Web技术的潜力。百思买的迈尔斯表示,自从他的团队在网站博客的产品页中加入语义元数据后不久,网站流量中来自搜索引擎的增加了30%,这意味着很多人是通过搜索结果知道该产品,而不是看到网络广告后点击而来。

  语义Web技术如何工作

  语义Web技术是指支持符合W3C标准的语义搜索、查询、发布和检索,语义技术采用了多种技术来分析和描述数据对象及其相互关系。

  语义技术中数据的定义是基础,其中包括普通的字典以及一些行业专用术语,而对于那些有多种含义的单词,常常要分析语法和上下文来解决语言歧义。例如,“这个表单有40行”中的“行(row)”是名词,而“她每周划5次船”中的“划(row)”是动词。

  解决了语义含糊问题后,才可以确保购物者到一个网站搜索时可以得到含义相同但表述方式略有不同的搜索结果。另外,才有可能解决复杂的语句查询问题。

  完成数据的定义之后,内容还要和描述性元数据或“标记”联系起来,并映射到一个本体(ontology),本体是一些描述数据对象及其关系的规则(参见附图)。建立本体通常需要两个方面的人共同努力,一方是懂得语义规范的技术人员,而另一方面则是懂业务、了解主题的专家。

  语义技术的标准是非常关键的部分, W3C一直在着力推动这项工作。这些标准除了现有互联网协议(如XML和HTTP等)之外,还包括以下内容:

  ● 资源描述框架(RDF)和RDF模式(RDFS):它描述如何表示信息和本体的架构(也称为词汇表)。

  ● 简单协议和RDF查询语言SPARQL):它定义访问和查询数据的语言。

  ● Web本体语言(OWL):它对本体进行了更为详细的描述,还提供了一些RDFS的元素。

  大多数业界领先的语义Web平台都支持这些标准的最新版,包括Cambridge Semantics、Expert System、Revelytix、Endeca、 Lexalytics、Autonomy和 Topquadrant等。而很显然,只有更多的语义Web平台都支持这些标准,语义技术的潜力才能充分发挥。比如,如果所有消费电子产品在线销售网都基于RDF这样的语义Web标准来建立用以描述其产品目录的本体,那么,其他语义Web平台就可以使用SPARQL查询来访问这些信息,网购者则可以用支持W3C标准的浏览器对这些网站的产品使用类似“按价格排序列出所有42?52英寸的平板电视”这样的语句进行查询。

  现在的搜索引擎和一些第三方网络购物网站虽然也提供产品的比较,但它们往往局限于一些事先规定的属性。而且,消费者常常发现第三方提供的信息已过时或者根本就不正确,要么尺寸不对要么颜色不准。基于W3C相关语义标准的查询与符合这些标准的购物网站结合起来,网购者就可以进行更全面的比较,更为重要的是这些信息就来自供应商,因而也是准确和最新的。

  最近,W3C的SPARQL工作组正在开发一个SPARQL的服务指南,以规范SPARQL的“端点”或信息源如何以指定的方式提供它们的数据,比如如何描述数据是何种类型以及有多少数据等。

  一个语义网络是一种由错综复杂的关系和单词含义构成的结构,它包括所有单词的全部定义以及所有单词之间的关系。

  谁需要语义Web

  eBags网站的CTO卡明斯表示,他还不是那么熟悉语义技术,但是,他非常清楚,Endeca基于语义的网上零售平台在增加eBags的销售方面发挥了主要作用。“自从我们部署了这个平台以来,我们的成交率增加了一倍。”他说。

  事实上,eBags网站的CTO并不是个例外,很多企业用户,甚至一些IT管理人员,并没有意识到自己的电子商务或企业软件平台使用了语义技术。不过,他们都对结果非常满意。

  除了提升销售业绩之外,语义技术的其他好处还包括增加来自网络搜索引擎的点击量、提高客户满意度,以及让企业内部的决策和反应比竞争对手更及时、更有效。

  语义技术一个早期应用是帮助商业用户更容易地查找和访问他们需要的信息,而无论这个数据保存在任何地方,也不管是谁拥有它。

  Revelytix公司CEO迈克尔认为,语义平台将取代传统的商务智能系统。他说,商务智能需要建立数据仓库和数据集市,然后把分布在不同信息孤岛中的相关信息抽取出来进行数据的转换,并把数据加载到数据仓库和集市,而且随着数据的更新这个工作必须持续不断进行,而语义技术根本不用做这些工作。使用语义技术,所有这一切都在后台进行而且很快就能完成。

  一般而言,如果企业的数据具有以下一些特征,那么,语义技术的应用可以为企业带来非常明显的利益:

  1.数据量大,比如有数百万篇非结构化文档。

  2. 在广度和深度上都非常复杂。

  3. 对最终用户非常有价值,但数据量很小而且非常分散。

  4. 那些拿着高薪、在一些专业的领域有着非常专业技能的人需要使用这些数据。

  5. 缺少元数据,无法转换成商务智能可以使用的结构化格式。

  6.非常重要,直接或间接地影响公司的业绩。

  语义技术可以处理这些信息,对这类信息通过聚合、联邦、分析以揭示某个概念或含义,而这些工作要靠人手工完成是几乎是不可能的。

  语义技术的早期采用者主要是出版和生命科学行业的企业,后来,越来越多的企业开始跟进,特别是那些数据量已经增加到人工无法管理的地步的企业。比如,现在汤姆森-路透社提供的机读新闻服务就应用了语义技术。该服务主要面向公关人员、市场营销人士和投资人,它收集和分析了来自3000多名路透社记者、其他第三方网络新闻和博客,然后,根据人们对某个公司或者产品的好恶、新颖性等进行评分。

  语义Web平台和工具

  语义技术已经出现很多年了,市场上已经出现了相关的工具、平台、组件甚至服务,借助这些产品和服务,企业可以快速体验语义技术的作用。以下是部分可用的工具和平台。

  Jena是一个构建语义Web应用程序的开源Java框架,它包括为RDF、RDFS、OWL定制的API,以及一个SPARQL查询引擎和一个基于规则的推理引擎;而Sesame是另一个保存、推理和查询RDF数据的开源框架。

  通常,大多数领先的语义网络平台都带有一个对常用术语、概念和缩写进行描述的知识库,用户可以在此基础上建立本体。而针对有些用户需要针对本企业的特殊行业或者领域进行定制的需求,有些语义技术供应商与系统集成商进行合作。比如,Lexalytics的语义平台就主要提供给系统集成商或者服务提供商,由它们根据用户具体的业务领域和应用进行定制开发,汤姆森-路透社的机读新闻服务就是一个例子。

  有些平台厂商推出了针对特定业务的解决方案。例如,Endeca针对电子商务、电子出版和企业语义应用提供了专用的应用开发工具包。市场还有一些工具能自动地把语义元数据和W3C标准融入到企业现有的知识库中。例如,Revelytix的Spyder能自动把结构化和非结构化数据转化为RDF,并把这些信息发布到Web上,兼容SPARQL的浏览器可以访问这些信息。

  开源工具D2RQ能把指定的数据库中的内容映射到RDF和OWL本体,让兼容SPARQL的应用程序可以访问这些数据。Revelytix还推出一个支持W3C标准的知识建模工具Knoodl.com。Knoodl.com采用Wiki框架,可以帮助技术专家、主题专家和业务用户定义语义词汇,用以描述和映射驻留在多个网站上的领域知识,其他人可以使用Knoodl.com来访问、共享和完善这些知识。

  上述这些产品都可以显著减轻语义应用的开发和部署难度,不过,有些工作必须由人手工完成,如一些业务专用的缩写和术语,必须由语义专家和业务人员一起来人工添加。因此,要自己建立一个语义Web平台,对于一些技术实力和资金实力都不太强的企业而言还是一个很大的挑战。对于这些企业,SaaS或许是一个不错的选择。

  汤姆森-路透社就提供这样的服务。它除了提供机读新闻服务之外,还提供一项名为OpenCalais的服务。这项服务能为客户提交的内容创建语义元数据,这些经过标记的内容可以用于搜索、新闻聚合、博客、目录和其他应用。OpenCalais还有一个免费的工具,客户可以使用它来建立自己的语义基础设施和元数据,并链接到其他网站。现在,这项服务每天处理超过500万份文档。

  另外,DNA13 (隶属于CNW集团)、Lithium和Cymfony等公司现在都提供网络新闻和社交媒体的查询、收集和分析服务,主要面向品牌和企业声誉管理、客户关系管理和市场营销。

  “市场上已有很多语义工具和开放源码的项目,再加上SPARQL这么一个非常强大的查询语言,有技术实力的企业完全可以自己试试这项技术。我们有足够的理由相信,语义技术至少已经是处理海量数据的一个办法。过去,我们看到这么多的数据不知道如何使用,如今我们终于有办法可以对这些数据进行分析。” 百思买的首席Web开发工程师迈尔斯说。

  用语义Web进行高效搜索

  语义技术的一个应用是让搜索引擎在搜索相关内容时更快、更精确。对于零售网站而言这将意味着支持语义功能的搜索将会更好地引导购买者到自己的网站,并帮助他们找到想要购买的商品。

  例如,百思买网站就意识到“语义技术在提高产品在网络上的知名度投资回报率非常高。” 百思买的首席Web开发工程师杰伊·迈尔斯说,要给1100个产品页面增加语义元数据是一件不小的任务,好在百思买使用了德国大学马丁赫普教授开发的面向电子商务的本体GoodRelations ,从而大幅降低了工作量,而自从他的团队在产品页面加入语义元数据之后不久,网站来自搜索引擎的流量就增加了30%。

  GoodRelations提供了一个标准的词汇集,也就是语义网络的本体术语,包括产品、价格和公司其他数据。这些信息可以嵌入到现有的网页中,其他计算机、应用程序和搜索引擎只要支持W3C的相关协议标准都可以识别该网页的内容。这就给那些符合W3C标准的搜索引擎提供了该产品更为丰富的信息。它还提供了一种可能,就是只要其他电子商务网站的数据也采用了这些标准词汇,就可以进行跨电子商务网站的语义查询。不过,到目前为止,只有极少数的零售商已经这样做了,比如百思买,还有最近才这么做的Overstock.com。

  百思买还在探索语义搜索的作用和精确度,除了用它帮助消费者找到他们想要的东西,还把消费者的注意力吸引到某些特定的产品上,例如那些量不大但附加值高的商品。迈尔斯解释说,去年年初,他的小组在语义Web标准的基础上开发出一个应用程序,用来帮助网站经理们发布用户退货的信息。由于这些产品相对比较便宜,颇受那些预算比较紧张的购买者青睐。

  知识管理是语义技术另外一个重要的应用领域。跨国建筑公司Bouygues现在使用语义技术帮助回答员工的问题。这个公司使用Sinequa的语境引擎(Context Engine)来帮助员工找到可以真正帮助他们解决问题的内部专家。语义平台通过分析大量的非结构化信息,包括培训材料、项目文件和其他内部资料,以及互联网上的报道,来对企业内的所有知识进行分析和分类,并用来帮助知识工作者迅速找到信息,而无论是在企业内部还是在互联网上。对每个文档,其语义引擎会参考内部专家的评述意见,还会根据文档和用户查询问题的相关度打分。

  该公司电子服务和知识管理总监Eric Juin表示,有足够多的证据表明语义软件的确能帮助员工避免在建筑设计中出现问题。因为这个平台可以让员工迅速找到能给他提供帮助的专家。这些证据也表明这个项目的部署是值得的,更何况其投入并不高,特别是和公司的ERP投入相比。

  链 接

  使用语义Web的几点提示

  1.语义Web方面的专家们认为,数据整理是关键的第一步。“元数据内容是否丰富直接影响到你应用程序能多大程度发挥出语义Web的潜力。” 咨询顾问、《技术的下一次浪潮》一文的作者菲尔·西蒙说。 这位咨询顾问说他参与设计了很多大数据量的项目。这些项目给他的一个体会就是,如果你数据清洗和重复数据删除工作没有做到位,那最终的结果一定不会太理想。“你的最好结果不过就是更快速地找到错误数据。”

  2.IT人员是否和业务人员密切合作决定一个项目是否最终产生价值,尤其是本体的建立,必须是两类人员合作的产物。

  3.小步慢跑,一步一步来。当人们已经习惯了,并意识到该项目的好处时,该项目就距离成功不远了。百思买就是这样做的。其语义Web技术的应用已经有一年了,该项目就是采用一步一个脚印。
……
关注读览天下微信, 100万篇深度好文, 等你来看……
阅读完整内容请先登录:
帐户:
密码: