存档

‘搜索引擎原理连载’ 分类的存档

一些著名的搜索引擎

2010年1月29日 网赚群 没有评论

为了让感兴趣的读者有目的的试一试,我们整理了一些当前主流的搜索引擎,包括网址,首页面图片及其介绍。在这些搜索引擎中,排在最前面的几个搜索引擎提供多语言的支持,可以满足不同母语读者的需求。
主流搜索引擎的选定参考了[Sullivan,2004],主流搜索引擎是指非常有名,或者被广泛使用的搜索引擎。为使读者有感性认识特别加入了每个网站的相关页面。
Google, http://www.google.com

四次荣获Searchenginewatch[Searchenginewatch,2004]读者选举出的“最杰出搜索引擎”称号的Google作为在网络上搜索页面的首选是无愧于这个称号的。它基于搜集器2的服务既保证了能够覆盖广泛的网页,同时在查询效果上也表现得极其优秀。
为了方便的检索到所需网页,Google提供几种可供选择的方法。利用Google首页搜索框上面的标签,可以容易的检索网络上的网页,图像,网上论坛,新闻和Open Directory提供的经过人工整理后的网页目录。
Google还因为提供许多其它特性而闻名,例如网页快照,保证您在存有网页的服务器暂时出现故障时仍可浏览该网页的内容,或者可以浏览到不是最新版的该网页的内容;拼写检查,如果您查询词包含错误的拼写,它会提示正确的查询词;股票行情查询;街区地图查询等特殊功能。更多的特性可以查看Google的帮助大全。此外,Google工具条因为提供了方便存取Google和它的特性而为其赢得了一定的声誉。
Google除了提供无需付费的排序结果,还有自己的竞价排名程序。与其他提供此项服务的公司一样,依据点击才有花费,竞价排名程序在Google的返回结果中放置广告。Google还提供自己的无需付费的排序结果给其它一些搜索引擎。
Google最初起源于斯坦福大学的BackRub项目,当时是由学生Larry Page和Sergey Brin主要负责。到了1998年,BackRub更名为Google,并且走出校园成为一个公司。AllTheWeb, http://www.alltheweb.com

作为一个优秀的基于搜集器的搜索引擎,AllTheWeb提供广泛的网络覆盖与显著的相关性。除了提供网页查询,AllTheWeb还提供新闻,图像,视频和音频的检索。AllTheWeb于1999年5月推出,先是由FAST运作;2003年4月Overture收购了AllTheWeb;后来Yahoo!买下了Overture,现在的AllTheWeb由Yahoo!运作。
Ask Jeeves, http://www.askjeeves.com
Ask Jeeves最初获得名声是在1998和1999年。作为自然语言搜索引擎,能够让用户通过输入问题来得到查询结果,并且所得到的结果看起来好像是对的。

事实上,技术并不是Ask Jeeves运行很好的原因。在幕后,公司曾经指定100个编辑人员监视查询日志。然后这100个人上网查找与最常用查询词最相关的网页链接。目前,Ask Jeeves仍然在使用人来参与结果的查找,但是现在编辑只有10个人左右。尽管如此,通过人的参与提供答案仍然是一个卖点,尤其对于那些新接触网络的人,他们会想使用Ask Jeeves。对于通常的查询,人工选择的匹配结果让人感觉非常的相关。如果显示出来,这些结果出现在查询结果页面的最上端。除了人工参与外,Ask Jeeves还利用基于搜集器的技术提供查询结果给用户。这些结果来自它所拥有的Teoma搜索引擎。
HotBot, http://www.hotbot.com
HotBot提供便于访问三个搜索引擎(HotBot, Google, Ask Jeeves)的入口,但是不同于元搜索引擎3,它不能将各搜索引擎的返回结果综合显示。
HotBot在1996年初次登场,因为其庞大的由Inktomi提供的基于搜集器的检索页面和质量,而成为搜索者喜欢的引擎。特别是它的不同寻常的颜色和接口,还为它赢得了有经验的网民的注意。

1999年,HotBot因为采用Direct Hit的clickthrough结果作为排序列表获得了恶名。Direct Hit当年出现时是一个很热的搜索引擎。不幸的是,Direct Hit的结果与同期登场的Google不能相比。HotBot的声望开始下降。
Teoma, http://www.teoma.com

Teoma是基于搜集器的搜索引擎,2001年9月被Ask Jeeves收购。它索引的网页比同样基于搜集器的竞争对手Google的少。然而对于通常的查询检索,索引网页多少并不会产生很大的分别,自从2000年Teoma出现,就因为它很好的网页相关性赢得了称赞。一些人喜欢Teoma的“相关检索”特性,您先输入一个简单词语搜索,然后,Teoma会为您提供其它相关搜索词作为参考。“专家推荐资源”部分也是Teoma的一个特色,指导用户去访问不同主题的链接。Lycos, http://www.lycos.com

Lycos是一个资格最老的搜索引擎,1994年开始提供服务。在1999年4月它停止了自己基于搜集器的结果,取而代之的是利用LookSmart人工整理的常用查询分类结果和其它基于搜集器的搜索引擎,如:Yahoo!,Inktomi等搜集器提供的结果。那么用户为什么不直接使用其他的搜索引擎而还要使用Lycos呢?你也许是喜欢Lycos提供的一些特性。
在搜索框的下方Lycos会建议其他的与用户检索主题相关的查询词,也许正是用户想看和感觉更确切的查询词。在这之下,就是Lycos提供的与其他搜索引擎一样的既相关又广泛覆盖的结果。
Lycos属于Terra Lycos公司,它是在2000年10月由Lycos合并了Terra网络公司后形成的公司。Terra Lycos公司还有HotBot搜索引擎。

WiseNut, http://www.wisenut.com
与Teoma类似,WiseNut是基于搜集器的搜索引擎,在2001年出现的时候吸引了大家的注意力。WiseNut的结果也有很好的相关性,并且有很大的数据库,几乎像Google、AllTheWeb和Inktomi一样大。然而,WiseNut的数据库更新很慢,查询结果经常是几个月前的内容。LookSmart在2002年4月并购了WiseNut。

Overture, http://www.overture.com

最初叫GoTo,2001年更名为Overture。Overture是一个非常流行的竞价排名搜索引擎,它提供广告给许多搜索引擎排在检索结果的上方。Overture在2003年3月购买了AllTheWeb,2003年4月又收购了AltaVista。Yahoo在2003年10月购买了Overture。
Vivisimo, http://www.vivisimo.com

Vivisimo 于2000年6月由卡耐基-梅隆大学(CMU)推出,作为不同于基于搜集器的元搜索引擎,有自己的独到之处。它把其他搜索引擎的返回结果利用自动聚类的办法来满足不同类型客户的需要。在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果进行个性化处理。搜索结果排序从单一化到个性化,Vivisimo已经迈出了一步。
Baidu(百度), http://www.baidu.com
百度于2000年推出,是目前在中国最成功的一个商业搜索引擎,主要提供中文信息检索,并且为门户站点提供搜索结果服务。搜索范围涵盖了中国内地、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。拥有的中文信息总量达到1亿2千万网页以上,并且还在以每天几十万页的速度快速增长。

 

Tianwang(天网), http://e.pku.edu.cn

于1997年10月开始提供服务,是中国最早的搜索引擎。它由北京大学网络与分布式系统实验室开发并维护运行,搜集了中国范围内大量的网络信息资源,尤其较全面地覆盖了中国教育科研网(CERNET)内的资源。天网目前索引的信息资源除已经超过3亿的网页外,还包括2000多万各种非网页类型的文件,是目前世界上最大的中文搜索引擎之一。在系统功能上,天网除提供通常的关键词和短语检索外,还有自动网页分类目录。本书所介绍的技术内容主要就是以天网为背景展开的。

网赚群文章,转载请注明: 转载自网赚群

本文链接地址: 一些著名的搜索引擎

搜索引擎的发展历史

2010年1月29日 网赚群 没有评论

早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源
了。那些资源当时主要存在于各种允许匿名访问的FTP站点(anonymous ftp),内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(那时还没有HTML)。
为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件,Archie。它通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。Archie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽管所提供服务的信息资源对象(非HTML文件)和本书所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖。

值得一提的是,即使是在10多年后的今天,以FTP 文件为对象的信息检索服务技术依然在发展,尤其是在用户使用界面上充分采用了Web风格。不过鉴于本书写作定位的关系,后面将主要讨论网页搜索引擎的相关问题。
以Web网页为对象的搜索引擎和以FTP文件为对象的检索系统一个基本的不同点在于搜集信息的过程。前者是利用HTML文档之间的链接关系,在Web上一个网页、一个网页的“爬取”(crawl),将那些网页“抓”(fetch)到本地后进行分析;后者则是根据已有的关于FTP站点地址的知识(例如得到了一个站点地址列表),对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下载到系统上来。因此,如何在Web上“爬取”,就是搜索引擎要解决的一个基本问题。在这方面,1993年Matthew Gray开发了World Wide Web Wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测Web发展规模的“机器人”(robot)程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。鉴于其在Web上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。因此,在文献中crawler, spider, robot一般都指的是相同的事物,即在Web上依照网页之间的超链关系一个个抓取网页的程序,通常也称为“搜集”。在搜索引擎系统中,也称为网页搜集子系统。
现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基础上对它的蜘蛛程序做了改进。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,成为第一个现代意义的搜索引擎。在那之后,随着Web上信息的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出(下一节会有介绍)。这其中,特别引人注目的是Google(http://www.google.com ),虽然是个姗姗来迟者(1998年才推出),但由于其采用了独特的PageRank技术,使它很快后来居上,成为当前全球最受欢迎的搜索引擎(作者2003年初访问印度,就听到总统阿卜杜勒·卡拉姆讲他经常用Google在网上查找信息!)。

在中国,据我们所知,对搜索引擎的研究起源于“中国教育科研网”(CERNET)一期工程中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于1997年10月在CERNET上推出了天网搜索1.0版本。该系统在这几年里不断发展,目前已成为中国最大的公益性搜索引擎(http://e.pku.edu.cn )。在这之后,几位在美国留学的华人学者回国创业,成立了百度公司,于2000年推出了“百度”商业搜索引擎(http://www.baidu.com ),并一直处于国内搜索引擎的领先地位。我们看到慧聪公司也在中国推出了一个大规模搜索引擎(http://www.zhongsou.com),用起来感觉也不错,但往后发展如何,还有待时间的考验
当我们谈及搜索引擎的时候,不应该忽略另外一个几乎是同期发展出来的事物:基于目录的信息服务网站。1994年4月,斯坦福(Stanford)大学的两名博士生,David Filo和杨致远(Gerry Yang)共同创办了Yahoo!门户网站,并成功地使网络信息搜索的概念深入人心。1996年中国出现了类似的网站,“搜狐”,

http://www.sohu.com)。在许多场合,也称Yahoo!之类的门户网站提供的信息查找功能为搜索引擎。但从技术上讲,这样的门户中提供的搜索服务和前述搜索引擎是很不同的。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导到和该查询词最匹配的网站。图1-2就是我们在搜狐上查询“伊拉克战争”的结果。和图1-1相比,不难看到其风格是很不相同的。在需要区别的场合,我们可以分别称“自动搜索引擎”和“目录搜索引擎”,或者“网页搜索引擎”和“网站搜索引擎”。一般来讲,前者的信息搜索会更全面些,后者则会准确些。在没有特殊说明的情况下,本书中所讨论的“搜索引擎”不包括Yahoo!和搜狐这样的搜索方式。
随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化——对海量的信息进行高质量的人工分类已经不太现实。目前有两个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动分类,这方面最先看到的例子是Google的“网页分类”选项,但它分类的对象只是英文网页。在中文方面,文本自动分类的研究工作有很多,但我们知道的第一个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等人的工作[冯是聪,2003],他们于2002年10月在天网搜索上挂接了一个300万网页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合,希望形成一个既有高信息覆盖率,也有高查询准确性的服务。

互联网上信息量在不断增加,信息的种类也在不断增加。例如除了我们前面提到的网页和文件,还有新闻组,论坛,专业数据库等。同时上网的人数也在不断增加,网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需求已出现困难,因此各种主题搜索引擎,个性化搜索引擎,问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,即使通用搜索引擎的运行现在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务提供商。例如美国的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜集服务。从这个意义上说,它是搜索引擎数据的来源。
搜索引擎出现虽然只有10年左右的历史,但在Web上已经有了确定不移的地位。据CNNIC统计,它已经成为继电子邮件之后的第二大Web应用。虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会1的重要论题之一。

网赚群文章,转载请注明: 转载自网赚群

本文链接地址: 搜索引擎的发展历史

搜索引擎的概念(1)

2010年1月29日 网赚群 没有评论

本书的主要内容是介绍搜索引擎的工作原理和实现技术搜索引擎,指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素:

标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的<TITLE></TITLE>标签中提取的内容。(尽管在一些情况下并不真正反映网页的内容)。本书第七章会介绍其他形成“标题”的方法。
URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页内容的权威性进行判断,摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节(例如512)截取下来作为摘要。本书第七章会介绍形成“摘要”的其他方法。

通过浏览这些元素,用户对相应的网页是否真正包含他所需的信息进行判断。比较肯定的话则可以点击上述URL,从而得到该网页的全文。图1-1是2003年8月20日在天网搜索引擎(http://e.pku.edu.cn)上的一个例子,用户提交了查询词“伊拉克战争”,系统返回一个相关信息列表。列表的每一条目所含内容比上述要丰富些,但核心还是那三个元素。如果用户主要是想从军事角度关心伊拉克战争,第一条目可能就是很好的选择,不仅摘要看起来军事味道要浓一些,而且从URL(http://mil.eastday.com)上能看到提供信息的大概是一个专门的军事题材网站。如果用户主要是想关心伊拉克战争对全球经济的影响,则后面的条目可能会更相关些。这个例子提示了我们一个重要的情况,即搜索引擎提供信息查询服务的时候,它面对的只是查询词。而有不同背景的人可能提交相同的查询词,关心的是和这个查询词相关的不同方面的信息,但搜索引擎通常是不知道用户背景的,因此搜索引擎既要争取不漏掉任何相关的信息,还要争取将那些“最可能被关心”的信息排在列表的前面。这也就是对搜索引擎的根本要求。除此以外,考虑到搜索引擎的应用环境是Web,因此对大量并发用户查询的响应性能也是一个不能忽略的方面。
作为对搜索引擎工作原理的基本了解,这里有两个问题需要首先澄清。第一,当用户提交查询的时候,搜索引擎并不是即刻在Web上“搜索”一通,发现那些相关的网页,形成列表呈现给用户;而是事先已“搜集”了一批网页,以某种方式存放在系统中,此时的搜索只是在系统内部进行而已。第二,当用户感到返回结果列表中的某一项很可能是他需要的,从而点击URL,获得网页全文的时候,他此时访问的则是网页的原始出处。于是,从理论上讲搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与他点击URL所看到的内容一致(上面那个“伊拉克战争”的例子就是如此!),甚至不保证那个网页还存在。这也是搜索引擎和传统信息检索系统的一个重要区别。这种区别源于前述Web信息的基本特征。为了弥补这个差别,现代搜索引擎都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或“历史网页”链接,保证让用户能看到和摘要信息一致的内容.

网赚群文章,转载请注明: 转载自网赚群

本文链接地址: 搜索引擎的概念(1)