搜索引擎

(网络)搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。

当我们谈到搜索引擎的时候,包括的是Internet向导(Internet Guide)和搜索引擎两方面的内容。。搜索引擎通常的使用规则是:如果能够明确地指明其类别,首先使用向导而如果所要寻找的东西非常的明确的话,首先使用引擎但是各个搜索引擎的方式各不-样,应当根据经验灵活地运用。

搜索引擎的未来展望是智能互动搜索化,个性化,专业化、母语化、区域化,多媒体化,知识型搜索化。

人称:内事不决问百度,外事不决问狗狗.

二,搜索引擎的工作原理

搜索引擎的工作原理大致可以分为:

1. 搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络爬虫(spider) 的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超连结,机器人便可以遍历绝大部分网页。

2. 整理信息:搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。排序系统有助于对查询结果根据与查询内容的相关程度进行排序。搜索引擎以同样的方式显示结果,通常是一系列与输入的关键字或是组合关键字相近的超级链接。每个数据库都有自己的记分系统。

3. 搜索:接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这些通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

三,搜索引擎发展史

1990年初当时万维网(World Wide Web)还未出现,为了查询散布在各个分散的主机中的文件,曾有过Archie、Gopher等搜索工具,随着互联网的迅速发展,基于HTTP访问的web技术的迅速普及,他们就不再能适应用户的需要。在1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线,它还支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,随着访问量和收录链接数的增长,开始支持简单的数据库查询。这就是我们说的早期的目录导航系统,他们的缺点网站收录/更新都是要考人工维护,所以在信息量剧增的条件下,就不是非常受用了。

1994年7月,Lycos推出了基于robot的数据发现技术,并支持搜索结果相关性排序,并且他第一个开始在搜索结果中使用了网页自动摘要。Infoseek也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。

1995年,一种新的搜索引擎工具出现了——元搜索引擎,第一个元搜索引擎是华盛顿大学的学生开发的Metacrawler。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

1995年12月才登场亮相的AltaVista推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具备了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如AND 、OR、NOT等),同时AltaVista还支持搜索新闻群组(Newsgroups),搜索图片等具有划时代意义的功能。同时期还有inktomi、HotBot等搜索引擎。

1997年8月Northernlight 公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。

1998年10月,Google诞生。它是目前最流行的搜索引擎之一,具备很多独特而且优秀的功能,并且在界面等实现了革命性创新。

1999年5月,Fast(Alltheweb)公司发布了自己的搜索引擎AllTheWeb?,它的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。它曾经是最流行的搜索引擎之一,后在2003年2月被Overture收购。

在中文搜索引擎领域,1996年8月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐的”美誉。由于其人工分类提交的局限性,随着网络信息的暴增,逐渐被基于robot自动抓取智能分类的新一代信息技术取代。

台湾中正大学吴升教授所领导的GAIS实验室1998年1月创立了Openfind中文搜索引擎,是最早开发的中文智能搜索引擎,采用GAIS实验室推出多元排序(PolyRankTM)核心技术,截止2002年6月,宣布累计抓取网页35亿,开始进入英文搜索领域。

北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务, 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。

百度中文搜索由超链分析专利发明人、前Infoseek资深工程师李彦宏和好友徐勇2000年1月创建,目前支持网页信息检索,图片,Flash,音乐等多媒体信息的检索。并且百度在中文领域第一个开始使用ppc经营模式。

2002年开始很多公司受搜索市场前景和Google神话的吸引,积极进入搜索引擎市场,谋求一席之地。但是不幸的是他们当中很多公司尤其是不少中国公司采用流氓手段进行自己搜索引擎的推广工作,常用的手段是浏览器劫持、恶意捆绑adware/spyware等等,比较恶劣的典型公司是中搜、3721等等。中搜是由慧聪国际主持开发的,自称是搜索领域的后起之秀。目前处于起步阶段,但是采用流氓软件手段推广后,强占了不少用户的搜索引擎选择。2003年年底慧聪搜索改名为中国搜索,推出第三代智能搜索引擎。最近中国搜索主推桌面搜索–网络猪,是臭名昭著的流氓软件之一。

2003年11月,Yahoo全资收购3721公司。2005年8月,阿里巴巴和Yahoo达成战略合作,全资收购雅虎中国,并更名为阿里巴巴雅虎,并将其业务重点全面转向搜索领域。

四,常用搜索引擎

搜索引擎是由大的数据库组成的,搜索数据库内包括了已经整理好的由站点名、关键字、URL等所组成的许多条记录。搜索引擎有两种;其功能和它当初所设计的用途有关:第一种是直接分类,基于字母顺序、年代、地理或事件来分类,网站分类数据库式搜索引擎(旧版yahoo,sina,sohu);;第二种是全自动搜集并做索引分类的方式,主动查找式搜索引擎(google)

国外比较著名的有:

Google http://www.Google.com

Yahoo! http://www.yahoo.com

MSN http://search.msn.com

lnfoseek http://www.infoseek.com

Lycos http://www.lycos.com

而在国内比较著名的有:

百度 http://www.baidu.com

搜狐 http://so.sohu.com

新浪 http://cha.sina.com.cn

中文Yahoo http://www.yahoo.cn

雅虎(中国) http://cn.search.yahoo.com

中国搜索 http://www.zhongsou.com

3721 http://www.3721.com

搜狗 http://www.sogou.com

一搜 http://www.yisou.com

五,登录搜索引擎

http://www.google.com/intl/zh-CN/add_url.html

为了方便网络用户的查询,可以把我们的网站加入搜索引擎。不同的搜索引擎有不同的注册程序和方法。 多数的搜索引擎只需要我们网址的URL。然后用“robot”或“spider”程序访问我们的网站,进行查询把相关的内容编入网页,通常被之为Meta标记。

Meta标记是在主页上可以使用的HTML的一部分,用来为搜索引擎嵌入信息。Meta标记定义了有关文件的信息,如:许多搜索引擎使用的关键字;文件的限期;文件的作者

用Meta标记进行搜索引擎识别:许多搜索引擎的主页上有如下格式的Meta标记引言息: <code>   <META name=descriptioncontent=“Concerningwithtileenvironment.”>   <META name=“keywords”content=“protectname”> }}

  这时候搜索引擎就会做这两件事:1.将两个栏位的词作索引。2.将URL的描述传回。当查询条件符合时画面回以下列方式显示:

  Save the Plant Association。

  Concern with the environment。

  http://www.save-earth.org/-size.3k-29Feb96

注意:搜索引擎所允许的description与keywords这两个标签所做成的索引最多至1024个符号。

六,搜索技术

Google搜索帮助

要进行简单搜索,可以在搜索框内输入一个简单的关键字或很短的短语就可以了。但是它只适用于对容易、专用的对象进行查询,而对于复杂的题目或缩小标准查询的范围就需要用到复杂的查询方式了。

正如基本的数学运算具有加、减、乘、除四则运算一样,布尔运算也有AND、OR、NOT以及NEAR运算。

注意:不同的搜索引擎支持的布尔运算各不相同,具体的用法应当查询各搜索引擎的帮助。

执行运算符

Alta Vista

Excite

Lycos Pro

结果必须包括两个值

AND,&

AND

AND,&

结果包含两个其中一个

OR,|

OR

OR,|

结果必须包含一个特殊字符

+

+

+

结果必须没有改一个特殊字符

AND NOT ,!,

ANDNOT,

NOT, !,

在一个网页中两个关键词有某种程度的接近(远或近)

NEAR,

ADJ, NEAR, FAR, BEFFOR

把单词组合成词组

“ “

” “

” “

布尔运算的组合

()

()

(),<>, [],{}

搜索在拼写中包含该词

*(如 color*到color,colors,colorize)

$(如color$到color,colors,colorize等)

不扩展该词

.(color.只到,color,没有colors等)

Veronica:Veronica是通过Gopher使用的一种自动搜索服务,可以用Gopher很迅速简捷地搜索信息。

6,桌面搜索:号称第四代网络寻址方式。桌面搜索能帮助个人电脑用户在本地机和网络上快速搜索资料信息。苹果、微软、Google、中国搜索等正全力开发。

八,搜索引擎广告

搜索引擎广告

参见

GOBY是一个事件搜索引擎,获取网络中并没有事件搜索引擎这个词汇。对于GOBY,这个词汇好像正合适。通过搜索“想做什么、哪里和什么时间”的方法过滤信息。|:GOBY实际上就是一个结合自身产品的搜索引擎集合器|

BetterFly人物搜索|BetterFly提供的人物搜索并不是人肉搜索,严格从网站信息来看,更像一个求职招聘网。只是分类的信息不是工作内容而是人物属性。比如,你想找个护士,导游,教练或者其他什么人

我阅读科研文献的一些做法

名称:WhosTalking

简介:关键词跟踪工具

虹语:WhosTalking 采集了来自于 60 多个主要的信息来源,包括 Google、Twitter、Technorati 等等,可以根据用户搜索的关键词快速提供相应的检索条目,实时进行更新。

期待猫叫:图书馆与古歌及其同类的竞争

搜索引擎的工作机制.图

中文搜索引擎技术解密:网络蜘蛛

中文搜索引擎技术解密:排序技术

中文搜索引擎技术解密:分词技术

搜索引擎目录

网络搜索技术、模式与竞争大变局

中国企业搜索营销研究报告2004

基本的和高级搜索技术