“万能”的搜索引擎

新华网 2017-07-30 作者:吕芮光

  

  每当我们需要查什么资料或者新闻的时候,都会打开搜索引擎,输入词组就可以直接搜出自己想要的内容。搜索引擎不但能搜索出海量内容,而且搜索速度很快。它到底是怎么工作的呢?这就要从两个方面单独来分析,一方面是为什么搜索引擎的速度这么快,另一个方面就是搜索引擎是怎么搜到这么多海量资源的。

  书籍自古以来都是人类进步和文明的重要标志之一,因为书籍可以不受时间、空间的限制,流传和保存信息。在没有网络以前,书籍是我们获取信息的主要工具。随着网络的普及,我们越来越多地通过网络搜索信息,网络成了获取信息的主要渠道。截止到2012年4月,互联网上被收录的网页已有五百多亿个。如果按照一本书有500页来估算,这就相当于一亿册图书的信息量。

  

  当我们在网上搜索一个词语时,搜索引擎会快速给我们展示结果。例如,我们在百度上搜索鸡蛋一次,百度搜索结果有几千万个。搜索引擎的服务器是怎么工作的?为什么能在一瞬间搜索出这么多结果?搜索引擎是逐个打开检索的网页吗?就算搜索引擎的服务器1秒钟能够打开并检索1万个网页,这五百亿的网页就需要检索将近两个月。我们为了得到一个信息居然要等两个月,这显然不是搜索引擎服务器的工作方式。

  服务器能够快速得出结果,是因为它利用了“关键词索引”。服务器会将所有网页扫描一遍,然后为网页中的每个词语都建立一个跟这个词语有关的关键词索引。如果一个词组在这个网页中多次出现,那就建立同一个关键字的多个索引,这就形成了关键字索引表。这个关键字索引表可以查到包含这个关键字的网页和位置。因为词组数量有限,其数目要远远小于网页数量。只要找到关键字的索引表之后,搜索引擎就能将对应的网页内容显示出来。

  

  人们越来越依赖网络,所以就把越来越多的内容放在互联网上。据估计,互联网上有数万亿的独立Web页面,人们利用搜索引擎从互联网上获取信息内容。我们知道了搜索引擎利用关键字索引表,而关键字索引表又是用关键字索引建立的,关键字索引则是服务器扫描网页时检索出关键字设立的。那么搜索引擎是怎么自动完成这些工作的?

  搜索引擎的工作一般分三步完成:

  一、 信息抓取。搜索引擎用被称为“网络爬虫”的程序来抓取网页上的所有链接。因为互联网上的网页存在互通性,大多数网页都可以通过其他页面的链接访问,网络爬虫就通过一个点爬遍大多数互联网网页。

  二、 建立索引。搜索引擎从网页页面中提取关键字,并把整个页面信息内容按照一定的规则保存到自己的数据库里。

  三、 结果显示。因为服务器早已经建立好了关键字索引,并把信息保存到了自己的数据库,所以当我们搜索某个词组时,服务器只需要检索自己的数据库就可以了。

  万能的搜索引擎像一个优秀的魔术师,让苦于解开某个难题的我们瞬间找到了解锁答案的钥匙。相信随着科技的进步,搜索引擎能为我们提供更为便捷的信息检索。

  本作品为“科普中国-科学原理一点通”原创 转载时务请注明出处

责任编辑:科普云

科普中国APP 科普中国微信 科普中国微博
新华网
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢