虽然后世以百度、谷歌为代表的搜索引擎最终呈献给用户的,只是一个只有一个搜索条和一个搜索按钮的简单页面,但是隐藏在页面后台的却是一个由成千上万台服务器,天文数字级的海量数据,以及一个复杂的搜索引擎软件组成的庞大系统,而这个系统的核心,就是搜索引擎。
搜索引擎虽然很复杂,但是其系统总体架构却并不复杂,主要由网络数据采集模块,数据分析排序模块,数据库,用户查询请求分析模块等组成,起工作流程也很简单:
网络数据采集模块是一个很重要的模块,其主要功能是从网络上抓取网页信息发送回搜索引擎服务器,这个模块有一个很形象的名字,叫做网络蜘蛛,也有人把它叫做网络机器人,之所以叫网络蜘蛛,是因为蜘蛛会踩着它吐的蛛丝在网上漫步,而网络蜘蛛虽然自己不吐丝,但是互联网上的超链接却将无数的网页连接成一个巨大的网,网络蜘蛛则会在这个网上不停地到处爬行,采集网页信息,之所以叫网络机器人,却是因为这种爬行搜索的过程,是完全自动化进行的缘故。
网络蜘蛛将搜集到的网页信息,发送回搜索引擎服务器,由网络数据分析模块对之进行分析,按照一定的算法,给每个网页赋予一定的权重,将网页进行排序。
判断一个搜索引擎的优劣,很大程度上,取决于这个排序算法,一个优秀的全文搜索引擎,能够通过优化排序,让用户第一时间得到自己想要的信息,而不用继续往下翻页,所以,这个排序算法将会是整个搜索引擎最核心的技术。
Loading...
未加载完,尝试【刷新】or【关闭小说模式】or【关闭广告屏蔽】。
尝试更换【Firefox浏览器】or【Chrome谷歌浏览器】打开多多收藏!
移动流量偶尔打不开,可以切换电信、联通、Wifi。
收藏网址:www.shellbook.cc
(>人<;)