搜尋引擎的前世今生:1.搜尋引擎的誕生與發展

互聯網老農民小王 發佈 2020-01-13T06:06:14+00:00

本文是該系列文章中的第1篇,在今天的這篇文章中,小王同學將會給大家主要介紹搜尋引擎技術的誕生歷史、發展歷程和每代技術中的核心思路。

前言


歡迎閱讀小王同學的長篇原創連載文章之《搜尋引擎的前世今生》。

本文是該系列文章中的第1篇,在今天的這篇文章中,小王同學將會給大家主要介紹搜尋引擎技術的誕生歷史、發展歷程和每代技術中的核心思路。


正文


故事要從1992年說起。

那是一個沒有「網」的年代。那時候天還很藍,大家主流的消磨時間的方式還是坐在村口的小板凳上聊天,而不是「坐下玩會兒手機」,畢竟那時候還沒有手機。

而時代的巨輪正在悄然啟動。這一年,美國副總統戈爾提出了「信息高速公路計劃」,次年,美國總統柯林頓全力推進了該計劃,並由此爆發了網際網路超常規發展的黃金十年

隨著「信息高速公路計劃」的推進,全球網際網路用戶急劇增加,網際網路上的信息也隨之不斷增加。時至1995年,網際網路上的Web站點數超過了100萬,也誕生了曾風雲一時的搜尋引擎Yahoo。


Yahoo誕生的背景是這樣的:網際網路上Web站點過載,普通用戶難以依賴手工瀏覽的方式獲取自己想要的信息。因此,雅虎當時選擇依靠人工編輯導航目錄的方式來給用戶提供服務(與hao123相似),這種方式為雅虎帶來了快速的發展。

隨著時間的推移,網際網路上的Web網站越來越多,網站的內容覆蓋的範圍也越來越大,傳統的人工編輯導航目錄逐漸不再適用。在1998年,Google成立並以PageRank連結分析等新技術大幅提升了搜索技術,來到了舞台的中心


兩年後的2000年,李彥宏先生攜「超鏈分析」技術回國創業,創立了眾里尋他千百度的「百度」,一併走到了舞台的中央

從搜尋引擎的誕生至今已有20餘年,搜尋引擎技術的發展也經歷了四個主要階段

第一個階段是,分類目錄的階段。


分類目錄可以稱之為「網址導航」,hao123和Yahoo是這個階段的代表。通過人工的收集和整理,把屬於各個門類的高質量網站進行羅列,減少了用戶篩選網站的複雜度,直接讓用戶進行訪問。

這是一種沒有技術含量但卻在網際網路發展早期非常好用的方案

第二個階段是,文本檢索的階段。

文本檢索的階段採用了許多經典的信息檢索模型,如布爾模型、向量空間模型或機率模型,用來計算用戶輸入的查詢詞(Query)與網頁文本內容的相關程度。

相比於第一個階段的分類目錄方法,文本檢索階段向前跨越了「一大步」,奠定了整個搜尋引擎的發展大方向。

在效果上,這一階段的解決方案仍然「差強人意」。

第三個階段是,連結分析的階段。

這一階段的搜尋引擎在文本檢索的基礎上,深入挖掘和利用了網頁中連結所隱含的信息。用現在的眼光看來,網頁之間的連結關係代表了一種「推薦關係」,通過對連結的分析可以得到重要的網站

這一階段的典型代表就是Google所提出的PageRank連結分析技術,通過連結分析對網頁重要性進行篩選,再結合文本檢索階段中的相關性使得搜索質量有了質的飛躍

第四個階段是,以用戶為中心的階段。

「以用戶為中心」並不是一句空話,而是最近這些年各大網際網路公司一直在實踐的方向。

隨著搜尋引擎技術的完善,一些問題逐漸浮出了水面。比如,同樣一個查詢詞「蘋果」,在果粉和果農心中的目的顯然不同;再比如,同樣一個用戶的查詢詞,也會因為搜索行為的時間和地點的不同而產生變化。

為了提供更好的搜索體驗和搜索質量,理解用戶帶來的信息至關重要。在這個階段,機器學習技術不斷的與搜尋引擎技術相融合,並大大改善了搜索質量和搜索體驗。

最後

今天小王同學介紹了搜尋引擎的誕生與發展,並著重介紹了幾代搜尋引擎的核心技術思路。

在下一篇文章中,小王同學講給大家帶來搜尋引擎的核心目標與技術架構分析

歡迎關注小王同學,獲取屬於你的技術內參。

關鍵字: