成為搜索產品經理(1):搜尋引擎

人人都是產品經理 發佈 2020-01-06T13:33:38+00:00

本文作者從了解搜索產品經理的目的出發,對搜尋引擎的發展進行了梳理分析。希望通過此文能夠加深你對搜索產品的認識。最近和百度大搜的產品同學交流他的工作,交流之後,自我覺察到我對該崗位的工作認知仍不夠系統,當然,對一個工作崗位的認知也不是三言兩語,1個小時的溝通就能了解透徹的。

本文作者從了解搜索產品經理的目的出發,對搜尋引擎的發展進行了梳理分析。希望通過此文能夠加深你對搜索產品的認識。

最近和百度大搜的產品同學交流他的工作,交流之後,自我覺察到我對該崗位的工作認知仍不夠系統,當然,對一個工作崗位的認知也不是三言兩語,1個小時的溝通就能了解透徹的。

我嘗試在網絡上找一些資料,但發現,網絡上很少有系統化講解這一崗位的文章。本著羅老師在2020年時間的朋友裡面講到的「躬身入局」的精神,我嘗試查閱了一些枯燥無味的書籍以及文獻,並將其整理如下,與大家分享。

一、網際網路的發展

在討論如何成為搜索產品經理之前,我們需要了解搜尋引擎的發展。想要了解搜尋引擎的發展,我們先將時間軸拉回20世紀90年代,回顧網際網路的發展。

20世紀90年代,技術與產品的發展,為網際網路的快速普及和發展做好了準備。

1.1 技術上的發展

1991年,Tim Berners-Lee(蒂姆·伯納斯-李、全球資訊網的發明者)將超文本的概念引入網際網路,同時推出www雛形、配套的HTTP傳輸協議以及相應的Web服務技術

我來解釋一下,蒂姆·伯納斯-李做出這些發明,意味著什麼。

1.1.1 超文本概念

超文本(Hypertext)簡單來說是一種可以顯示在電腦顯示器或其他電子設備的文字,其中的文字包含了可以連結到其他欄位或文檔的超連結,允許從當前閱讀位置直接切換到超連結所指向的文字。

從其技術上來說,超文本是指使用超文本標記語言(HTML, Hyper Text Markup Language)編輯包含標記指令的文本文件,通過資源定位符(URL, United Resource Location )指向其他內容,在不同的文檔或同一文檔的不同部分質檢建立聯繫。使得使用者可以通過一個網址訪問不同網址的文件。

1.1.2 全球資訊網

全球資訊網WWW(World Wide Web)是一個通過網際網路訪問的,由許多互相連結的超文本組成的系統。是一個大規模的聯機式的信息儲藏所,英文簡稱Web。全球資訊網用連結的方法能方便地從網際網路的一個站點訪問另一個站點,從而主動地按需獲取豐富的信息。

5個全球資訊網站點

上圖畫了5 個全球資訊網的站點,它們可以遠隔數千里,但都必需連接在網際網路上。每一個全球資訊網站點都保存了許多文檔。這些文檔之間通過連結(link),有時候也被稱為超連結(hyperlink)的方式彼此相連。可以通過這個文檔連結到相隔很遠的另一個文檔,經過一定的時延,我們的螢幕上就可以將遠方發送過來的文檔顯示出來。

全球資訊網的出現使得網站數按指數增長,所以全球資訊網的出現可以說是網際網路發展中的一個里程碑。

1.1.3 HTTP傳輸協議

HTTP協議是Hyper Text Transfer Protocal(超文本傳輸協議)的縮寫,是用於從全球資訊網伺服器傳輸超文本到本地瀏覽器的傳送協議。

1.2 產品上的發展

1993年,第一個圖形瀏覽器mosaic誕生,網頁瀏覽客戶端趨於成熟。

Mosaic是第一個可以在同一個窗口顯示文本和圖片的瀏覽器。

MOSAIC

由於上述技術與產品的發展,網際網路的用戶群體也發生了變化,從開始的軍隊和高等科研院校,普及到了普通個人用戶。擴大的用戶群,為網際網路的商業化奠定了基礎。

二、搜尋引擎的發展

綜合因素,導致網際網路上的信息產生爆炸式增長。如何從海量信息中找到滿足用戶需求的信息,成為重點。

技術與產品的發展,降低了人們發布信息的門檻,同時,由於用戶群體的擴增,網絡上產生了大量的信息。

為了滿足用戶從海量信息中找到所需信息的訴求,一系列搜尋引擎商業公司開始建立。比如yahoo、InfoSeek、Fast Search等

搜尋引擎是對Internet上的信息資源進行搜集整理,然後供用戶查詢的系統。包含信息採集、信息整理、與用戶查詢3個部分。

2.1 目錄搜尋引擎

目錄搜尋引擎是指搜尋引擎的信息採集方式,也是搜尋引擎的搜索方法。

目錄搜索把搜集到的信息資源按照一定的主題分門別類,建立多級目錄結構。大目錄下面包含子目錄,子目錄下面又包含子目錄。依次原則建立多層具有包含關係的目錄。用戶查找信息時,採取逐層瀏覽打開目錄,逐步細化,就可以查到所需信息。

目錄搜尋引擎中,需要以人工方式採集信息,編輯人員對信息進行查看,形成信息摘要,然後將信息放置在對應的分類結構中。

2.1.1 雅虎

Yahoo是當時著名的搜索和門戶網站。yahoo的目錄搜尋引擎。

例如,中文雅虎網站的目錄搜尋引擎:

如果我們要在其中查找關於著名作家金庸的網頁,可以逐步搜索「藝術與人文」 | 「人文」 | 「文學」 | 「文學類別」 | 「小說」 | 「武俠」 | 「作者」 | 「金庸」,即可實現目的。

2.1.2 常用的中文目錄型搜尋引擎

  1. 搜狐
  2. 網易
  3. 新浪

目錄搜尋引擎的利與弊:

  • 利:由於加入了人工的因素,因此信息準確、導航質量高。
  • 弊:需要人工介入,維護量大,信息量少,信息更新不夠及時。

2.2 搜尋引擎技術的發展

隨著信息進一步快速發展,信息呈現爆髮式增長,目錄搜尋引擎的弊端顯現,不能好地滿足用戶需求。

在目錄型搜尋引擎技術發展之後,出現了不同的搜尋引擎技術:

  • 文本檢索
  • 連結分析
  • 用戶中心

在這不做詳細闡述。

三、搜尋引擎的目標

搜尋引擎的應用形式簡單:用戶輸入查詢詞,搜尋引擎返回查詢結果。

在這個過程中,只涉及兩個主體,用戶與搜尋引擎。

搜尋引擎的目標是提供更全、更准、更快的搜索服務。

在上面的3個目標中,更準是最關鍵的。

四、搜尋引擎的3個核心問題

在我們來分析搜尋引擎的3個核心問題之前,我們先來看一下單個搜索的簡單流程:

4.1 用戶需求

根據上圖,當用戶輸入查詢詞,搜尋引擎需要返回查詢結果。這個過程,我們可以將其視作一次人機互動。

人機互動,即人與計算機的互動,第一步是獲取用戶的意圖。

對於搜尋引擎來說,這也是非常重要的。只有獲取了用戶的真正意圖,後續的信息-意圖匹配才能展開。

用戶的意圖到底是什麼?

  • 不同的用戶,輸入搜索框的同一個查詢詞,有可能背後的意圖是不一樣的。
  • 同一個用戶,輸入搜索框同一個查詢詞,也有可能因為其所處場景不同,其意圖也是不一樣的。

如何識別上述的差異。這也是搜索系統需要解決的第一個核心問題,即此時此刻,用戶的真實搜索意圖是什麼?

4.2 與用戶需求相關的信息

明確了用戶查詢的真實意圖後,搜索系統需要從海量的信息中,找到能夠匹配用戶需求的內容。

搜索系統為用戶搜索意圖匹配關鍵信息方式的指導思想,還是基於關鍵詞的匹配。

當算法系統搜索到包含與用戶查詢詞相同的的網頁,這便是搜索到的信息可能是用戶想要查找的內容相關的最基本信號。如果是網頁或者文本的標題出現了這些關鍵字,則表示該信息與用戶想要查找的內容相關的可能性更大。

4.3 分辨出可信賴的信息

搜索的本質是找到滿足用戶需求的信息。

相關性是衡量信息是否滿足用戶需求的一個指標,信息的可靠性,同樣也是衡量搜索系統質量的重要指標。

「成為搜索產品經理」我會將其做為一個系列來寫,從網際網路的發展開始,抽絲剝繭,將我所了解的與大家分享,也期待能與大家討論,共同進步。

本篇是「成為搜索產品經理」的第一篇,後續我會陸續更新~

#參考資料#

1. Tim Berners-Lee 談網絡的未來

2. ~[https://en.wikipedia.org/wiki/Mosaic_(web_browser)](https://en.wikipedia.org/wiki/Mosaic_(web_browser))~

3. Internet應用基礎教程 | 尤曉東

4. 信息檢索 | 陳雅芝

5. 這就是搜尋引擎核心技術詳解

6. 超文本傳輸協議HTTP https://blog.csdn.net/codejas/article/details/79002339

7. Google 搜索 | 搜索算法的工作方式

本文由 @一顆西蘭花 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基於CC0協議

關鍵字: