信息檢索是什麽?它和搜索引擎的關系是什麽?以及,如何更好地使用搜索引擎?
信息檢索(Information Retrieval)起源于圖書(shū)館的資(zī)料查詢和文摘索引。計算機誕生(shēng)後,信息檢索的内容已經從文本檢索,擴大(dà)到圖片、音頻(pín)、視頻(pín)等各種信息的檢索。
通常信息檢索會包含一(yī)個 Query,即表述需求的查詢字段,和一(yī)份由系統回複的、包含所需要信息的文檔列表。
搜索引擎是最常見、規模最大(dà)的信息檢索系統。
通過爬蟲不斷抓取、存儲、更新互聯網中(zhōng)的網頁内容,再爲它們建立與字典類似的索引目錄,用戶在鍵入關鍵詞時,
就會通過關鍵詞在這些網頁中(zhōng)出現次數和位置,來判斷頁面與 Query 的相關性,并将它們由高到低排列起來。
說起來簡單,理解用戶的 Query,清除重複或低質量的頁面,建立高效的索引,每一(yī)項都不簡單。建立一(yī)個好用的搜索引擎,
往往需要分(fēn)詞、信息抽取、文本分(fēn)類等各種各樣的 NLP 技術作爲支撐,小(xiǎo)小(xiǎo)的一(yī)個搜索框背後,凝聚着人類最頂尖的智慧。
找不到自己想要的信息?我(wǒ)(wǒ)們也可以學習使用一(yī)些高效的搜索語句,讓搜索引擎更好地理解我(wǒ)(wǒ)們,有機會不妨試試它們吧!