索引型搜索引擎 目錄 一 索引型搜索引擎的工作方式 二 常用索引型搜索引擎介紹 、百度、 一 索引型搜索引擎的工作原理 圖5-1 索引型搜索引擎的系統(tǒng)架構(gòu)圖 索引型搜索引擎的具體工作過程 索引型搜索引擎的具體工作過程 1. 搜索器搜索器包括“蜘蛛控制”和“網(wǎng)絡(luò)蜘蛛”兩部分。“網(wǎng)絡(luò)蜘蛛”(,,Robot),是一種可以查詢網(wǎng)頁上的超鏈接的自動搜索機(jī)器人程序。網(wǎng)絡(luò)蜘蛛從種子網(wǎng)頁出發(fā),通過反復(fù)下載網(wǎng)頁并從文檔中尋找未曾見過的URL,達(dá)到訪問其他網(wǎng)頁得以遍歷Web的目的。網(wǎng)絡(luò)蜘蛛的工作策略一般則可以分為兩種: ① 累積式抓取。 ② 增量式抓取。兩種抓取策略并不是相互排斥的,實(shí)際的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中,通常既包括累積式抓取,也包括增量式抓取的策略。 2. 分析器:和搜集器一起共同完成信息采集工作① 新的URL鏈接的獲取。網(wǎng)絡(luò)蜘蛛一般通過一個URL列表進(jìn)行網(wǎng)頁的自動分析與采集。起初的URL并不多,但當(dāng)網(wǎng)絡(luò)蜘蛛分析到網(wǎng)頁有新的鏈接時,就會把新的URL添加到URL列表,以便采集,隊(duì)列中記錄所有將被訪問的URL 及訪問順序。網(wǎng)絡(luò)蜘蛛從隊(duì)列中抽取一個URL,下載頁面,記錄該URL所指HTML 文件中所有新的URL,并將這些新的URL加入隊(duì)列中。
然后再以這些新的URL 為起始點(diǎn)重復(fù)上述過程,直到?jīng)]有滿足條件的新URL為止。② 網(wǎng)頁數(shù)據(jù)更新。搜索引擎的網(wǎng)絡(luò)蜘蛛一般要定期重新訪問所有網(wǎng)頁,更新網(wǎng)頁索引數(shù)據(jù)庫,以反映網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接。搜索引擎的自動信息搜集更新策略有定期搜索和提交網(wǎng)站搜索兩種 。 3. 索引器索引器將收集到的信息進(jìn)行分類整理,建立索引數(shù)據(jù)庫。由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。好的索引能提高搜索引擎系統(tǒng)的運(yùn)行效率及檢索結(jié)果的質(zhì)量。索引是搜索中較為復(fù)雜的部分,是搜索技術(shù)高低的集中體現(xiàn)。 4. 檢索器當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎接受查詢并分解查詢請求,由檢索器的搜索系統(tǒng)程序從索引數(shù)據(jù)庫中查找符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁,然后按等級進(jìn)行排序,并將排序結(jié)果返回給用戶。 5. 用戶接口用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。
(1)用戶檢索接口 (2)檢索結(jié)果顯示 二 常用索引型搜索引擎介紹 1. (.hk) (1)概況與特點(diǎn) 是由斯坦福大學(xué)博士生Larry Page與 Brin于1998年9月在美國硅谷創(chuàng)建的高科技公司。 一詞來源于“”,是10的100次方,表示公司整合網(wǎng)上海量信息的遠(yuǎn)大目標(biāo)。 自2000年商業(yè)運(yùn)營以來, 以其先進(jìn)的技術(shù)、全面的檢索功能和簡單有效的服務(wù),在全球范圍內(nèi)擁有了大量的用戶,目前已經(jīng)發(fā)展成為世界范圍內(nèi)規(guī)模最大的搜索引擎和最優(yōu)秀的搜索引擎之一。 公司還將其搜索引擎技術(shù)出售給世界上許多公司網(wǎng)站,目前包括、亞馬遜、微軟等知名網(wǎng)站在內(nèi)的全球數(shù)百家公司采用了搜索引擎技術(shù)。 支持使用中、英、德、日、法等50多種語言。 (2)中國概況 2000年9月12日,谷歌開發(fā)其主站.com的中文界面。 2005年7月,李開復(fù)加盟,并擔(dān)任中國區(qū)總裁。 2006年4月12日,全球CEO在北京宣布的中文名字為“谷歌”,正式進(jìn)入中國。
2009年9月4日前谷歌全球副總裁、大中華區(qū)總裁李開復(fù)正式辭職,公司未說明離職原因。 2010年初谷歌退出中國大陸。 (3)的技術(shù) 以其獨(dú)樹一幟的網(wǎng)頁級別()專利技術(shù),打破了傳統(tǒng)網(wǎng)絡(luò)分類概念。 該技術(shù)是基于網(wǎng)頁的自然結(jié)構(gòu),也就是當(dāng)從網(wǎng)頁A鏈接到網(wǎng)頁B時,就認(rèn)為“網(wǎng)頁A投了網(wǎng)頁B一票”。根據(jù)網(wǎng)頁的得票數(shù)評定其重要性。 除了考慮網(wǎng)頁得票數(shù)(即鏈接)的純數(shù)量之外,還要分析為其投票的網(wǎng)頁。“重要”網(wǎng)頁所投之票自然份量較重,有助于增強(qiáng)其他網(wǎng)頁的“重要性”。 重要的、高質(zhì)量的網(wǎng)頁可獲得較高的網(wǎng)頁級別,從而在搜索結(jié)果中可獲較高的排位。 (4)搜索功能介紹 布爾邏輯檢索功能 自動使用“and”進(jìn)行查詢. 不需要在關(guān)鍵詞之間加上“and”或“+”。如果您想縮小搜索范圍,只需輸入更多的關(guān)鍵詞,只要在關(guān)鍵詞中間留空格就行了。 用減號“-”表示邏輯“非”操作。“A –B”表示搜索包含A但沒有B的網(wǎng)頁。 會忽略最常用的詞和字符,這些詞和字符稱為忽略詞。 自動忽略“http”, “.com”和“的”等字符,這類字詞不僅無助于縮小查詢范圍,而且會大大降低搜索速度。
檢索范圍限制功能: site:搜索局限于一個具體網(wǎng)站 link:URL 顯示所有指向那個URL的網(wǎng)頁 :搜索某一類文件 :搜索的關(guān)鍵詞僅包含在網(wǎng)頁標(biāo)題中 其他: 使用英文雙引號則搜索含有與雙引號內(nèi)容完全一致字詞的網(wǎng)頁,例如:輸入“數(shù)字化的圖書館”時,會使“的”強(qiáng)加于搜索項(xiàng)中,結(jié)果網(wǎng)頁中一定含有完整的“數(shù)字化的圖書館”,不會出現(xiàn)僅含有“數(shù)字化”或“圖書館”的網(wǎng)頁。 (5) 高級檢索 檢索示例 利用搜索引擎,檢索最近一年內(nèi)教育與科研類網(wǎng)站()上發(fā)布的有關(guān)“信息資源檢索”方面的中文PPT文檔。類似結(jié)果 單擊“類似結(jié)果”時, 開始尋找與這一網(wǎng)頁相關(guān)的網(wǎng)頁。 如果您對某一網(wǎng)站的內(nèi)容很感興趣,但又嫌資料不夠, 會幫您找到其他有類似資料的網(wǎng)站;如果您在尋找產(chǎn)品信息, 會為您提供相關(guān)信息,供您比較. 已為成千上萬的網(wǎng)頁找到了類似結(jié)果或類似網(wǎng)頁,但網(wǎng)頁越有個性,能找到的類似網(wǎng)頁就越少。例如,您獨(dú)樹一幟的個人主頁就很難有類似網(wǎng)頁。 網(wǎng)頁快照 在訪問網(wǎng)站時,會將看過的網(wǎng)頁復(fù)制一份網(wǎng)頁快照,以備在找不到原來的網(wǎng)頁時使用。
單擊“網(wǎng)頁快照”時,您將看到 將該網(wǎng)頁編入索引時的頁面。在顯示網(wǎng)頁快照時,其頂部有一個標(biāo)題,用來提醒您這不是實(shí)際的網(wǎng)頁。符合搜索條件的詞語在網(wǎng)頁快照上突出顯示,便于您快速查找所需的相關(guān)資料。 尚未編入索引的網(wǎng)站沒有“網(wǎng)頁快照”,另外,如果網(wǎng)站的所有者要求 刪除其快照,這些網(wǎng)站也沒有“網(wǎng)頁快照”。 手氣不錯 如果在輸入關(guān)鍵詞后按下“手氣不錯”按鈕, 將帶你到它所推薦的網(wǎng)頁,無需查看其他結(jié)果,省時方便。 學(xué)術(shù)搜索 有用的百寶箱 搜索新成果 圖片搜索: — 復(fù)制粘貼圖片的URL ; — 通過本地上傳圖片文件; — 拖動圖片到搜索框; 語音搜索:/1/196/.htm 2. 百度() (1)百度概況與特點(diǎn) 百度是國內(nèi)最早的商業(yè)化全文搜索引擎去掉網(wǎng)站死鏈接,1999年由李彥宏和徐勇在美國硅谷創(chuàng)建,2000年開始在中國發(fā)展。 2000年5月,百度首次為門戶網(wǎng)站——硅谷動力提供搜索技術(shù)服務(wù),之后迅速占領(lǐng)中國搜索引擎市場,成為最主要的搜索技術(shù)提供商。 2001年8月,百度發(fā)布B搜索引擎Beta版,從后臺服務(wù)轉(zhuǎn)向獨(dú)立提供搜索服務(wù),并且在中國首創(chuàng)了競價排名商業(yè)模式。
2001年10月22日正式發(fā)布Baidu搜索引擎。 2005年8月5日,百度在美國納斯達(dá)克上市。目前,百度已成長為全球最大的中文搜索引擎。 百度搜索引擎把先進(jìn)的超級鏈接分析技術(shù)、內(nèi)容相關(guān)度評價技術(shù)結(jié)合起來,在查找的準(zhǔn)確性、查全率、更新時間、響應(yīng)時間等方面具有優(yōu)勢。 百度運(yùn)用了中文智能語言的處理方法去掉網(wǎng)站死鏈接,支持主流的中文編碼標(biāo)準(zhǔn),包括漢字內(nèi)碼擴(kuò)展規(guī)范(GBK)、簡體()、繁體(BIG5)等,并且能夠在不同的編碼之間轉(zhuǎn)換,極大方便了來自全球各個國家的中文搜索請求。 超過3萬個搜索聯(lián)盟會員,通過各種方式將百度搜索結(jié)合到自己的網(wǎng)站,使用戶不必訪問百度主頁,在上網(wǎng)的任何時候都能進(jìn)行百度搜索。 百度還提供手機(jī)搜索服務(wù)。3. () 是1995年12月由美國 (DEC)開發(fā)的能對整個信息資源進(jìn)行檢索的工具,被認(rèn)為是世界上功能最完善、搜索精度較高的優(yōu)秀搜索引擎之一。 第一個支持多語言搜索的搜索引擎; 第一個實(shí)現(xiàn)高級搜索語法,如NOT、AND、OR; 第一個推出圖片、音頻、視頻文件的檢索。
2003年,被公司收購,目前,為Yahoo公司的子公司。 4、其他索引型搜索引擎網(wǎng)址介紹 (1)Lycos,。 (2),。 (3),。 (4)Oingo,。 (5),。 (6)ASK ,。 (7)天網(wǎng)搜索,。 (8)中國搜索,。 (9)有道搜索,。 (10)搜狗搜索:/ 或百度搜索引擎使用作業(yè) 分別查找和baidu的高級搜索幫助,學(xué)習(xí)和練習(xí)使用Site、link、、等高級搜索功能。 查找《中國教育報》上關(guān)于哲學(xué)家湯一介的一篇文章。 如果要了解大學(xué)生創(chuàng)業(yè)需要做哪些準(zhǔn)備,如何進(jìn)行搜索? 嘗試或baidu的圖片搜索、地圖搜索、視頻搜索。用視頻搜索功能查找2011年9月30日馬云在斯坦福大學(xué)的演講。 嘗試的類似網(wǎng)頁、網(wǎng)頁快照、手氣不錯功能。 索引型搜索引擎 * “蜘蛛控制”得到網(wǎng)頁的URL,控制“網(wǎng)絡(luò)蜘蛛”抓取其它網(wǎng)頁,反復(fù)循環(huán)直到把所有的網(wǎng)頁抓取完成。 4 從網(wǎng)頁中“提取URL”,把URL送入“URL數(shù)據(jù)庫”。
3 將網(wǎng)頁送入“網(wǎng)頁數(shù)據(jù)庫”。 2 “網(wǎng)絡(luò)蜘蛛”根據(jù)站點(diǎn)/網(wǎng)頁的URL信息和網(wǎng)頁之間的鏈接關(guān)系從互聯(lián)網(wǎng)上抓取網(wǎng)頁。 信 息 采 集 1 運(yùn) 行 步 驟 順序 組織最后的頁面返回給“用戶”。 10 通過“查詢服務(wù)器”按照相關(guān)度進(jìn)行排序,并提取關(guān)鍵詞的內(nèi)容摘要。 9 服務(wù)器在“索引數(shù)據(jù)庫”中進(jìn)行相關(guān)網(wǎng)頁的查找,同時“網(wǎng)頁評級”把查詢請求和鏈接信息結(jié)合起來對搜索結(jié)果進(jìn)行相關(guān)度的評價。 8 “用戶”提交查詢請求給“查詢服務(wù)器”。 查 詢 服 務(wù) 7 同時進(jìn)行“鏈接信息提取”,把鏈接信息(包括錨文本、鏈接本身等信息)送入“鏈接數(shù)據(jù)庫”,為“網(wǎng)頁評級”提供依據(jù)。 6 系統(tǒng)從“網(wǎng)頁數(shù)據(jù)庫”中得到文本信息,送入“文本索引”模塊,形成“索引數(shù)據(jù)庫”。 組 織 5 運(yùn) 行 步 驟 順序 搜索某種特定類型的資料:除了搜索HTML文件外,支持13中非HTML文件的搜索,如PDF、DOC、PPT、XLS、RTF、SWF、PS等。 (6)特色服務(wù) 學(xué)術(shù)搜索提供可廣泛搜索學(xué)術(shù)文獻(xiàn)的簡便方法:自學(xué)術(shù)著作出版商、專業(yè)性社團(tuán)、預(yù)印本、各大學(xué)及其他學(xué)術(shù)組織的經(jīng)同行評論的文章、論文、圖書、摘要和文章。 學(xué)術(shù)搜索可幫助您在整個學(xué)術(shù)領(lǐng)域中確定相關(guān)性最強(qiáng)的研究。