【分類】
1.全文索引
全文搜索引擎是名副其實(shí)的搜索引擎,國(guó)外代表有Google,國(guó)內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主),建立起數(shù)據(jù)庫(kù),并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。
根據(jù)搜索結(jié)果來(lái)源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,能自建網(wǎng)頁(yè)數(shù)據(jù)庫(kù),搜索結(jié)果直接從自身的數(shù)據(jù)庫(kù)中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫(kù),并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。
2.目錄索引
目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞()進(jìn)行查詢。目錄索引中最具代表性的莫過(guò)于大名鼎鼎的Yahoo!、新浪分類目錄搜索。
3.元搜索引擎
元搜索引擎(META Search Engine)接受用戶查詢請(qǐng)求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有、Dogpile、等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來(lái)源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如。
其他非主流搜索引擎形式
(1)集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時(shí)調(diào)用多個(gè)搜索引擎進(jìn)行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
(2)門(mén)戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務(wù),但自身既沒(méi)有分類目錄也沒(méi)有網(wǎng)頁(yè)數(shù)據(jù)庫(kù),其搜索結(jié)果完全來(lái)自其他搜索引擎。
(3)免費(fèi)鏈接列表(Free For All Links,簡(jiǎn)稱FFA):一般只簡(jiǎn)單地滾動(dòng)鏈接條目,少部分有簡(jiǎn)單的分類目錄,不過(guò)規(guī)模要比Yahoo!等目錄索引小很多。
【工作原理】
1、抓取網(wǎng)頁(yè)
每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序(spider)。Spider順著網(wǎng)頁(yè)中的超鏈接,連續(xù)地抓取網(wǎng)頁(yè)。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。
2、處理網(wǎng)頁(yè)
搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁(yè)、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度。
3、提供檢索服務(wù)
用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。
*請(qǐng)認(rèn)真填寫(xiě)需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。