1.信息檢索現(xiàn)狀
1.1現(xiàn)狀
網(wǎng)頁(yè)是因特網(wǎng)的最主要的組成部份,也是人們獲取網(wǎng)絡(luò)信息的最主要的來(lái)源,為了方便人們?cè)诖罅糠彪s的網(wǎng)頁(yè)中找尋自己需要的信息,這類檢索工具發(fā)展的最快。一般認(rèn)為,基于網(wǎng)頁(yè)的信息檢索工具主要有網(wǎng)頁(yè)搜索引擎和網(wǎng)絡(luò)分類目錄兩種。網(wǎng)頁(yè)搜索引擎是通過(guò)“網(wǎng)絡(luò)蜘蛛”等網(wǎng)頁(yè)自動(dòng)搜尋軟件搜索到網(wǎng)頁(yè),然后自動(dòng)給網(wǎng)頁(yè)上的某些或全部字符做上索引,形成目標(biāo)摘要格式文件以及網(wǎng)絡(luò)可訪問(wèn)的數(shù)據(jù)庫(kù),供人們檢索網(wǎng)絡(luò)信息的檢索工具。網(wǎng)絡(luò)目錄則是和搜索引擎完全不同,它不會(huì)將整個(gè)網(wǎng)絡(luò)中每個(gè)網(wǎng)站的所有頁(yè)面都放進(jìn)去,而是由專業(yè)人員謹(jǐn)慎地選擇網(wǎng)站的首頁(yè),將其放入相應(yīng)的類目中。網(wǎng)絡(luò)目錄的信息量要比搜索引擎少得多,再加上不同的網(wǎng)絡(luò)目錄分類標(biāo)準(zhǔn)有些混亂,不便人們使用,因此雖然它標(biāo)引質(zhì)量比較高,利用它的人還是要比利用搜索引擎的人少的多。
1.2發(fā)展趨勢(shì)
網(wǎng)絡(luò)信息檢索工具的發(fā)展主要體現(xiàn)在進(jìn)一步改進(jìn)、完善檢索工具和檢索技術(shù),以提高檢索服務(wù)質(zhì)量,改變網(wǎng)絡(luò)信息檢索不盡如意的地方。主要體現(xiàn)在以下幾個(gè)方面:
1.2.1網(wǎng)絡(luò)檢索工具開(kāi)發(fā)提供商之間合作越來(lái)越緊密。過(guò)去一般網(wǎng)絡(luò)檢索工具提供商只依靠自己建立的數(shù)據(jù)庫(kù)來(lái)提供檢索服務(wù),檢索范圍有限,而現(xiàn)在某些著名的搜索引擎在購(gòu)買其他公司的數(shù)據(jù)庫(kù)或者技術(shù)內(nèi)核,有的與其他搜索引擎建立伙伴關(guān)系,以便用戶使用。
1.2.2信息檢索工具專業(yè)化及服務(wù)內(nèi)容深化。一些檢索工具已經(jīng)不再盲目追求加大收錄和標(biāo)引量,而更加注重突出專業(yè)特色。
1.2.3網(wǎng)絡(luò)信息工具智能化的發(fā)展趨勢(shì):
。1)信息檢索工具的智能化首先是網(wǎng)絡(luò)蜘蛛的智能化。
。2)其次是檢索軟件的智能化。
2.基于FTP文件的搜索工具
2.1現(xiàn)狀
如前所述,搜索引擎的雛形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本顯示的Archie。后來(lái)由于WEB的出現(xiàn),F(xiàn)TP搜索引擎發(fā)展受到了一定的影響。直到基于WEB的FTP搜索引擎出現(xiàn),它才越來(lái)越多受到人們的歡迎,用戶量也在迅速上升,重要性也日漸顯現(xiàn)出來(lái)。FTP搜索引擎的功能是搜集匿名FTP服務(wù)器提供的目錄列表并向用戶提供文件信息的查詢服務(wù)。目前,國(guó)內(nèi)做的最好的、規(guī)模最大的當(dāng)屬天網(wǎng)FTP文件搜索引擎,現(xiàn)在可以搜索2400萬(wàn)個(gè)文件(數(shù)據(jù)來(lái)源于天網(wǎng)主頁(yè)),2002年時(shí)的統(tǒng)計(jì)日訪問(wèn)量是40萬(wàn)次,這在世界FTP搜索引擎界也算是一個(gè)佼佼者。
2.2發(fā)展趨勢(shì)
正如前文所述,F(xiàn)TP文件搜索引擎技術(shù)還不是很成熟,但其發(fā)展非常迅速,其發(fā)展趨勢(shì)主要表現(xiàn)在以下幾個(gè)方面:
2.2.1檢索功能日益豐富。天網(wǎng)FTP文件搜索引擎現(xiàn)在可以實(shí)現(xiàn)以文件大小、文件的上傳日期、以及網(wǎng)段(比如說(shuō)是華北網(wǎng)、華東網(wǎng)等)等多個(gè)條件的高級(jí)檢索來(lái)限制檢索結(jié)果;AlltheWeb增加了檢索方式(規(guī)則表達(dá)檢索、準(zhǔn)確檢索、瀏覽、對(duì)大小寫敏感與否等等),限制主機(jī)(是edu還是gov或者com等),文件類型以及文件大小、日期等功能。
2.2.2檢索服務(wù)的個(gè)性化,F(xiàn)在FTP搜索引擎研究者已經(jīng)開(kāi)始注意這一方面,天網(wǎng)ftp搜索引擎已經(jīng)有了很多可以個(gè)性化的選項(xiàng):可以設(shè)置用戶不同偏好的排序方式,可以設(shè)定國(guó)外文件優(yōu)先還是本國(guó)文件優(yōu)先,對(duì)于國(guó)外用戶是不是應(yīng)該國(guó)外文件優(yōu)先,是FTP上文件優(yōu)先還是WWW上的文件優(yōu)先,是選擇中文的還是英文的等等。AlltheWeb則是可以完成更豐富的個(gè)性化設(shè)置,比如說(shuō)可以選擇一個(gè)主機(jī)提供一個(gè)結(jié)果、設(shè)置語(yǔ)言、搜索的文件大小設(shè)置、是否亮度顯示搜索關(guān)鍵詞、設(shè)置使用者語(yǔ)言、以及鍵盤快捷鍵等等。
3.基于網(wǎng)絡(luò)檢索工具的檢索技術(shù)
3.1隨著網(wǎng)上信息資源的膨脹發(fā)展,一種搜索引擎,無(wú)論它多么完善都不可能滿足一個(gè)人所有的檢索需求。如果遇到文獻(xiàn)普查、專題查詢、新聞?wù){(diào)查與溯源、軟件及MP3下載地址搜索等情況,人們就更需要使用多種搜索引擎來(lái)比較、篩選和相互印證。為解決逐一登陸各搜索引擎,在各搜索引擎中分別多次輸入同一檢索請(qǐng)求(檢索字串)等煩瑣操作,基于網(wǎng)絡(luò)檢索工具的檢索工具產(chǎn)生了。目前這列檢索工具只要有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎是在一個(gè)檢索界面上鏈接若干種獨(dú)立的搜索引擎,檢索時(shí),一次檢索輸入,可以指定搜索引擎也可以要求多個(gè)引擎同時(shí)檢索,搜索結(jié)果由各搜索引擎分別以不同頁(yè)面提交的網(wǎng)絡(luò)檢索工具,其實(shí)是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合。集成搜索引擎制作與維護(hù)技術(shù)簡(jiǎn)單,可隨時(shí)對(duì)所鏈接的搜索引擎進(jìn)行增刪調(diào)整和及時(shí)更新,尤其大規(guī)模專業(yè)(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。
3.2發(fā)展趨勢(shì)。這類檢索工具的發(fā)展趨勢(shì)主要表現(xiàn)在下面幾個(gè)方面:
3.2.1檢索結(jié)果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以實(shí)現(xiàn)搜索結(jié)果的自動(dòng)分類,用戶即可以利用傳統(tǒng)的方式瀏覽結(jié)果,也可以利用其同屏的分類結(jié)果提示找尋自己需要的內(nèi)容。EZ2WWW高級(jí)搜索功能提供1000多種專項(xiàng)資源檢索,可進(jìn)行目錄檢索。SurfWax有一個(gè)其它元搜索引擎沒(méi)有的獨(dú)特功能,即點(diǎn)擊每條結(jié)果左邊的“網(wǎng)址撳鈕”圖標(biāo),可瀏覽該結(jié)果包括的任何頁(yè)面,并顯示搜索語(yǔ)句在文件中的位置,也可以把搜索結(jié)果和文件存儲(chǔ)起來(lái)以備后用。天網(wǎng)搜霸已經(jīng)擁有了獨(dú)特的鏈接檢測(cè)功能,在幾秒鐘內(nèi)檢查當(dāng)前頁(yè)面查詢結(jié)果是否可以訪問(wèn),如果為標(biāo)注綠色,則鏈接可連通。
3.2.2檢索界面的個(gè)性化趨勢(shì)。天網(wǎng)搜霸和Google提供了IE瀏覽器的插件,安裝后就會(huì)被嵌到IE的工具欄,用戶不用登陸天網(wǎng)的主頁(yè),就可以實(shí)現(xiàn)檢索。用戶可以將自己喜歡的搜索引擎設(shè)置為主要搜索,也可以添加用戶自己喜歡的搜索引擎。天網(wǎng)搜霸不久前剛剛推出了可以嵌在Windows系統(tǒng)任務(wù)欄上的插件,現(xiàn)在用戶連打開(kāi)IE瀏覽器都不需要了。Mamma可以選擇使用短語(yǔ)檢索功能、設(shè)定檢索時(shí)間、設(shè)定每頁(yè)可顯示記錄數(shù),還提供了專門檢索頁(yè)面文件標(biāo)題的特殊檢索服務(wù),以及通過(guò)E-mail傳輸檢索結(jié)果的特色功能。MetaCrawler可以實(shí)現(xiàn)搜索引擎的選擇調(diào)用,基于域名、地區(qū)或國(guó)家的檢索結(jié)果過(guò)濾,最長(zhǎng)檢索時(shí)間設(shè)置,每頁(yè)可顯示的和允許每個(gè)搜索引擎返回的檢索結(jié)果數(shù)量的設(shè)定,設(shè)定檢索結(jié)果排序依據(jù)(包括相關(guān)度、域名、源搜索引擎)個(gè)性化定制保存。
3.2.3智能化。ProFusion可以自動(dòng)實(shí)現(xiàn)符合特殊檢索語(yǔ)法要求的轉(zhuǎn)換,如在調(diào)用Excite、InfoSeek、WebCrawler時(shí)將“NEAR”轉(zhuǎn)換成“AND”,在調(diào)用GoTo、Yahoo時(shí)將“NOT”刪除等;Mamma也支持常用檢索語(yǔ)法在不同搜索引擎中的轉(zhuǎn)換;C4可以支持自然語(yǔ)言檢索,雖然它沒(méi)有自己的數(shù)據(jù)庫(kù),卻可以提供網(wǎng)上的檢索結(jié)果。