1.什么是搜索引擎
搜索引擎( Search Engines)是指一些能夠主動搜索信息(搜索網頁上的單詞和特定的簡短內容描述)并將其自動索引的Web網站,其索引內容儲存在可供檢索的大型數據庫中,并建立索引和目錄服務。搜索引擎是一個提供信息檢索服務的網站,它使用某些程序把互聯網上的所有信息歸類,以幫助人們在茫;ヂ摼W中找到需要的信息。
搜索引擎是用于幫助互聯網用戶查詢信息的搜索工具,現在搜索引擎已經成為必備的上網工具了。如果你要購買一件商品,但你不知道去哪家網上商城購買,那么去找搜索引擎,搜索引擎可以滿足你的需求。
互聯網的快速發展,也導致了互聯網上大量“垃圾”信息的出現,而搜索引擎的作用之一就是將比較好的網站、質量比較高的網站排在搜索結果的前面,這樣就可以有效幫助用戶找到他們想要找的東西,這就是引擎的作用。
常見的搜索引擎介紹如下。
google:全球最大的搜索引擎,1998年9月7日以私有股份公司的形式創立,目標是設計并管理一個互聯網搜索引擎。Google公司總部位于美國加利福尼亞山景城,在世界各地設有銷售和工程辦事處。2010年, Google退出中國市場。
百度:全球最大的中文搜索引擎,2000年1月由李彥宏、徐勇兩人創立于北京中關村,致力于提供“簡單,可依賴”的信息獲取方式!鞍俣取倍衷从谥袊纬~人辛棄疾《青玉案·元夕》中的詩句“眾里尋他千百度”,象征著百度對中文信息檢索技術的執著追求。
雅虎:美國著名的互聯網門戶網站,20世紀末互聯網奇跡的創造者之一,其服務包括搜索引擎、電子郵件獨立用戶新聞等,業務遍及24供多元化的網絡服務。
Bing:微軟公司推出的一款用以取代live Search的搜索引擎,簡體中文版Bing于2009年6月1日正式開放,其他語言版本于200年6月3日正式在全球范圍內發布。微軟方面稱,此款搜索引擎將以全新姿態面世,將帶來新革命。其內測代號為“Kumo”,后來才被命名為“Bing”
搜搜:騰訊旗下的搜索網站,是騰訊的主要業務單元之一,于2006年3月正式發布并開始運營。搜搜目前已成為中國網民首選的三大搜索引擎之一,主要提供實用便捷的搜索服務,同時承擔騰訊的全部搜索業務,是騰訊整體在線生活戰略中重要的組成部分。
2.搜索引擎的工作原理
搜索引擎要“知道”網上的新生事物,就得派“人”出去收集。每天都有新的網站,每天都有新的內容,而且這些新的內容是爆炸式的,靠人工不可能完成收集任務,所以搜索引擎的發明者就設計了一個計算機程序來執行這個任務,而這個計算機程序被人們稱為“探測器”。
探測器有很多叫法,如 Crawler(爬行器)、 Spider(蜘蛛)、 Robot(機器人)。這些叫法形象地描繪了搜索引擎派岀的蜘蛛機器人爬行在互聯網上探測新信息的情景, Google的探測器叫做 Googlebot,百度的探測器叫做 Baiduspider,Yahoo的探測器叫做Slurp。無論名字是什么,它們都是人們編制的計算機程序。它們不分晝夜地訪問各個網站,取回網站的內容、標簽、圖片等,然后依照搜索引擎的算法給定制索引。
搜索引擎的工作過程可簡略分為以下3個階段。
(1)爬行抓取:搜索引擎的蜘蛛程序通過鏈接爬行到網站,獲得網站頁面的HML代碼并存入數據庫。
(2)索引處理:蜘蛛程序把抓取的頁面數據中的文字、圖片等信息進行索引處理,為排名做準備
(3)排名:用戶輸入關鍵詞后,搜索引擎的排名算法調用索引數據庫中的信息計算并處理數據,然后按照相應的格式生成結果頁面。
3.爬行抓取
搜索引擎蜘蛛程序通過網頁的鏈接地址來尋找網頁,從網站的某一個頁面(通常是首頁)開始,讀取網頁的內容,找到網頁中的其他鏈接地址,然后通過這些鏈接地址尋找下個網頁直這樣循環下去,直到把這個網站的所有網頁都抓取為止。如果網站的內容質量不高或者有大量重復信息,蜘蛛程序就沒有“耐心”抓取網站里的所有信息了。如果把整個互聯網當成一個網站,那么蜘蛛程序就可以用這個原理把互聯網上所有的網頁都抓取下來。但是,在實際的工作中,搜索引擎蜘蛛程序是不能抓取所有的互聯網信息的,畢竟蜘蛛程序的帶寬資源、時間都不是無限的,它不可能“爬”到所有的頁面。受到這些因素的制約,搜索引擎只能爬行和收錄互聯網信息的一小部分。
4.索引處理
抓取網頁后,由分析索引系統程序對收集回來的網頁進行分析,提取相關信息(包括網頁所在URL、編碼類型、頁面內容包含的所有關鍵詞、關鍵詞的位置、生成時間、大小、與其他網頁的鏈接關系等),根據一定的相關度算法進行大量復雜的計算,得到每一個網頁針對頁面文字及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些信息建立網頁索引數據庫。
任何搜索引擎在進行內容索引的時候都是以文字為基礎的。搜索引擎在抓取頁面的時候,并非只訪問用戶能看到的文字信息,還包含大量的HTML代碼、CSS代碼、 Javascript代碼等對排名沒有作用的內容。抓取頁面之后,搜索引擎就要處理這些信息,從HIML代碼中分離出標簽、代碼,提取有利于網站排名處理的頁面文字內容。
5.排名
建立網頁索引數據庫后,當用戶輸入關鍵詞并進行搜索時,搜索系統程序會從網頁索引數據庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照相關度數值排序,相關度越高,排名越靠前。
影響相關性的因素包含如下幾個方面:
(1)關鍵詞岀現的位置:頁面關鍵詞岀現的位置會被搜索引擎抓取并記錄到索引庫中。會對搜索引擎排名造成影響的關鍵詞位置包括標題< title >標簽、<H1>標簽等。
(2)關鍵詞出現頻率:一般來說,關鍵詞在頁面中出現的頻率越高,密度越大,說明頁面與搜索詞的相關性越高,那么網頁的排名也較好。但是,如果刻意造成頁面關鍵詞堆積,頁面不僅不會有較好的排名,而且會受到搜索引擎的“懲罰”。所以,在進行頁面內容優化的時候,要注意關鍵詞的密度、頻率都不要太大。
(3)頁面的鏈接也影響著關鍵詞的相關性。如果頁面中有較多的搜索詞為錨文本鏈接,就說明頁面的相關性比較強,這會對搜索引擎相關性的計算產生影響。
相關性計算完畢,網站設計過程中,搜索引擎可能還有一些過濾算法用于對排名進行調整。雖然這些過濾算法包含對頁面作弊嫌疑的判定,相關性較高的頁面理應排在搜索結果的前面,但是搜索引擎的過濾算法可在最后的排名中把網站的排名調整到后面去。經過相關性算法、過濾算法之后,所有的網站設計關鍵詞排名都確定了,排名程序調用原始頁面的信息,并把這些信息在搜索結果中顯示出來。