搜索引擎如何運作?
搜索引擎有三個主要功能:
抓取:在互聯網上搜索內容,查看他們找到的每個網址的代碼/內容。
索引:存儲和組織在爬網過程中找到的內容。一旦頁面在索引中,它就會在運行中顯示為相關查詢的結果。
排名:提供最能回答搜索者查詢的內容,這意味著結果按最相關的順序排列。
什么是搜索引擎抓取?
抓取是搜索引擎發送一組機器人(稱為爬蟲或蜘蛛)以查找新的和更新的內容的發現過程。內容可能會有所不同 - 可能是網頁,圖片,視頻,PDF等 - 但無論格式如何,內容都是通過鏈接發現的。
那個詞是什么意思?
遇到本節中任何定義的問題?我們的SEO詞匯表具有章節特定的定義,可幫助您保持最新速度。
Googlebot首先提取幾個網頁,然后按照這些網頁上的鏈接查找新網址。通過沿著這條鏈路跳過,爬蟲能夠找到新的內容并將其添加到名為Caffeine的索引中- 這是一個發現的URL的大型數據庫 - 以便在搜索者查找該URL上的內容的信息時進行檢索。很好的匹配。
什么是搜索引擎索引?
搜索引擎處理并存儲他們在索引中找到的信息,索引是他們發現并認為足以為搜索者提供服務的所有內容的龐大數據庫。
搜索引擎排名
當某人執行搜索時,搜索引擎會在其索引中搜索高度相關的內容,然后對該內容進行排序,以期解決搜索者的查詢問題。搜索結果按相關性排序稱為排名。通常,您可以假設網站排名越高,搜索引擎認為該網站對查詢的相關性就越高。
可以阻止部分或全部站點的搜索引擎抓取工具,或指示搜索引擎避免在索引中存儲某些頁面。雖然可能有理由這樣做,但如果您希望搜索者找到您的內容,則必須首先確保爬蟲可以訪問它并且可以編制索引。否則,它就像看不見一樣好。
抓取:搜索引擎可以找到您的網頁嗎?
正如您剛剛了解到的那樣,確保您的網站被抓取并編入索引是顯示在SERP中的先決條件。如果您已經擁有一個網站,那么最好先看看索引中有多少頁面。這將對Google是否正在抓取并查找您想要的所有頁面提供一些很好的見解,而不是您沒有。
檢查索引頁面的一種方法是“site:yourdomain.com”,一個高級搜索運算符。前往Google并在搜索欄中輸入“site:yourdomain.com”。這將返回Google在其指定網站的索引中的結果:
Google顯示的結果數量(請參閱上面的“關于XX結果”)并不準確,但它確實讓您清楚了解哪些網頁在您的網站上編制索引以及它們當前如何顯示在搜索結果中。
要獲得更準確的結果,請在Google Search Console中監控并使用“索引覆蓋率”報告。如果您當前沒有,則可以注冊免費的Google Search Console帳戶。使用此工具,您可以為您的網站提交站點地圖,并監控實際添加到Google索引的已提交頁面的數量等。
如果您沒有在搜索結果中的任何位置顯示,則可能有以下幾種原因:
1.您的網站是全新的,尚未抓取。
2.您的網站未鏈接到任何外部網站。
3.您網站的導航使機器人難以有效地抓取它。
4.您的站點包含一些稱為爬蟲指令的基本代碼,阻止搜索引擎。
5.您的網站因Google垃圾郵件策略而受到了處罰。
6.告訴搜索引擎如何抓取您的網站
如果您使用Google Search Console或“site:domain.com”高級搜索運算符,并發現索引中缺少某些重要頁面和/或某些不重要的頁面被錯誤編入索引,則可以進行一些優化實施以更好地指導Googlebot您希望如何抓取您的網絡內容。告訴搜索引擎如何抓取您的網站可以讓您更好地控制索引中的內容。
大多數人都會考慮確保Google能夠找到他們重要的頁面,但很容易忘記有可能是您不希望Googlebot查找的頁面。這些可能包括具有精簡內容的舊URL,重復的URL(例如電子商務的排序和過濾器參數),特殊促銷代碼頁,登臺或測試頁等等。
要使Googlebot遠離您網站的某些網頁和部分,請使用robots.txt。
robots.txt的
Robots.txt文件位于網站的根目錄(例如yourdomain.com/robots.txt)中,并建議您的網站搜索引擎應該和不應該抓取哪些部分,以及他們抓取您網站的速度,通過特定的robots.txt指令。
Googlebot如何處理robots.txt文件
1.如果Googlebot無法找到網站的robots.txt文件,則會繼續抓取該網站。
2.如果Googlebot找到某個網站的robots.txt文件,它通常會遵守這些建議并繼續抓取該網站。
3.如果Googlebot在嘗試訪問網站的robots.txt文件時遇到錯誤,但無法確定是否存在,則不會抓取該網站
優化抓取預算!
抓取預算是Googlebot在離開之前在您的網站上抓取的平均網址數,因此抓取預算優化可確保Googlebot不會浪費時間瀏覽您不重要的網頁,而忽略了您的重要網頁。抓取預算對于擁有數萬個網址的超大型網站最為重要,但阻止抓取工具訪問您絕對不關心的內容絕不是一個壞主意。只需確保不阻止抓取工具訪問您已添加其他指令的網頁,例如規范或無索引標記。如果Googlebot被阻止訪問某個網頁,則無法看到該網頁上的說明。
并非所有網絡漫游器都遵循robots.txt。意圖不好的人(例如,電子郵件地址刮刀)會構建不遵循此協議的機器人。實際上,一些不良演員使用robots.txt文件來查找您的私人內容的位置。雖然從登錄和管理頁面等私有頁面阻止抓取工具似乎合乎邏輯,以便它們不會顯示在索引中,但將這些URL的位置放在可公開訪問的robots.txt文件中也意味著具有惡意意圖的人可以更容易地找到它們。NoIndex這些頁面更好,并將它們放在登錄表單后面,而不是將它們放在robots.txt文件中。