如何修復可抓取性問題:改善SEO的18種方法

您一直在努力開發您的網站,迫不及待地想在搜索結果中看到它。但是,您的內容正在努力克服第 10頁的障礙。如果您優化了您的內容並確定您的網站應該排名更高,則問題可能存在於您的網站可抓取性中

什麽是可抓取性?搜索引擎使用搜索機器人來收集某些網站頁面參數。收集這些數據的過程被稱為抓取。基於這些數據,搜索引擎將網頁納入其搜索索引,這意味著該網頁可以被用戶找到。網站的可抓取性是指它對搜索機器人的可訪問性。你必須確保搜索機器人能夠找到你的網站頁面,獲得訪問權,然後 “閱讀 “它們。

我們還將這些問題分為兩類:您可以自己解決的問題以及需要開發人員或系統管理員參與解決更密集的技術SEO或網站問題的問題。當然,我們所有人都有不同的背景和技能,因此請暫定這一分類。

我們所說的“自己解決”是什麼意思:您可以管理您的網站頁面代碼和根文件。您還需要具備基本的編碼知識(在正確的位置以正確的方式更改或替換一段代碼)。

我們所說的“委託專家”是什麼意思:需要有服務器管理經驗和/或 Web開發技能。

 

元標籤或robots.txt問題

這種類型的問題相當容易檢測和解決,只需檢查你的元標籤和robots.txt文件,這就是為什麽你應該先看看它。整個網站或某些頁面可以不被Google看到,原因很簡單:它的網站爬蟲不被允許進入這些頁面。

有幾個機器人命令,可以防止頁面抓取。請注意,在robots.txt中設置這些參數並不是一個錯誤;正確和準確地使用這些參數將有助於節省抓取預算,並為機器人提供它們需要遵循的確切方向,以便抓取你希望抓取的網頁。

1.通過robots meta標籤阻止頁面索引

如果你這樣做,搜索機器人甚至不會開始看你的頁面內容,而是直接轉到下一個頁面。

你可以檢測這個問題,檢查你的頁面代碼是否包含這個指令:

<meta name="robots" content="noindex" />

2. NoFollow連結

在這種情況下,網站爬蟲將索引您頁面的內容,但不會跟踪連結。有兩種類型的nofollow指令:

對於整個頁面。檢查你是否有

<meta name="robots" content="nofollow">

在頁面代碼中 – 這意味著爬蟲無法跟踪頁面上的任何連結。

對於單個連結。這就是這段代碼在這種情況下的樣子:

href="pagename.html" rel="nofollow"/>

3.通過robots.txt阻止頁面索引

Robots.txt 是爬蟲查看的第一個網站文件。你能找到最痛苦的事情是:

User-agent: *
 Disallow: /

這意味著所有網站的頁面都被阻止索引。

可能會發生僅某些頁面或部分被阻止的情況,例如:

User-agent: *
 Disallow: /products/

在這種情況下,Products子文件夾中的任何頁面都將被禁止編入索引,因此您的任何產品說明都不會在Google中顯示。

 

內部斷開的連結

斷開的連結對於您的用戶和爬蟲來說總是一種糟糕的體驗。搜索機器人索引(或嘗試索引)的每個頁面都是抓取時間的支出。考慮到這一點,如果您有許多損壞的連結,機器人將浪費所有時間來為它們編制索引,並且不會到達相關且高質量的頁面。

Google Search Console中的抓取錯誤報告或SEMrush網站審核中的內部損壞連結檢查將幫助您識別此類問題。

4. 網址錯誤

網址錯誤通常是由您插入頁面的URL(文本連結、圖像連結、表單連結)中的拼寫錯誤引起的。請務必檢查所有連結是否正確輸入。

5. 過時的網址

如果您最近經歷了網站遷移、批量刪除或URL結構更改,則需要仔細檢查此問題。確保您沒有從您網站的任何頁面連結到舊的或已刪除的URL。

6. 拒絕訪問的頁面

如果您看到網站中有很多頁面返回,例如403狀態代碼,則可能只有註冊用戶才能訪問這些頁面。將這些連結標記為 nofollow,這樣它們就不會浪費抓取時間。

 

服務器相關問題 (5xx)

7. 服務器錯誤

大量5xx錯誤(例如 502 錯誤)可能是服務器問題的信號。要解決這些問題,請向負責網站開發和維護的人員提供有錯誤的頁面清單。此人將處理導致服務器錯誤的問題或網站配置問題。

8.服務器容量有限

如果您的服務器過載,它可能會停止響應用戶和機器人的請求。發生這種情況時,您的訪問者會收到“連接超時”消息。這個問題只能與網站維護專家一起解決,他們會估計是否應該增加服務器容量以及增加多少。

9. Web服務器配置錯誤

這是一個棘手的問題。該網站對你這個人來說可能是完全可見的,但它一直給網站爬蟲提供錯誤信息,所以所有的頁面都變得無法爬行。這可能是因為特定的服務器配置而发生的:一些網絡應用程序防火墻(例如Apache mod_security)默認會阻止谷歌機器人和其他搜索機器人。總而言之,這個問題,以及所有相關方面,必須由專家來解決。

網站地圖與robots.txt一起,是爬蟲的第一印象。一個正確的網站地圖會建議他們以你希望的方式來索引你的網站。讓我們來看看當搜索機器人開始查看你的網站地圖時,會出現什麽問題。

 

網站地圖XML的問題

10. 格式錯誤

有幾種類型的格式錯誤,例如,無效的URL或缺少標籤(請參閱完整清單以及針對每個錯誤的解決方案,請點擊此處)。

您可能還發現(在第一步)網站地圖文件被robots.txt 阻止了。這意味著機器人無法訪問網站地圖的內容。

11.網站地圖中的頁面錯誤

讓我們繼續討論內容。即使你不是一個網絡程序員,你也可以估計網站地圖中的URL的相關性。仔細看看你的網站地圖中的URL,確保每一個都是:相關的、最新的和正確的(沒有錯別字或誤碼)。如果抓取預算有限,機器人無法走遍整個網站,網站地圖的指示可以幫助他們首先索引最有價值的頁面。

不要用有爭議的指示誤導機器人:確保你的網站地圖中的URL沒有被meta指令或robots.txt阻止索引。

 

網站架構的錯誤

這一類的問題是最難解決的。這就是為什麽我們建議你在進行下面的問題之前,先通過前面的步驟。

這些與網站架構有關的問題會使爬蟲在你的網站上迷失方向或被阻擋。

12. 內部連結問題

在一個正確優化的網站結構中,所有的頁面形成一個不可分割的鏈條,使網站爬蟲可以很容易地到達每一個頁面。

在一個未經優化的網站中,某些頁面會脫離爬蟲的視線。這可能有不同的原因,你可以使用SEMrush的網站審核工具輕鬆檢測和分類或委託我們網站審核專家來為您排除。

  • 你想獲得排名的頁面沒有被網站上的任何其他頁面連結。這樣,它就沒有機會被搜索機器人發現和索引。
  • 主頁面和你想獲得排名的頁面之間有太多的過渡。常見的做法是4個連結過渡或更少,否則,機器人有可能不會到達它。
  • 一個頁面中有超過3000個活躍的連結(對爬蟲來說工作太多)。
  • 這些連結隱藏在不可索引的網站元素中:提交所需的表格、框架、插件(首先是Java和Flash)。

在大多數情況下,內部連結問題並不是你可以隨手解決的。需要與開發人員合作,對網站結構進行深入審查。

13. 錯誤的重定向

重定向是必要的,可以將用戶轉到更相關的頁面(或者,更好的是網站所有者認為相關的頁面)。下面是你在處理重定向時可能忽略的問題。

  • 臨時重定向而不是永久重定向。使用302或307重定向是給爬蟲的一個信號,讓他們一次又一次地回到這個頁面,花費爬蟲預算。所以,如果你明白原始頁面不需要再被索引,就為它使用301(永久)重定向。
  • 重定向循環。可能會发生兩個頁面被重定向到對方的情況。因此,機器人陷入了一個循環,浪費了所有的抓取預算。仔細檢查並刪除最終的相互重定向。

14.加載速度慢

你的網頁加載得越快,爬蟲就會越快地瀏覽它們。每一瞬間都很重要。而網站在SERP中的位置與加載速度相關。

使用谷歌PageSpeed Insights來驗證你的網站是否足夠快。如果加載速度可能讓用戶望而卻步,可能有幾個因素在影響它。

服務器端因素:你的網站速度慢的原因可能很簡單–目前的通道帶寬已經不夠用。你可以在你的定價計劃描述中檢查帶寬。

前端因素:最常見的問題之一是未優化的代碼。如果它包含大量的腳本和插件,你的網站就有風險。也不要忘記定期驗證你的圖片、視頻和其他類似的內容是否經過優化,不會降低頁面的加載速度。

15. 因網站架構不良而造成的頁面重復

重復內容是最常見的SEO問題,根據SEMrush最近的研究 “11個最常見的站內SEO問題”,50%的網站都存在重復內容。這是你耗盡抓取預算的主要原因之一。谷歌將有限的時間用於每個網站,所以通過索引相同的內容來浪費它是不恰當的。另一個問題是,網站爬蟲不知道哪個副本更值得信任,可能會優先考慮錯誤的網頁,只要你不使用冠詞來澄清問題。

要解決這個問題,你需要識別重復的頁面,並通過以下方式之一防止它們被抓取:

  • 刪除重覆的頁面
  • 在robots.txt中設置必要的參數
  • 在元標簽中設置必要的參數
  • 設置301重定向
  • 使用rel=canonical

16. 錯誤的JavaScript和CSS用法

然而在2015年,Google正式聲稱。”只要你沒有阻止Googlebot抓取你的JavaScript或CSS文件,我們一般都能像現代瀏覽器一樣渲染和理解你的網頁。” 不過這與其他搜索引擎(雅虎、Bing等)無關。此外,”一般 “意味著在某些情況下不能保證正確的索引。

 

網頁設計中的過時技術

17. Flash內容

使用Flash對於用戶體驗(某些移動設備不支持Flash文件)和搜索引擎優化來說都是一種滑坡。一個文本內容或Flash元素內的鏈接不太可能被爬蟲索引。

因此,我們建議幹脆不要在你的網站上使用它。

18. HTML框架

如果你的網站包含框架,那麽隨之而來的是好消息和壞消息。好的是,這可能意味著你的網站已經足夠成熟。這是個壞消息,因為HTML框架是非常過時的,索引性很差,你需要盡快用一個更先進的解決方案來取代它們。

例如:使用免費的WordPress,他的網站結構強大,同時也是對用戶友好的理想平台。

 

委托日常工作,專注於行動

不一定是錯誤的關鍵詞或與內容有關的問題使你在谷歌的雷達下漂浮。如果內容因為可抓取性問題而無法傳遞給引擎,那麽一個完美的優化頁面並不能保證你能讓它排在前列(和排名)。

要弄清楚是什麽東西在你的網站上阻擋或迷惑了谷歌的爬蟲,你需要從頭到尾審查你的域名。這是一項艱巨的工作,需要手動完成。這就是為什麽你應該把常規任務交給適當的工具。大多數流行的網站審核解決方案幫助你識別、分類和優先處理問題,因此你可以在得到報告後立即採取行動。此外,許多工具能夠存儲以前的審核數據,這讓你得到一個關於你的網站技術性能隨著時間推移的大圖片。

 

Read More