X-Robots-Tag

X-Robots-Tag
中文名	X-爬蟲標籤
英文名	X-Robots-Tag
類型	HTTP 響應頭部
所屬協議	Robots 排除協議（REP）
發布年份	約 2007 年
關鍵功能	控制頁面或資源的索引、鏈接跟蹤和搜索結果呈現
支持格式	HTML、PDF、圖像、視頻、Office 文檔等

X-Robots-Tag 是一個 HTTP 響應頭部字段，用於向網絡爬蟲和搜索引擎機器人發出指令，告知其應如何處理特定 URL（包括網頁、圖片、PDF 等非 HTML 資源）的索引和在搜索結果中的呈現方式^[1]。該字段是 Robots 排除協議（Robots Exclusion Protocol）的一部分，由 Google、Bing 等主流搜索引擎支持，並被視作一種事實上的行業標準^[2]。

歷史與背景

X-Robots-Tag 的設計初衷是為非 HTML 內容（如 PDF 文件、圖像和視頻）提供與 HTML 網頁的 <meta name="robots"> 標籤同等的爬蟲指令控制能力^[3]。由於這些格式無法通過 HTML 元標籤嵌入指令，便需要一種基於 HTTP 響應頭部的替代方案。

該字段由 Google 和 Yahoo! 於 2007 年左右開始支持^[3]。隨着其得到廣泛採納，X-Robots-Tag 被納入 Robots 排除協議（REP）的技術體系，共同構成網站管理員與搜索引擎爬蟲之間的通信機制。值得注意的是，「X-」前綴通常表示實驗性或非標準化頭部。雖然 X-Robots-Tag 從未成為正式的 IETF 標準，但它作為事實標準被廣泛採用。

技術規格

作用機制

X-Robots-Tag 作為服務器響應的一部分，通過 HTTP 頭部字段進行傳遞。當爬蟲向服務器請求資源時，服務器在 HTTP 響應中包含該字段，爬蟲讀取並解析其指令，以決定是否對該資源進行索引、跟蹤鏈接或如何顯示在搜索結果中^[1]。

基本語法

X-Robots-Tag 的基本語法形式為 X-Robots-Tag: directive1, directive2, ...，支持一個或多個指令，多個指令之間以逗號分隔。

指令適用所有爬蟲，但也可以通過指定爬蟲名稱來限定特定爬蟲：

X-Robots-Tag: googlebot: noindex, nofollow
X-Robots-Tag: bingbot: noarchive

支持的主要指令

X-Robots-Tag 支持的指令集與 HTML <meta name="robots"> 標籤基本一致^[1]。常用指令包括：

all：對索引或服務無任何限制。此為默認行為。
noindex：要求爬蟲不將該資源收錄至搜索引擎的索引中，即資源不會出現在搜索結果中。
nofollow：要求爬蟲不跟蹤該資源頁面上的任何超鏈接。
none：等同於同時使用 noindex 和 nofollow。
nosnippet：防止搜索引擎在搜索結果中顯示文本摘要或視頻預覽。
noarchive：禁止搜索引擎在搜索結果中提供此頁面的緩存副本鏈接。
noimageindex：防止頁面中的圖像被 Google 圖片搜索收錄（Google 特定）。
unavailable_after：指定一個日期和時間，在此之後爬蟲應從搜索結果中移除該頁面（已棄用）。

與 Robots.txt 的區別與協同

X-Robots-Tag、Robots.txt 和 Meta Robots 標籤是 Robots 排除協議的三大核心組件，三者功能互補：

robots.txt：控制爬蟲的「抓取」行為（crawling）。它規定了爬蟲是否可以訪問整個站點、特定目錄或特定文件。若一個 URL 在 robots.txt 中被 Disallow，爬蟲將不會抓取該頁面，從而無法讀取到其中的 X-Robots-Tag 指令^[4]。
X-Robots-Tag：控制資源的「索引」行為（indexing）。它適用於所有資源類型，包括非 HTML 文件，用於決定內容是否應該被放入搜索引擎的索引中^[1]。
meta robots：功能與 X-Robots-Tag 相同，但僅能應用於 HTML 文檔內部，無法控制非 HTML 資源。

因此，要有效從搜索結果中移除一個頁面，通常應允許爬蟲抓取（不在 robots.txt 中屏蔽該 URL），但通過 X-Robots-Tag 的 noindex 指令禁止索引。

應用場景

控制非 HTML 文件的索引：通過 HTTP 頭部的 X-Robots-Tag 指令，管理員可以阻止 PDF、Word 文檔、圖片、視頻等文件被搜索引擎收錄。
精細化 SEO 管理：開發者可以利用該標籤為不同搜索引擎設定規則（如 X-Robots-Tag: googlebot: noindex, bingbot: index），實現差異化控制。
管理大站點的抓取預算：對於大型網站，X-Robots-Tag 在不阻止爬蟲抓取的情況下精細管理索引，有助於搜索引擎更高效地抓取和索引核心內容。
處理動態 URL 和會話 ID：當內容管理系統或網站架構不易於直接編輯頁面源代碼時，通過服務器配置添加 X-Robots-Tag 是實施 robots 指令的有效替代方案。

局限性與安全注意事項

自願性遵守：作為 Robots 排除協議的一部分，X-Robots-Tag 基於自願遵守原則，並非所有網絡爬蟲（尤其是惡意爬蟲）都會遵從其指令。
依賴抓取：爬蟲必須先抓取到資源，才能讀取到 HTTP 響應頭部中的 X-Robots-Tag 指令。若在 robots.txt 中屏蔽了該資源，則指令不會被讀取^[4]。
非安全機制：X-Robots-Tag 不能作為一種安全訪問控制機制。它只是一個向搜索引擎發出的指令，無法阻止惡意用戶或爬蟲直接訪問資源。若要實現真正的訪問控制，應使用服務器端身份驗證或 IP 限制等措施。

查看與測試

網站管理員或開發者可通過多種方式驗證 X-Robots-Tag 的設置是否正確：

瀏覽器開發者工具：在 Chrome 等瀏覽器中，使用開發者工具（通常快捷鍵為 F12）的「網絡」（Network）面板，查看特定資源 HTTP 響應頭的詳細信息。
命令行工具：使用 curl -I <URL> 命令，查看服務器返回的完整 HTTP 頭部信息。
搜索引擎官方工具：Google 的 Search Console 提供了 URL 檢查（URL Inspection）工具，可以查看 Googlebot 抓取特定 URL 時所看到的 X-Robots-Tag 信息^[1]。

參見

Robots.txt
Meta Robots 標籤
Robots 排除協議（REP）

參考文獻

[:0-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 Google Search Central: Meta tags and X-Robots-Tag

[:1-2] Bing Webmaster: Robots Exclusion Protocol

[:2-3] 3.0 ^3.1 Yahoo! Search Blog: New Webmaster Tools (2007)

[:3-4] 4.0 ^4.1 Google Search Central: Robots.txt introduction

[1]

[2]

[3]

[4]