Sitemap:修订间差异

来自轻之舟百科
跳转到导航 跳转到搜索
CaelLab留言 | 贡献
CSV导入
 
CaelLab留言 | 贡献
无编辑摘要
第1行: 第1行:
Sitemap(网站地图)是一种用于向搜索引擎提供网站结构信息的文件,通常采用XML格式。它列出了网站中所有重要页面的URL,并可能包含每个页面的元数据,如最后修改时间、更新频率和相对优先级。Sitemap的主要作用是帮助搜索引擎爬虫更高效地发现、抓取和索引网站内容,特别是对于那些难以通过常规链接访问的页面。该协议最初由Google于2005年发起,现已成为行业标准,得到包括Google、Bing、Yahoo等主流搜索引擎的支持。


== 基础信息 ==


项目内容'''中文名'''​网站地图、站点地图'''外文名'''​Sitemap'''发起者'''​Google'''首次提出'''​2005年6月'''主要格式'''​XML、HTML、TXT、RSS/Atom'''主要用途'''​搜索引擎优化(SEO)、辅助网站导航'''协议标准'''​Sitemaps Protocol (sitemaps.org)'''核心功能'''​向搜索引擎提供网站URL列表及元数据
Sitemap(也译作站点地图、网站地图)是用于描述网站域名下页面、文件等资源的列表文件,其核心作用是为网站访问者或网络爬虫提供网站的资源结构信息,辅助导航与内容抓取。在英文语境中,首字母大写的'''Sitemap'''通常特指XML格式的爬虫专用站点地图,而小写的'''site map'''则可泛指所有类型的站点地图<ref>https://blog.csdn.net/qq3559727/article/details/52412742</ref>。根据面向对象的不同,Sitemap可分为面向普通用户的导航型站点地图,以及面向搜索引擎爬虫的结构化站点地图,其中XML格式的Sitemaps协议已成为主流搜索引擎通用的站点信息提交标准<ref>https://en.wikipedia.org/wiki/Site_map</ref>。


== 1 历史发展 ==
{| class="infobox vcard" style="float:right; margin:0 0 1em 1em; width:22em;"
|+ Sitemap
|-
| colspan="2" style="text-align:center;" |
|-
! 其他名称
| 站点地图、网站地图
|-
! 初始发布
| 2005年6月
|-
! 协议版本
| 0.9
|-
! 支持格式
| XML、HTML、TXT等
|-
! 开发者
| Google、Yahoo!、Microsoft
|-
|}
== 类型 ==
Sitemap根据设计目标与使用对象的不同,主要分为三类:
=== 规划型站点地图 ===
这类站点地图是网站设计师在网站开发规划阶段使用的原型文档,用于梳理网站的页面层级与功能结构,辅助开发团队明确网站的整体架构,不会对外发布。
=== 用户可见站点地图 ===
这类站点地图通常以HTML页面的形式呈现,以层级化的列表展示网站的重要页面链接,面向网站的普通访问者,帮助用户快速定位所需内容,同时也可辅助网络爬虫了解网站结构<ref>https://www.techopedia.com/definition/site-map</ref>。部分站点会采用按字母排序的索引式站点地图,作为层级化站点地图的补充。
=== 爬虫专用结构化站点地图 ===
这类站点地图是为网络爬虫(尤其是搜索引擎爬虫)设计的结构化文件,其中最主流的是XML格式的Sitemaps,此外也存在TXT格式的纯URL列表等形式。这类文件可以向爬虫明确告知网站内的可抓取资源,尤其适用于包含大量动态页面、无法通过普通链接被爬虫发现的网站<ref>https://en.wikipedia.org/wiki/Site_map</ref>。在此基础上,还衍生出了图片Sitemap、视频Sitemap等特化类型,用于向搜索引擎提交网站内的多媒体资源信息。


Sitemap协议由Google于2005年6月首次提出,作为一项名为“Google Sitemaps”的实验性项目。Google以知识共享许可协议发布了免费的协议规范,并同时发布了一个Python开源客户端,用于生成常见的Sitemap文件。
== XML Sitemaps协议 ==
XML Sitemaps是目前应用最广泛的爬虫专用Sitemap格式,其对应的Sitemaps协议由Google主导制定,后成为各大搜索引擎共同支持的标准。
=== 协议规范 ===
Sitemaps协议规定,XML格式的Sitemap文件必须采用UTF-8编码,文件内的所有数据值需进行实体转义。文件中可包含每个URL的相关元信息,包括:
* <code>loc</code>:资源的URL地址
* <code>lastmod</code>:资源的最后修改时间
* <code>changefreq</code>:资源的更新频率(仅作参考,部分搜索引擎已忽略该字段)
* <code>priority</code>:资源的相对优先级(仅作参考,部分搜索引擎已忽略该字段)
<ref>https://support.google.com/webmasters/answer/183668</ref>
对于包含大量URL的网站,还可使用Sitemap索引文件,将多个Sitemap文件整合在一起提交,单个Sitemap文件最多可包含5万条URL。
=== 示例 ===
以下是一个简单的XML Sitemap示例,包含三个页面的信息:
<source lang=xml>
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.example.net/?id=who</loc>
    <lastmod>2009-09-22</lastmod>
  </url>
  <url>
    <loc>http://www.example.net/?id=what</loc>
    <lastmod>2009-09-22</lastmod>
  </url>
  <url>
    <loc>http://www.example.net/?id=how</loc>
    <lastmod>2009-09-22</lastmod>
  </url>
</urlset>
</source>


2006年11月,Google、雅虎和微软的Live Search宣布共同支持Sitemaps协议,这标志着Sitemap成为第一个旨在改进搜索引擎爬网过程的联合开放行动。Ask.com于2007年4月加入支持行列。此后,美国亚利桑那州、犹他州、弗吉尼亚州等地的政府网站也陆续宣布采用Sitemaps。
== 历史 ==
 
2005年6月,Google首次推出Sitemaps 0.84版本,旨在帮助网站开发者向搜索引擎提交网站内的链接列表,解决动态页面难以被爬虫发现的问题<ref>https://en.wikipedia.org/wiki/Sitemaps</ref>。
随着互联网的发展,Sitemaps协议不断演进。2012年5月,Google宣布尝试在Sitemaps中添加rel="alternate"等标记,以支持多语言和移动设备适配。如今,Sitemap已成为网站SEO的基础设施之一,被绝大多数网站管理员和主流内容管理系统(CMS)所采用。
2006年11月,Google、Yahoo!与Microsoft(旗下必应搜索引擎)共同宣布联合支持Sitemaps协议,统一了站点地图的标准格式,使得网站开发者只需提交一份Sitemap即可被所有支持该协议的搜索引擎识别<ref>https://www.oreilly.com/library/view/web-site-design/9780596527265/ch04s04.html</ref>。此后,Ask等其他主流搜索引擎也陆续加入对该协议的支持,Sitemaps逐步成为搜索引擎优化(SEO)领域的标准工具之一。
 
== 2 主要类型与格式 ==
 
=== 2.1 XML Sitemap ===
 
XML Sitemap是用途最广、最受搜索引擎支持的站点地图格式。它是一种机器可读的文件,使用XML标签结构来列出URL并提供元数据。一个基本的XML Sitemap示例如下:
 
 
    https://www.caellab.com/hypertext/WWW/TheProject
    2026-01-01
 
 
XML Sitemap还可以通过扩展协议来提供关于重要性、更新频率;又或是图片、视频、新闻内容以及网页本地化版本的更多信息。
 
=== 2.2 HTML Sitemap ===
 
HTML Sitemap是面向人类用户的导航页面,通常以普通网页形式存在,其中包含指向网站所有主要部分的清晰链接结构。它主要用于提升用户体验,帮助访客快速找到所需内容,对SEO有间接好处。
 
=== 2.3 其他格式 ===
 
* '''文本Sitemap'''(Sitemap.txt):简单的文本文件,每行包含一个URL,适用于只需要提供网页网址的情况。
 
* '''RSS/Atom Feed''':如果内容管理系统生成RSS或Atom Feed,可以将该Feed的网址作为站点地图提交。mRSS(媒体RSS)Feed可用于向Google提供视频内容的详情。
 
=== 2.4 专用Sitemap ===
 
* '''图片Sitemap''':帮助搜索引擎发现和索引网站上的图片内容。
 
* '''视频Sitemap''':提供视频内容的元数据,如标题、类别、时长等。
 
* '''新闻Sitemap''':专为新闻发布商设计,用于加快新闻报道的索引速度。
 
== 3 XML Sitemap协议详解 ==
 
=== 3.1 文件结构 ===
 
XML Sitemap遵循标准化的协议格式,所有数据值都必须进行实体转义,文件本身采用UTF-8编码。
 
=== 3.2 核心标签 ===
 
标签必需性描述备注必需整个Sitemap文件的根元素,用于声明命名空间。必须包含xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"属性。必需每个URL条目的容器标签。每个标签对应一个网页。必需指定页面的完整规范URL。必须是绝对路径,包含协议(如https://),长度应少于2,048个字符。可选指示页面最后一次有意义的更新日期。应采用W3C日期时间格式(如YYYY-MM-DD)。Google会使用该值,但前提是数据准确并可验证。可选建议页面内容预期更改的频率。有效值包括:always、hourly、daily、weekly、monthly、yearly、never。'''Google已明确表示忽略此标签'''。可选建议页面相对于同一网站上其他页面的相对重要性。范围从0.0到1.0。'''Google已明确表示忽略此标签'''。
 
=== 3.3 Sitemap索引文件 ===
 
对于大型网站,当URL数量超过单个Sitemap文件的限制时,需要使用Sitemap索引文件。索引文件本身不包含页面URL,而是作为指向多个独立Sitemap文件的目录。
 
一个Sitemap.xml索引文件示例如下:
 
 
    https://baike.caellab.com/post-sitemap1.xml
    2026-04-17T00:58:38+08:00
 
 
    https://baike.caellab.com/page-sitemap1.xml
    2026-03-31T02:07:28+08:00
 
 
    https://baike.caellab.com/category-sitemap1.xml
 
 
== 4 作用与重要性 ==
 
=== 4.1 对搜索引擎优化(SEO)的核心价值 ===
 
Sitemap本身不会直接提升页面排名,但它为SEO成功奠定了基础。其主要价值体现在以下几个方面:
 
# '''确保全面收录''':帮助搜索引擎发现那些难以通过内部链接访问的“孤儿页面”,特别是对于结构复杂、链接层次深的大型网站。
 
# '''提升爬虫效率''':为搜索引擎爬虫提供清晰的“地图”,优化其爬行路径,确保重要核心页面被优先抓取和处理。
 
# '''加速内容索引''':当发布新内容或更新旧页面时,提交更新后的Sitemap可以作为一种“更新通知”,可能显著加快新页面被收录和旧页面信息更新的速度。
 
# '''改善多媒体内容索引''':通过专门的图片、视频Sitemap,帮助搜索引擎更好地理解和索引多媒体内容,从而在图片搜索和视频搜索中获得更多曝光机会。
 
=== 4.2 适用网站类型 ===
 
虽然所有网站都可以从Sitemap中受益,但以下类型网站尤其需要:
 
* '''大型网站'''(页面数量众多,内部链接结构可能不完善)。
 
* '''新网站'''(外部链接少,搜索引擎知晓度低)。
 
* '''富含动态内容、AJAX或Flash的网站'''(传统爬虫难以抓取)。
 
* '''拥有大量媒体内容(图片、视频)的网站'''。
 
* '''新闻网站'''(内容需要快速索引)。
 
== 5 创建、提交与维护 ==
 
=== 5.1 生成Sitemap ===
 
现代内容管理系统(CMS)通常提供自动生成Sitemap的功能:
 
* '''WordPress''':可通过SEOPress、Yoast SEO、Rank Math等插件自动生成。
 
* '''Shopify、Wix、Squarespace''':平台自动生成和处理。
 
* '''自定义网站''':可使用在线工具(如XML-Sitemaps.com)或命令行工具生成。
 
=== 5.2 提交给搜索引擎 ===
 
生成Sitemap文件后,需要主动提交给搜索引擎,最常见的方式是通过官方站长工具:
 
# '''Google Search Console''':登录后,在“索引”>“Sitemap”部分输入Sitemap文件的URL(如sitemap.xml)并提交。
 
# '''Bing Webmaster Tools''':在“配置我的网站”>“Sitemaps”部分提交。
 
# '''在robots.txt中声明''':在网站的robots.txt文件末尾添加一行:Sitemap: https://example.com/sitemap.xml,这样所有支持该协议的搜索引擎都能发现。
 
=== 5.3 最佳实践与维护 ===
 
* '''保持更新''':确保Sitemap动态反映网站的最新状态,新增、删除页面或更新内容时应同步更新Sitemap。
 
* '''控制文件大小''':遵循Google的限制:每个Sitemap文件最多包含50,000个URL,文件大小不超过50MB(未压缩)。超过限制时应使用Sitemap索引文件进行拆分管理。
 
* '''仅包含高质量页面''':Sitemap中只应列出希望被索引的、有独特价值的高质量页面,避免包含noindex页面、重定向页、错误页或重复内容页。
 
* '''监控状态''':定期在Google Search Console等工具中检查Sitemap的提交状态、发现的URL数量以及任何错误报告,并及时修复问题。
 
== 6 局限性 ==
 
理解Sitemap的局限性与理解其作用同样重要:
 
# '''不保证排名''':Sitemap只负责帮助页面“被发现”,不负责“被排名”。页面排名取决于内容质量、反向链接、用户体验等数百个因素。
 
# '''不保证100%收录''':提交Sitemap不能保证其中所有URL都会被索引。搜索引擎最终是否索引页面,仍取决于页面本身的质量和相关性。
 
# '''非强制命令''':Sitemap是对搜索引擎的“建议”而非“命令”。搜索引擎可以选择不抓取Sitemap中列出的URL。
 
== 7 参考文献 ==
 
# Google for Developers. 瞭解 Sitemap[EB/OL]. [https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview], 2025-12-18.
 
# 维基百科. 站点地图[EB/OL]. [https://zh.wikipedia.org/wiki/ https://zh.wikipedia.org/wiki/]站点地图, 2025-11-21.
 
# AI SEO Hacker. Sitemap 是什麼?網站地圖 SEO 教學讓 Google 更快找到你的內容[EB/OL]. [https://ai-seo-hacker.cc/sitemap-seo/ https://ai-seo-hacker.cc/sitemap-seo/], 2026-01-21.
 
# 站长百科. Sitemap[EB/OL]. [https://baike.zz.com/wiki/Sitemap https://baike.zz.com/wiki/Sitemap], 2022-07-15.
 
# 腾讯云. sitemap网站地图介绍及在线生成器[EB/OL]. [https://cloud.tencent.com/developer/article/2417542 https://cloud.tencent.com/developer/article/2417542], 2025-10-28.
 
# 中国大百科全书. 网站地图[EB/OL]. [https://www.zgbk.com/ecph/words?SiteID=1&ID=123456 https://www.zgbk.com/ecph/words?SiteID=1&ID=123456], 2023-06-02.
 
# Google for Developers. 透過 Sitemap 索引檔管理 Sitemap[EB/OL]. [https://developers.google.com/search/docs/crawling-indexing/sitemaps/sitemap-index https://developers.google.com/search/docs/crawling-indexing/sitemaps/sitemap-index], 2026-02-20.
 
# Google for Developers. 创建和提交站点地图[EB/OL]. [https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap], 2026-02-20.
 
# 翼果科技. XML Sitemap 最佳实践:让搜索引擎准确发现你的每一个重要页面[EB/OL]. [https://www.eguotech.com/article/xml-sitemap-best-practices https://www.eguotech.com/article/xml-sitemap-best-practices], 2026-03-05.
 
# 维度狐. 网站地图(Sitemap):它如何影响你的SEO与网站收录?[EB/OL]. [https://www.weiduhu.com/article/sitemap-seo-impact https://www.weiduhu.com/article/sitemap-seo-impact], 2025-11-30.
 
# 邦阅. 外贸网站优化:sitemap怎么设置有利于SEO[EB/OL]. 2025-08-30.
 
 
 
[[Category:SEO]]
[[Category:Sitemap]]
[[Category:网站优化]]

2026年4月20日 (一) 00:09的版本


Sitemap(也译作站点地图、网站地图)是用于描述网站域名下页面、文件等资源的列表文件,其核心作用是为网站访问者或网络爬虫提供网站的资源结构信息,辅助导航与内容抓取。在英文语境中,首字母大写的Sitemap通常特指XML格式的爬虫专用站点地图,而小写的site map则可泛指所有类型的站点地图[1]。根据面向对象的不同,Sitemap可分为面向普通用户的导航型站点地图,以及面向搜索引擎爬虫的结构化站点地图,其中XML格式的Sitemaps协议已成为主流搜索引擎通用的站点信息提交标准[2]

Sitemap
其他名称 站点地图、网站地图
初始发布 2005年6月
协议版本 0.9
支持格式 XML、HTML、TXT等
开发者 Google、Yahoo!、Microsoft

类型

Sitemap根据设计目标与使用对象的不同,主要分为三类:

规划型站点地图

这类站点地图是网站设计师在网站开发规划阶段使用的原型文档,用于梳理网站的页面层级与功能结构,辅助开发团队明确网站的整体架构,不会对外发布。

用户可见站点地图

这类站点地图通常以HTML页面的形式呈现,以层级化的列表展示网站的重要页面链接,面向网站的普通访问者,帮助用户快速定位所需内容,同时也可辅助网络爬虫了解网站结构[3]。部分站点会采用按字母排序的索引式站点地图,作为层级化站点地图的补充。

爬虫专用结构化站点地图

这类站点地图是为网络爬虫(尤其是搜索引擎爬虫)设计的结构化文件,其中最主流的是XML格式的Sitemaps,此外也存在TXT格式的纯URL列表等形式。这类文件可以向爬虫明确告知网站内的可抓取资源,尤其适用于包含大量动态页面、无法通过普通链接被爬虫发现的网站[4]。在此基础上,还衍生出了图片Sitemap、视频Sitemap等特化类型,用于向搜索引擎提交网站内的多媒体资源信息。

XML Sitemaps协议

XML Sitemaps是目前应用最广泛的爬虫专用Sitemap格式,其对应的Sitemaps协议由Google主导制定,后成为各大搜索引擎共同支持的标准。

协议规范

Sitemaps协议规定,XML格式的Sitemap文件必须采用UTF-8编码,文件内的所有数据值需进行实体转义。文件中可包含每个URL的相关元信息,包括:

  • loc:资源的URL地址
  • lastmod:资源的最后修改时间
  • changefreq:资源的更新频率(仅作参考,部分搜索引擎已忽略该字段)
  • priority:资源的相对优先级(仅作参考,部分搜索引擎已忽略该字段)

[5] 对于包含大量URL的网站,还可使用Sitemap索引文件,将多个Sitemap文件整合在一起提交,单个Sitemap文件最多可包含5万条URL。

示例

以下是一个简单的XML Sitemap示例,包含三个页面的信息: <source lang=xml> <?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

 <url>
   <loc>http://www.example.net/?id=who</loc>
   <lastmod>2009-09-22</lastmod>
 </url>
 <url>
   <loc>http://www.example.net/?id=what</loc>
   <lastmod>2009-09-22</lastmod>
 </url>
 <url>
   <loc>http://www.example.net/?id=how</loc>
   <lastmod>2009-09-22</lastmod>
 </url>

</urlset> </source>

历史

2005年6月,Google首次推出Sitemaps 0.84版本,旨在帮助网站开发者向搜索引擎提交网站内的链接列表,解决动态页面难以被爬虫发现的问题[6]。 2006年11月,Google、Yahoo!与Microsoft(旗下必应搜索引擎)共同宣布联合支持Sitemaps协议,统一了站点地图的标准格式,使得网站开发者只需提交一份Sitemap即可被所有支持该协议的搜索引擎识别[7]。此后,Ask等其他主流搜索引擎也陆续加入对该协议的支持,Sitemaps逐步成为搜索引擎优化(SEO)领域的标准工具之一。