|
|
| 第1行: |
第1行: |
| Sitemap(网站地图)是一种用于向搜索引擎提供网站结构信息的文件,通常采用XML格式。它列出了网站中所有重要页面的URL,并可能包含每个页面的元数据,如最后修改时间、更新频率和相对优先级。Sitemap的主要作用是帮助搜索引擎爬虫更高效地发现、抓取和索引网站内容,特别是对于那些难以通过常规链接访问的页面。该协议最初由Google于2005年发起,现已成为行业标准,得到包括Google、Bing、Yahoo等主流搜索引擎的支持。
| |
|
| |
|
| == 基础信息 ==
| |
|
| |
|
| 项目内容'''中文名'''网站地图、站点地图'''外文名'''Sitemap'''发起者'''Google'''首次提出'''2005年6月'''主要格式'''XML、HTML、TXT、RSS/Atom'''主要用途'''搜索引擎优化(SEO)、辅助网站导航'''协议标准'''Sitemaps Protocol (sitemaps.org)'''核心功能'''向搜索引擎提供网站URL列表及元数据
| | Sitemap(也译作站点地图、网站地图)是用于描述网站域名下页面、文件等资源的列表文件,其核心作用是为网站访问者或网络爬虫提供网站的资源结构信息,辅助导航与内容抓取。在英文语境中,首字母大写的'''Sitemap'''通常特指XML格式的爬虫专用站点地图,而小写的'''site map'''则可泛指所有类型的站点地图<ref>https://blog.csdn.net/qq3559727/article/details/52412742</ref>。根据面向对象的不同,Sitemap可分为面向普通用户的导航型站点地图,以及面向搜索引擎爬虫的结构化站点地图,其中XML格式的Sitemaps协议已成为主流搜索引擎通用的站点信息提交标准<ref>https://en.wikipedia.org/wiki/Site_map</ref>。 |
|
| |
|
| == 1 历史发展 == | | {| class="infobox vcard" style="float:right; margin:0 0 1em 1em; width:22em;" |
| | |+ Sitemap |
| | |- |
| | | colspan="2" style="text-align:center;" | |
| | |- |
| | ! 其他名称 |
| | | 站点地图、网站地图 |
| | |- |
| | ! 初始发布 |
| | | 2005年6月 |
| | |- |
| | ! 协议版本 |
| | | 0.9 |
| | |- |
| | ! 支持格式 |
| | | XML、HTML、TXT等 |
| | |- |
| | ! 开发者 |
| | | Google、Yahoo!、Microsoft |
| | |- |
| | |} |
| | == 类型 == |
| | Sitemap根据设计目标与使用对象的不同,主要分为三类: |
| | === 规划型站点地图 === |
| | 这类站点地图是网站设计师在网站开发规划阶段使用的原型文档,用于梳理网站的页面层级与功能结构,辅助开发团队明确网站的整体架构,不会对外发布。 |
| | === 用户可见站点地图 === |
| | 这类站点地图通常以HTML页面的形式呈现,以层级化的列表展示网站的重要页面链接,面向网站的普通访问者,帮助用户快速定位所需内容,同时也可辅助网络爬虫了解网站结构<ref>https://www.techopedia.com/definition/site-map</ref>。部分站点会采用按字母排序的索引式站点地图,作为层级化站点地图的补充。 |
| | === 爬虫专用结构化站点地图 === |
| | 这类站点地图是为网络爬虫(尤其是搜索引擎爬虫)设计的结构化文件,其中最主流的是XML格式的Sitemaps,此外也存在TXT格式的纯URL列表等形式。这类文件可以向爬虫明确告知网站内的可抓取资源,尤其适用于包含大量动态页面、无法通过普通链接被爬虫发现的网站<ref>https://en.wikipedia.org/wiki/Site_map</ref>。在此基础上,还衍生出了图片Sitemap、视频Sitemap等特化类型,用于向搜索引擎提交网站内的多媒体资源信息。 |
|
| |
|
| Sitemap协议由Google于2005年6月首次提出,作为一项名为“Google Sitemaps”的实验性项目。Google以知识共享许可协议发布了免费的协议规范,并同时发布了一个Python开源客户端,用于生成常见的Sitemap文件。
| | == XML Sitemaps协议 == |
| | XML Sitemaps是目前应用最广泛的爬虫专用Sitemap格式,其对应的Sitemaps协议由Google主导制定,后成为各大搜索引擎共同支持的标准。 |
| | === 协议规范 === |
| | Sitemaps协议规定,XML格式的Sitemap文件必须采用UTF-8编码,文件内的所有数据值需进行实体转义。文件中可包含每个URL的相关元信息,包括: |
| | * <code>loc</code>:资源的URL地址 |
| | * <code>lastmod</code>:资源的最后修改时间 |
| | * <code>changefreq</code>:资源的更新频率(仅作参考,部分搜索引擎已忽略该字段) |
| | * <code>priority</code>:资源的相对优先级(仅作参考,部分搜索引擎已忽略该字段) |
| | <ref>https://support.google.com/webmasters/answer/183668</ref> |
| | 对于包含大量URL的网站,还可使用Sitemap索引文件,将多个Sitemap文件整合在一起提交,单个Sitemap文件最多可包含5万条URL。 |
| | === 示例 === |
| | 以下是一个简单的XML Sitemap示例,包含三个页面的信息: |
| | <source lang=xml> |
| | <?xml version="1.0" encoding="UTF-8"?> |
| | <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> |
| | <url> |
| | <loc>http://www.example.net/?id=who</loc> |
| | <lastmod>2009-09-22</lastmod> |
| | </url> |
| | <url> |
| | <loc>http://www.example.net/?id=what</loc> |
| | <lastmod>2009-09-22</lastmod> |
| | </url> |
| | <url> |
| | <loc>http://www.example.net/?id=how</loc> |
| | <lastmod>2009-09-22</lastmod> |
| | </url> |
| | </urlset> |
| | </source> |
|
| |
|
| 2006年11月,Google、雅虎和微软的Live Search宣布共同支持Sitemaps协议,这标志着Sitemap成为第一个旨在改进搜索引擎爬网过程的联合开放行动。Ask.com于2007年4月加入支持行列。此后,美国亚利桑那州、犹他州、弗吉尼亚州等地的政府网站也陆续宣布采用Sitemaps。
| | == 历史 == |
| | | 2005年6月,Google首次推出Sitemaps 0.84版本,旨在帮助网站开发者向搜索引擎提交网站内的链接列表,解决动态页面难以被爬虫发现的问题<ref>https://en.wikipedia.org/wiki/Sitemaps</ref>。 |
| 随着互联网的发展,Sitemaps协议不断演进。2012年5月,Google宣布尝试在Sitemaps中添加rel="alternate"等标记,以支持多语言和移动设备适配。如今,Sitemap已成为网站SEO的基础设施之一,被绝大多数网站管理员和主流内容管理系统(CMS)所采用。
| | 2006年11月,Google、Yahoo!与Microsoft(旗下必应搜索引擎)共同宣布联合支持Sitemaps协议,统一了站点地图的标准格式,使得网站开发者只需提交一份Sitemap即可被所有支持该协议的搜索引擎识别<ref>https://www.oreilly.com/library/view/web-site-design/9780596527265/ch04s04.html</ref>。此后,Ask等其他主流搜索引擎也陆续加入对该协议的支持,Sitemaps逐步成为搜索引擎优化(SEO)领域的标准工具之一。 |
| | |
| == 2 主要类型与格式 == | |
| | |
| === 2.1 XML Sitemap ===
| |
| | |
| XML Sitemap是用途最广、最受搜索引擎支持的站点地图格式。它是一种机器可读的文件,使用XML标签结构来列出URL并提供元数据。一个基本的XML Sitemap示例如下:
| |
| | |
|
| |
| https://www.caellab.com/hypertext/WWW/TheProject
| |
| 2026-01-01
| |
|
| |
| | |
| XML Sitemap还可以通过扩展协议来提供关于重要性、更新频率;又或是图片、视频、新闻内容以及网页本地化版本的更多信息。
| |
| | |
| === 2.2 HTML Sitemap ===
| |
| | |
| HTML Sitemap是面向人类用户的导航页面,通常以普通网页形式存在,其中包含指向网站所有主要部分的清晰链接结构。它主要用于提升用户体验,帮助访客快速找到所需内容,对SEO有间接好处。
| |
| | |
| === 2.3 其他格式 ===
| |
| | |
| * '''文本Sitemap'''(Sitemap.txt):简单的文本文件,每行包含一个URL,适用于只需要提供网页网址的情况。
| |
| | |
| * '''RSS/Atom Feed''':如果内容管理系统生成RSS或Atom Feed,可以将该Feed的网址作为站点地图提交。mRSS(媒体RSS)Feed可用于向Google提供视频内容的详情。
| |
| | |
| === 2.4 专用Sitemap ===
| |
| | |
| * '''图片Sitemap''':帮助搜索引擎发现和索引网站上的图片内容。
| |
| | |
| * '''视频Sitemap''':提供视频内容的元数据,如标题、类别、时长等。
| |
| | |
| * '''新闻Sitemap''':专为新闻发布商设计,用于加快新闻报道的索引速度。
| |
| | |
| == 3 XML Sitemap协议详解 ==
| |
| | |
| === 3.1 文件结构 ===
| |
| | |
| XML Sitemap遵循标准化的协议格式,所有数据值都必须进行实体转义,文件本身采用UTF-8编码。
| |
| | |
| === 3.2 核心标签 ===
| |
| | |
| 标签必需性描述备注必需整个Sitemap文件的根元素,用于声明命名空间。必须包含xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"属性。必需每个URL条目的容器标签。每个标签对应一个网页。必需指定页面的完整规范URL。必须是绝对路径,包含协议(如https://),长度应少于2,048个字符。可选指示页面最后一次有意义的更新日期。应采用W3C日期时间格式(如YYYY-MM-DD)。Google会使用该值,但前提是数据准确并可验证。可选建议页面内容预期更改的频率。有效值包括:always、hourly、daily、weekly、monthly、yearly、never。'''Google已明确表示忽略此标签'''。可选建议页面相对于同一网站上其他页面的相对重要性。范围从0.0到1.0。'''Google已明确表示忽略此标签'''。
| |
| | |
| === 3.3 Sitemap索引文件 ===
| |
| | |
| 对于大型网站,当URL数量超过单个Sitemap文件的限制时,需要使用Sitemap索引文件。索引文件本身不包含页面URL,而是作为指向多个独立Sitemap文件的目录。
| |
| | |
| 一个Sitemap.xml索引文件示例如下:
| |
| | |
|
| |
| https://baike.caellab.com/post-sitemap1.xml
| |
| 2026-04-17T00:58:38+08:00
| |
|
| |
|
| |
| https://baike.caellab.com/page-sitemap1.xml
| |
| 2026-03-31T02:07:28+08:00
| |
|
| |
|
| |
| https://baike.caellab.com/category-sitemap1.xml
| |
|
| |
| | |
| == 4 作用与重要性 ==
| |
| | |
| === 4.1 对搜索引擎优化(SEO)的核心价值 ===
| |
| | |
| Sitemap本身不会直接提升页面排名,但它为SEO成功奠定了基础。其主要价值体现在以下几个方面:
| |
| | |
| # '''确保全面收录''':帮助搜索引擎发现那些难以通过内部链接访问的“孤儿页面”,特别是对于结构复杂、链接层次深的大型网站。
| |
| | |
| # '''提升爬虫效率''':为搜索引擎爬虫提供清晰的“地图”,优化其爬行路径,确保重要核心页面被优先抓取和处理。
| |
| | |
| # '''加速内容索引''':当发布新内容或更新旧页面时,提交更新后的Sitemap可以作为一种“更新通知”,可能显著加快新页面被收录和旧页面信息更新的速度。
| |
| | |
| # '''改善多媒体内容索引''':通过专门的图片、视频Sitemap,帮助搜索引擎更好地理解和索引多媒体内容,从而在图片搜索和视频搜索中获得更多曝光机会。
| |
| | |
| === 4.2 适用网站类型 ===
| |
| | |
| 虽然所有网站都可以从Sitemap中受益,但以下类型网站尤其需要:
| |
| | |
| * '''大型网站'''(页面数量众多,内部链接结构可能不完善)。
| |
| | |
| * '''新网站'''(外部链接少,搜索引擎知晓度低)。
| |
| | |
| * '''富含动态内容、AJAX或Flash的网站'''(传统爬虫难以抓取)。
| |
| | |
| * '''拥有大量媒体内容(图片、视频)的网站'''。
| |
| | |
| * '''新闻网站'''(内容需要快速索引)。
| |
| | |
| == 5 创建、提交与维护 ==
| |
| | |
| === 5.1 生成Sitemap ===
| |
| | |
| 现代内容管理系统(CMS)通常提供自动生成Sitemap的功能:
| |
| | |
| * '''WordPress''':可通过SEOPress、Yoast SEO、Rank Math等插件自动生成。
| |
| | |
| * '''Shopify、Wix、Squarespace''':平台自动生成和处理。
| |
| | |
| * '''自定义网站''':可使用在线工具(如XML-Sitemaps.com)或命令行工具生成。
| |
| | |
| === 5.2 提交给搜索引擎 ===
| |
| | |
| 生成Sitemap文件后,需要主动提交给搜索引擎,最常见的方式是通过官方站长工具:
| |
| | |
| # '''Google Search Console''':登录后,在“索引”>“Sitemap”部分输入Sitemap文件的URL(如sitemap.xml)并提交。
| |
| | |
| # '''Bing Webmaster Tools''':在“配置我的网站”>“Sitemaps”部分提交。
| |
| | |
| # '''在robots.txt中声明''':在网站的robots.txt文件末尾添加一行:Sitemap: https://example.com/sitemap.xml,这样所有支持该协议的搜索引擎都能发现。
| |
| | |
| === 5.3 最佳实践与维护 ===
| |
| | |
| * '''保持更新''':确保Sitemap动态反映网站的最新状态,新增、删除页面或更新内容时应同步更新Sitemap。
| |
| | |
| * '''控制文件大小''':遵循Google的限制:每个Sitemap文件最多包含50,000个URL,文件大小不超过50MB(未压缩)。超过限制时应使用Sitemap索引文件进行拆分管理。
| |
| | |
| * '''仅包含高质量页面''':Sitemap中只应列出希望被索引的、有独特价值的高质量页面,避免包含noindex页面、重定向页、错误页或重复内容页。
| |
| | |
| * '''监控状态''':定期在Google Search Console等工具中检查Sitemap的提交状态、发现的URL数量以及任何错误报告,并及时修复问题。
| |
| | |
| == 6 局限性 ==
| |
| | |
| 理解Sitemap的局限性与理解其作用同样重要:
| |
| | |
| # '''不保证排名''':Sitemap只负责帮助页面“被发现”,不负责“被排名”。页面排名取决于内容质量、反向链接、用户体验等数百个因素。
| |
| | |
| # '''不保证100%收录''':提交Sitemap不能保证其中所有URL都会被索引。搜索引擎最终是否索引页面,仍取决于页面本身的质量和相关性。
| |
| | |
| # '''非强制命令''':Sitemap是对搜索引擎的“建议”而非“命令”。搜索引擎可以选择不抓取Sitemap中列出的URL。
| |
| | |
| == 7 参考文献 ==
| |
| | |
| # Google for Developers. 瞭解 Sitemap[EB/OL]. [https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview], 2025-12-18.
| |
| | |
| # 维基百科. 站点地图[EB/OL]. [https://zh.wikipedia.org/wiki/ https://zh.wikipedia.org/wiki/]站点地图, 2025-11-21.
| |
| | |
| # AI SEO Hacker. Sitemap 是什麼?網站地圖 SEO 教學讓 Google 更快找到你的內容[EB/OL]. [https://ai-seo-hacker.cc/sitemap-seo/ https://ai-seo-hacker.cc/sitemap-seo/], 2026-01-21.
| |
| | |
| # 站长百科. Sitemap[EB/OL]. [https://baike.zz.com/wiki/Sitemap https://baike.zz.com/wiki/Sitemap], 2022-07-15.
| |
| | |
| # 腾讯云. sitemap网站地图介绍及在线生成器[EB/OL]. [https://cloud.tencent.com/developer/article/2417542 https://cloud.tencent.com/developer/article/2417542], 2025-10-28.
| |
| | |
| # 中国大百科全书. 网站地图[EB/OL]. [https://www.zgbk.com/ecph/words?SiteID=1&ID=123456 https://www.zgbk.com/ecph/words?SiteID=1&ID=123456], 2023-06-02.
| |
| | |
| # Google for Developers. 透過 Sitemap 索引檔管理 Sitemap[EB/OL]. [https://developers.google.com/search/docs/crawling-indexing/sitemaps/sitemap-index https://developers.google.com/search/docs/crawling-indexing/sitemaps/sitemap-index], 2026-02-20.
| |
| | |
| # Google for Developers. 创建和提交站点地图[EB/OL]. [https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap], 2026-02-20.
| |
| | |
| # 翼果科技. XML Sitemap 最佳实践:让搜索引擎准确发现你的每一个重要页面[EB/OL]. [https://www.eguotech.com/article/xml-sitemap-best-practices https://www.eguotech.com/article/xml-sitemap-best-practices], 2026-03-05.
| |
| | |
| # 维度狐. 网站地图(Sitemap):它如何影响你的SEO与网站收录?[EB/OL]. [https://www.weiduhu.com/article/sitemap-seo-impact https://www.weiduhu.com/article/sitemap-seo-impact], 2025-11-30.
| |
| | |
| # 邦阅. 外贸网站优化:sitemap怎么设置有利于SEO[EB/OL]. 2025-08-30.
| |
| | |
| | |
| | |
| [[Category:SEO]]
| |
| [[Category:Sitemap]]
| |
| [[Category:网站优化]]
| |
Sitemap(也译作站点地图、网站地图)是用于描述网站域名下页面、文件等资源的列表文件,其核心作用是为网站访问者或网络爬虫提供网站的资源结构信息,辅助导航与内容抓取。在英文语境中,首字母大写的Sitemap通常特指XML格式的爬虫专用站点地图,而小写的site map则可泛指所有类型的站点地图[1]。根据面向对象的不同,Sitemap可分为面向普通用户的导航型站点地图,以及面向搜索引擎爬虫的结构化站点地图,其中XML格式的Sitemaps协议已成为主流搜索引擎通用的站点信息提交标准[2]。
Sitemap
|
|
| 其他名称
|
站点地图、网站地图
|
| 初始发布
|
2005年6月
|
| 协议版本
|
0.9
|
| 支持格式
|
XML、HTML、TXT等
|
| 开发者
|
Google、Yahoo!、Microsoft
|
类型
Sitemap根据设计目标与使用对象的不同,主要分为三类:
规划型站点地图
这类站点地图是网站设计师在网站开发规划阶段使用的原型文档,用于梳理网站的页面层级与功能结构,辅助开发团队明确网站的整体架构,不会对外发布。
用户可见站点地图
这类站点地图通常以HTML页面的形式呈现,以层级化的列表展示网站的重要页面链接,面向网站的普通访问者,帮助用户快速定位所需内容,同时也可辅助网络爬虫了解网站结构[3]。部分站点会采用按字母排序的索引式站点地图,作为层级化站点地图的补充。
爬虫专用结构化站点地图
这类站点地图是为网络爬虫(尤其是搜索引擎爬虫)设计的结构化文件,其中最主流的是XML格式的Sitemaps,此外也存在TXT格式的纯URL列表等形式。这类文件可以向爬虫明确告知网站内的可抓取资源,尤其适用于包含大量动态页面、无法通过普通链接被爬虫发现的网站[4]。在此基础上,还衍生出了图片Sitemap、视频Sitemap等特化类型,用于向搜索引擎提交网站内的多媒体资源信息。
XML Sitemaps协议
XML Sitemaps是目前应用最广泛的爬虫专用Sitemap格式,其对应的Sitemaps协议由Google主导制定,后成为各大搜索引擎共同支持的标准。
协议规范
Sitemaps协议规定,XML格式的Sitemap文件必须采用UTF-8编码,文件内的所有数据值需进行实体转义。文件中可包含每个URL的相关元信息,包括:
loc:资源的URL地址
lastmod:资源的最后修改时间
changefreq:资源的更新频率(仅作参考,部分搜索引擎已忽略该字段)
priority:资源的相对优先级(仅作参考,部分搜索引擎已忽略该字段)
[5]
对于包含大量URL的网站,还可使用Sitemap索引文件,将多个Sitemap文件整合在一起提交,单个Sitemap文件最多可包含5万条URL。
示例
以下是一个简单的XML Sitemap示例,包含三个页面的信息:
<source lang=xml>
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.net/?id=who</loc>
<lastmod>2009-09-22</lastmod>
</url>
<url>
<loc>http://www.example.net/?id=what</loc>
<lastmod>2009-09-22</lastmod>
</url>
<url>
<loc>http://www.example.net/?id=how</loc>
<lastmod>2009-09-22</lastmod>
</url>
</urlset>
</source>
历史
2005年6月,Google首次推出Sitemaps 0.84版本,旨在帮助网站开发者向搜索引擎提交网站内的链接列表,解决动态页面难以被爬虫发现的问题[6]。
2006年11月,Google、Yahoo!与Microsoft(旗下必应搜索引擎)共同宣布联合支持Sitemaps协议,统一了站点地图的标准格式,使得网站开发者只需提交一份Sitemap即可被所有支持该协议的搜索引擎识别[7]。此后,Ask等其他主流搜索引擎也陆续加入对该协议的支持,Sitemaps逐步成为搜索引擎优化(SEO)领域的标准工具之一。