跳至内容

SEO教程第三篇:robots与SiteMap的作用

想做文盲

更新:

robots与SiteMap

robots.txt 文件规定了搜索引擎抓取工具允许/禁止请求抓取网站上的哪些网页或文件。SiteMap(站点地图)是一种文件,可以在其中提供与网站中的网页、视频或其他文件有关的信息,还可以说明这些内容之间的关系。搜索引擎会读取此文件,以便更加智能地抓取网站。

robots.txt

此文件主要用于使网站避免收到过多请求(太多的搜索引擎爬行是很耗费资源的);它并不是一种阻止搜索引擎访问某个网页的有效方法。若想阻止搜索引擎访问某个网页,应使用 noindex 指令,或者使用密码保护。

robots.txt的认知要点

并非所有搜索引擎都支持 robots.txt 指令

robots.txt 文件中的命令并不能强制规范抓取工具对网站采取的行为;是否遵循这些命令由抓取工具自行决定。正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但有些抓取工具未必也会如此。因此,如果您想确保特定信息不会被网页抓取工具抓取,我们建议您采用其他屏蔽方法,例如用密码保护服务器上的隐私文件。

不同的抓取工具会以不同的方式解析语法

虽然正规的网页抓取工具会遵循 robots.txt 文件中的指令,但每种抓取工具可能会以不同的方式解析这些指令。您需要好好了解一下适用于不同网页抓取工具的正确语法,因为有些抓取工具可能会无法理解某些命令

如果其他网站上有链接指向被 robots.txt 文件屏蔽的网页,则此网页仍可能会被编入索引

尽管搜索引擎不会抓取被 robots.txt 屏蔽的内容或将其编入索引,但如果网络上的其他位置有链接指向被禁止访问的网址,我们仍可能会找到该网址并将其编入索引。因此,相关网址和其他公开显示的信息(如相关页面链接中的定位文字)仍可能会出现在搜索引擎搜索结果中。若要正确阻止您的网址出现在搜索引擎搜索结果中,您应为服务器上的文件设置密码保护,或者使用 noindex 元标记或响应标头(或者彻底移除网页)。

关于robots.txt 指令的写法可参照:https://zhanzhangb.cn/tutorials/robots-txt-using.html

SiteMap网站地图

站点地图会告诉搜索引擎,在网站中的哪些网页和文件比较重要,还会提供与这些文件有关的重要信息:以网页为例,这些信息包括网页上次更新的时间、网页更改的频率,以及网页是否有其他语言版本。

在以下情况下,建议使用站点地图:

网站规模较大。在这种情况下,搜索引擎网页抓取工具更有可能在抓取时漏掉部分新网页或最近更新的网页。

网站有大量内容页归档,这些内容页之间互不关联或缺少有效链接。如果您的网站网页没有自然地相互引用,那么您可以在站点地图中列出这些网页,确保搜索引擎不会漏掉其中某些网页。

网站为新网站且指向该网站的外部链接不多。网页抓取工具是通过跟踪网页之间的链接来抓取网页的。因此,如果没有其他网站链接到您的网页,搜索引擎可能不会发现您的网页。

网站包含大量富媒体内容(视频、图片)。如果提供了站点地图,在适当情况下,搜索引擎能将站点地图中的其他信息纳入搜索范围。

创建站点地图

一般的主流的搜索引擎支持多种格式的站点地图,无论采用哪种格式,单个站点地图的文件大小一律不得超过 50MB(未压缩),并且其中包含的网址数量不得超过 50000 个,否则必须将站点地图拆分成多个较小的站点地图。

XML格式

示例:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.example.com/1.html</loc>
<lastmod>2021-02-23</lastmod>
</url>
</urlset>

XML格式的站点地图,可以查阅: https://www.sitemaps.org/protocol.html,了解更多内容。

RSS 或 Atom Feed

如果您的博客有 RSS 或 Atom Feed,那么您可以将该 Feed 的网址作为站点地图提交。 大多数博客软件都能为您创建 Feed,但请注意,此类 Feed 只会提供近期发布/更新的信息。

文本

如果您的站点地图只包含网页网址,那么可以向搜索引擎提供简单的文本文件(UTF-8 编码,每行只包含一个网址)。例如:

https://www.example.com/page1.html
https://www.example.com/page2.html

提交站点地图

可以通过robots.txt中的Sitemap指令进行提交,也可以通过搜索引擎提供的站长工具进行提交。例如在robots.txt文件的尾部,添加:

Sitemap: http://www.example.com/sitemap.xml

或以百度为例(下图):先登陆 百度搜索资源平台,然后在普通收录 > 资源提交 > sitemap中提交相应的xml文件。

百度提交sitemap
百度提交sitemap

注意:百度仅支持小于10M的txt或xml文件,如数据较多,需要将文件分拆,一次可以提交10个文件。

SEO教程文章目录:

  • 搜索引擎优化(SEO)完整教程 – 前言
  • SEO教程第一篇:了解搜索引擎,及发展过程
  • SEO教程第二篇:帮助搜索引擎找到网站/网页
  • SEO教程第三篇:robots与SiteMap的作用
  • SEO教程第四篇:网页体验对SEO的影响
  • SEO教程第五篇:网页加载速度优化指南
  • SEO教程第六篇:优质内容的标准
  • SEO教程第七篇:搜索引擎优化的一些技巧
  • SEO教程第八篇:搜索引擎的一些独特癖好
  • SEO教程第九篇:未来趋势
分类 教程 标签 SEO

除非注明,否则均为本站原创文章,禁止任何形式转载。

相关推荐
精品WordPress资源下载
Yoast SEO Premium

Yoast SEO Premium v​​22.8 中文版 – WordPress SEO 插件

BetterDocs Pro - WordPress 知识库文档插件

BetterDocs Pro v3.3.2 汉化版 – WP知识库文档插件

GeneratePress Premium - GeneratePress主题高级插件

GeneratePress Premium v2.4.1 汉化版 – GP Premium 高级插件

聚圣源邓姓男生宝宝起名起名测名免费网网游之骷髅也疯狂起名需要注意什么徐氏男孩起名大全三个字环保建材公司起名大全如何起品牌名易顺佳posqq三国工匠书姓罗起名大全集马氏名字男宝宝起名大全大气的门店起名日本人起名字比较炫酷的起名林晨钰沈氏家族崛起笔趣阁轰趴馆起名李宝宝起名大全集宝宝起名打分免费测试生辰八字企二哥公司起名系统小时代顾源你是我眼中的一滴泪夫妻成长日记动漫去哪儿机票查询玉楼春电视剧全集免费观看起名大全免费名字2019安堂机器人扎西拉姆多多起名店铺女诗经男楚辞取名起名大全淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化