一篇文章带你搞懂什么时候需要使用meta robots和robots.txt

在阅读这篇文章之前,我就假设你已经能够了解搜索引擎抓取和索引的区别了。接下来我将告诉你如何使用meta robots以及robots.txt来优化百度/Google抓取与索引。

meta robots以及robots.txt的工作分别是阻止搜索引擎蜘蛛抓取、索引你的页面。进入2021年了,如果你的泰州网站优化还只是SEO排名/流量高是没有用的,流量必须对企业有价值、必须要能够创造转换,所以使用者体验相对重要,如果你有特定页面会伤害使用者体验(UX),你可以通过这些方式去阻止该页面出现在搜索引擎搜索结果中。

robots.txt文件可以阻止搜索引擎抓取你的网站页面,如果你使用了robots.txt来阻挡搜索引擎,那么搜索引擎将会略过你所阻挡的页面,不去做抓取。但meta robots 就不同了,它在索引层面阻止搜索引擎索引你的页面,但Google或百度的搜索引擎蜘蛛还是会抓取你的网站资料,但究竟为什么我们要这样做?后面我将娓娓道来。

学习使用Robots.txt

基本上,大多数的情况我们都不会使用robots.txt来阻止搜索引擎抓取我们网站,除非你确定这个页面对SEO有负面影响,若你有页面不希望出现在搜索引擎中,我建议使用Meta Robots来控制索引就好,网站的资料还是一样让Google去抓取。但若你确定这些页面会影响SEO并且你不希望Google抓取到,你就要使用Robots.txt。(比方说开发中,但还没完成的网页)

使用robots.txt文件很简单,你只要建立一个文件名为robots的txt文件,并且上传到根目录就好,并且在这个文件内写上你希望Google或百度别抓取的页面路径。

一篇文章带你搞懂什么时候需要使用meta robots和robots.txt插图1
如图1:你会看到在:51yh.cc下面的根目录我就上传了这个文件,并且我不希望搜索引擎抓取到我后台的登入页面,所以才会有disallow:/wp-admin/这些内容

 

基本上在robots.txt文件内你只要填好这些信息:

用户-agent:填入搜索引擎蜘蛛的值(* 号代表全部)
Disallow:填入你希望搜索引擎别抓取的页面路径
Allow:若你禁止抓取的页面路径里面又有特定路径你希望搜索引擎抓取,则填入

学习使用Meta Robots

要用meta robots,你只要直接把它加在head里面,你必须要在“你不希望被索引的页面底下”,加入这个标签至head里。

所以如果你有六个页面不希望被索引?没错这六页你都要手动去加入meta robots。

meta robots的标签是长这样:

<head>
<meta name=”robots” content=” noindex , nofollow “>
</head>

基本上这个标签有noindex以及nofollow两个值:

index vs noindex

当你不希望搜索引擎索引此页面,就填上noindex,若希望正常索引便填上index

follow vs nofollow

至于follow这个值是指,若你希望搜索引擎在抓取此页面时,不进一步的去抓取该页面所连出去的链接,你就填上nofollow的值。这个功能通常会用在社群论坛或是网站讨论版,是为了防止有人在你的页面上乱贴链接来意图增加它的SEO反向链接及排名,使用nofollow的话搜索引擎的抓取会在该页面停止,不继续往其它链接前进,固可以防止乱贴链接的事情发生。

一篇文章带你搞懂什么时候需要使用meta robots和robots.txt插图3

两个值的功用完全不同,我来举几个范例让你完全清楚如何使用。

1. < meta name=”robots” content=”noindex , nofollow”>

这个做法便是告诉搜索引擎,不要索引我的网站,并且在抓取资料时该页面的相关链接也不要去抓取。

2. < meta name=”robots” content=”index , nofollow”>

抓取资料时该页面的相关链接不要抓取。

3.< meta name=”robots” content=”noindex , follow”>

不要索引我的页面,但页面上所有的链接请正常抓取(最常用之使用方式)

4.< meta name=”robots” content=”index , follow”>

这个做法就没有任何意义,加上这段标签跟没加的道理是一样的,等于搜索引擎将正常索引及抓取。

做SEO,何时会用robots.txt阻止搜索引擎抓取?

对于抓取优化的工作上,你的网站Google或百度必须要看得懂、并且页面也抓得到。有些动态的网页结构对搜索引擎蜘蛛的抓取来说是有问题的。

但是有些页面你不希望Google和百度抓取到,这时候你必须要使用Robots.txt 来阻挡Google和百度蜘蛛的抓取,这也是我们今天文章讨论的重点。我们来看看,什么情况你会希望Google和百度蜘蛛不要抓取你的网站

未完成的页面

如果你有页面正在由技术人员开发中,但页面还需要很长的一段时间才能完成,甚至你还需要修改、测试,未完成的页面通常不会伤害SEO,但你不会希望访客在搜索引擎中搜索到未完成的页面,因为未完成的页面会给使用者较差的使用体验。

测试页面

我曾经有碰过工程师,为了做功能测试并开了测试用子域名,并上传与主域名完全一模一样的内容,而一模一样的网站内容,会对SEO造成伤害,若有这样的页面我会建议你将Google蜘蛛挡在门外比较好。

网站后台、其它理由

以我来说,我的网站是使用WordPress架设出来的,所以我有使用robots.txt防止搜索引擎抓取我的网站后台,搜索引擎抓取到后台的登入页面对于SEO没有伤害,但也一点帮助都没有。同时如果你压根就不希望搜索引擎抓取你的网站,我也建议你使用robots.txt来阻止搜索引擎的抓取。

一篇文章带你搞懂什么时候需要使用meta robots和robots.txt插图5

做SEO,何时会用meta robots阻止Google和百度建立索引?

若某些页面你不希望在搜索引擎被用户搜索到,但这些页面事实上有很多对SEO排名有加分的因素,所以你会希望Google抓取这些页面的资料,但别建立进搜索引擎索引,这时候你需要meta robots来阻止Google和百度索引你的页面。

这种情况通常是因为某些页面作为Landing Page 会影响使用者体验,但你又希望Google能抓取页面上的资料(因为这页有很多的反向链接、流量)所以你将它排除索引、维持抓取。

注意– Google 说它们是参考

了解meta robots以及robots.txt之后,你可以优化网站的抓取及索引状况,阻止特定页面跟被抓到或是被索引。

但有一件很重要的事要注意,Google官方有很明确的声明,meta robots以及robots.txt确实可以告诉Google你希望哪些页面不要被抓取以及索引,Google也会尊重你的决定(毕竟你是网站拥有者),但Google官方不保证搜索引擎会完全服从meta robots以及robots.txt,若搜索引擎认为你的网站有很多很多的反向链接、流量很高、内容很优质,是优质网站,它也有可能会执意要抓取、索引你的网站。

联系电话

15961004617

加微信
加微信
TOP