如何从页面级别纬度禁止搜索引擎抓取

相信很多做SEO的朋友在实际的工作中都会遇到想要针对某一个/某一类型页面进行禁止收录,禁止收录的原因可能为该类页面内容太差,或者也可能是体验不好/URL结构不合理等等。

为了保证搜索引擎抓取的友好体验,我们就需要从页面级别的纬度思考这个问题,那么针对页面级别的纬度,我们应该做哪些操作才能尽量不允许搜索引擎抓取呢?

页面级别纬度禁止搜索引擎抓取

一、关于robots文件

1. 搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或 允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。

2. 只有在需要禁止抓取某些内容时,robots.txt才有意义,如果该文件为空,就意味着允许搜索引擎抓取所有内容。

3. 语法解释:

最简单的robots文件:禁止搜所有搜索引擎抓取任何内容,写法为:

User-agent:*

Disallow:/

其中,User-agent用于指定规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。如只适用于百度蜘蛛,则写为:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.

Disallow告诉蜘蛛不要抓取某些文件。如 Disallow:/post/index.html,告诉蜘蛛禁止抓取Post文件夹下index.html文件。 Disallow后什么都不写,代表允许抓取一切页面。

二、关于meta robots标签

1. 用于指令搜索引擎禁止索引本页内容。

2. 语法解释: 意思是 禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

noindex:告诉蜘蛛不要索引本页面。

nofollow:告诉蜘蛛不要跟踪本页面上的链接。

nosnippet:告诉蜘蛛怒要在搜索结果中显示说明文字。

noarchive:告诉搜索引擎不要显示快照。

noodp:告诉搜索引擎不要使用开放目录中的标题和说明。

您可以选择一种方式赞助本站

支付宝转账赞助

九天

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

图片 表情