前言

有时,想往自己博客上放置一些文章,且完全不想被搜索引擎收录。这时候就需要用到 robots.txt 或者 noindex 元标记。

Robots.txt 简介

robot.txt 是谷歌发起的一个标准,告诉搜索引擎是否应该让爬虫获取某些页面的摘要等。

你需要在 根目录 新建一个 robots.txt 的文本文档。如果你是使用 Hexo ,就放到yourblog/sourse/ 下。

基本格式:

关键字 内容
User-agent: 爬虫的名称
Allow: 指定允许某个页面
Disallow: 指定不允许某个页面
  1. User-agent

    爬虫的名称,如百度的 baiduspider ,谷歌的 googlebot 等。用 * 代表所有爬虫

  2. Allow

    指定允许某个页面。如 /test/ 则允许所有 test/  目录后的所有页面,像 /test/1.html , /test/blabal.txt 全都是允许的.

    默认允许全部,即 Allow: /

  3. Disallow

    指定不允许某个页面。其他的规则类似 Allow 。

说明: 可以用 * 代替省略的内容,如 Disallow: /*.html 表示不允许爬取一切以 .html 为后缀的文件。

更多可以在 官方说明 上了解。

Noindex 元标记

Robots.txt 只是防止搜索引擎抓取页面内容,但是还是有可能会将你的页面收录的。如果完全不想在搜索引擎页面中出现的话,就需要用到 noindex 元标记,告诉搜索引擎这个页面完全不用收录!

meta 标记

这里以 hexo 为例介绍如何添加。

我们在 material-x 主题文件夹layout/_partial/head.ejs 下添加以下代码:

1
2
3
<% if (page.noindex) { %>
<meta name="robots" content="noindex,nofollow">
<% } %>

如果是 .swig 的文件,如 nexT ,则代码变成:

1
2
3
<% if (page.noindex) %>
<meta name="robots" content="noindex,nofollow">
<% endif %>

然后在你需要的文章头中添加:

1
noindex: true

即可。


 Comments