今日、検索エンジンに引っかからないようにする設定について話が上がり、聞いたことはあるがフワッとした理解だったので自分なりにまとめてみようと思う。
検索エンジンの簡単な仕組み
クローラー(スパイダー)と呼ばれるプログラムによって自動的にWWW上のデータを収集し、前もって検索して牽引情報(インデックス)を作成。
作成したインデックスを元に検索結果を表示する。検索エンジン最適化業者の存在などもあり、この表示される検索順を決定するアルゴリズムの大部分は非公開とされている。
公開されているもので有名なものとしては、Googleの PageRankなどが有名。(現在、利用されているかは不明)
ただし、様々な理由で検索されたくないこともあるため、検索「されない」ようにする手法は公表されている。
昔は、人手でデータを収集するタイプの検索エンジンもあったようだが、今回は割愛。
検索されないようにするには
noindexの実装
有名なものでは noindex タグをhtmlファイルに埋め込む。
調べてみると、noindexを設定することで検索エンジンのクローラーによって作成されるインデックスから該当ページを削除することが可能。
robots.txtの実装
robots.txt ファイルは、クローラがどのページやファイルをアクセスしていいかをクローラに知らせるものファイル。
ただし、注意点としてはrobots.txtを設定することで検索のindexから外れるわけではないことです。
以下のサイトに記載がありましたが、「既にインデックスされているページを検索から削除する時は、robots.txtでクローラーをブロックしてはいけません。」とのことです。
理屈としては、noindexを設定していなかったページが検索のindexに乗ってしまったが検索から外したい場合、robots.txt の変更とnoindexの設定を同時に行ってしまうと、次に訪れたクローラーが
「あー、そのページアクセスしちゃダメなんだねー。 じゃあindexの情報、そのままにしとくわ〜」
となってindexが外れないからです。
その他
こちらのように直接Googleに申請をあげて、検索に乗らなくすることも可能。
特定のクローラーに対してのみnoindexを指定することも可能。
googleのみ検索エンジンに乗りたくない場合はnoindexの設定の箇所で name=googlebot とすることで、googleからの検索に引っかからないようになる。