検索されたくないページに関しての設定

今日、検索エンジンに引っかからないようにする設定について話が上がり、聞いたことはあるがフワッとした理解だったので自分なりにまとめてみようと思う。

検索エンジンの簡単な仕組み

クローラー(スパイダー)と呼ばれるプログラムによって自動的にWWW上のデータを収集し、前もって検索して牽引情報(インデックス)を作成。
作成したインデックスを元に検索結果を表示する。検索エンジン最適化業者の存在などもあり、この表示される検索順を決定するアルゴリズムの大部分は非公開とされている。
公開されているもので有名なものとしては、GooglePageRankなどが有名。(現在、利用されているかは不明)

ただし、様々な理由で検索されたくないこともあるため、検索「されない」ようにする手法は公表されている。

昔は、人手でデータを収集するタイプの検索エンジンもあったようだが、今回は割愛。

検索されないようにするには

noindexの実装

有名なものでは noindex タグをhtmlファイルに埋め込む。

support.google.com

調べてみると、noindexを設定することで検索エンジンクローラーによって作成されるインデックスから該当ページを削除することが可能。

robots.txtの実装

robots.txt ファイルは、クローラがどのページやファイルをアクセスしていいかをクローラに知らせるものファイル。

support.google.com

ただし、注意点としてはrobots.txtを設定することで検索のindexから外れるわけではないことです。

Google にウェブページが表示されないようにするためのメカニズムではありません。

以下のサイトに記載がありましたが、「既にインデックスされているページを検索から削除する時は、robots.txtクローラーをブロックしてはいけません。」とのことです。

理屈としては、noindexを設定していなかったページが検索のindexに乗ってしまったが検索から外したい場合、robots.txt の変更とnoindexの設定を同時に行ってしまうと、次に訪れたクローラー

「あー、そのページアクセスしちゃダメなんだねー。 じゃあindexの情報、そのままにしとくわ〜

となってindexが外れないからです。

junzou-marketing.com

その他

こちらのように直接Googleに申請をあげて、検索に乗らなくすることも可能。

support.google.com

特定のクローラーに対してのみnoindexを指定することも可能。

googleのみ検索エンジンに乗りたくない場合はnoindexの設定の箇所で name=googlebot とすることで、googleからの検索に引っかからないようになる。

www.seohacks.net