検索ロボットへの指示

このページで紹介する属性は検索ロボット(Infoseek、Exciteなどのロボット型検索エンジンの俗称で、 スパイダーやクローラーなどと呼ばれることもあります)に 自分の思い通りのキーワードを拾わせるための属性です。
ロボット型検索エンジンでは検索ロボットがネットワーク上をぐるぐる回ってホームページを探し出し、 その拾ってきたURLを検索ページに反映させるというシステムになっています。
検索ロボットはホームページを見つけてページのデータを集める際に ページのhtml文書の中から適当に単語を拾い集め、それをキーワードにします。 つまりmeta要素を貼ることによって、ページの管理人はロボット型検索エンジンで検索されたときに 意図したキーワードで自サイトがヒットする可能性が高くなります。
(「確実に」ヒットさせる方法というものはありません。 スパムページと呼ばれる検索ロボットに向けただけのページの判断などが入るため 検索エンジンごとにどのようにキーワードを規定するかなどが違うためです。 また、この違いのため検索サイトごとに検索結果が違ってきます)
検索エンジンは大別すると、ディレクトリー型と全文検索型に分けられます。 現在は全文検索型が主流です。
インターネットは情報の宝庫などとも言われますが、 検索エンジンの手助け無しで求める情報に辿り着くことはまず無理だと思います。

ロボットmeta要素へのhtml著者のガイド

The Web Robots Pagesという検索ロボットについてのサイトがあります。 以下はこのサイト内にある 「HTML Author's Guide to the Robots META tag.(ロボットmeta要素へのhtml著者のガイド。)」 ページの抜粋と注釈です。

書式
<meta name="robots" content="ロボットへの指示">

ロボットへの指示には以下のように指定します。

content    = all | none | directives
all        = "ALL"
none       = "NONE"
directives = directive ["," directives]
directive  = index | follow
index      = "INDEX" | "NOINDEX"
follow     = "FOLLOW" | "NOFOLLOW"

簡単に言えば、「ALL」または「NONE」または「INDEX、NOINDEX」のどちらかと 「FOLLOW、NOFOLLOW」のどちらかです。
「INDEX、NOINDEX」と「FOLLOW、NOFOLLOW」は「,」でつなげて2つを指定することも可能です。
「INDEX」と「NOINDEX」、「FOLLOW」と「NOFOLLOW」は同時に指定してはいけません。 分かり難いと思いますので、以下に具体例を載せておきます。

<meta name="ROBOTS" content="ALL">
<meta name="ROBOTS" content="INDEX, FOLLOW">

ページへの索引付けもリンクをたどることも許可します。

<meta name="ROBOTS" content="NONE">
<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

ページへの索引付けもリンクをたどることも拒否します。

<meta name="ROBOTS" content="INDEX">

検索付けを許可します。

<meta name="ROBOTS" content="INDEX, NOFOLLOW">

検索付けは許可しますが、リンクをたどることは拒否します。

<meta name="ROBOTS" content="NOINDEX">
<meta name="robots" content="NOINDEX, FOLLOW">

検索付けは拒否しますが、リンクをたどることは許可します。

対応するしないは検索ロボットによって違います。
指定していない場合は通常は検索付け、リンクとも許可と同等の動きをします。

検索サイトgoogleの検索ロボット

検索サイト「google」については検索ロボット名を「robot」ではなく「googlebot」とします。

スニペット(タイトルの下のテキスト)を削除する

スニペットとは、検索されたすべてのキーワードを太字で示し、該当ページからテキスト抜粋したものです。 これらの抜粋により、結果をクリックする前に、Web ページ内でキーワードが含まれる文脈を確認できます。 対応するスニペットがある場合の方がユーザーが検索結果をクリックする可能性が高くなります。
Google がページのスニペットを表示しないようにするには、以下の要素を使用します。
注意:スニペットを削除するとキャッシュ ページも削除されます。

<meta name="GOOGLEBOT" content="NOSNIPPET">

アーカイブを拒否する

Googleはクロールした多数のWebページをキャッシュに保存します。 これにより、該当のページのサーバがダウンした場合でも、キャッシュに保存してあるページが閲覧できます。 キャッシュページは、Googleが前回クロールしたときのページと同じです。 キャッシュ ページには、それが実際のページではなくキャッシュバージョンであることを示す情報がページのヘッダー部分に表示されます。 サイトのコンテンツをロボットがアーカイブしないようにするには、以下の NOARCHIVE meta要素を使用します。
Google のロボットのみのページのキャッシュを禁止するには、下側の要素を使用します。
この要素はキャッシュページのみを削除するものであり、 Google は引き続きページのインデクス付けを行いスニペットを表示します。

<meta name="ROBOTS" content="NOARCHIVE">
<meta name="GOOGLEBOT" content="NOARCHIVE">

画像に対する指示

そのページ内の画像が検索対象となるのを防ぐ

<meta name="ROBOTS" content="NOIMAGEINDEX">

そのページ内の画像への直接リンクを防ぐ

<meta name="ROBOTS" content="NOIMAGECLICK">

期日に関する指示

検索ロボットに後日再巡回させる

ロボットが訪れた際に後日再度訪問させたい場合に記述します。 例では20日後に再巡回してくださいと、言う意味になります。

<meta name="revisit_after" content="20 days">

ウェブページ内容の期限切れを伝える

コンテンツの有効期限切れの日付を入力します。 期限切れの場合、検索ロボットはデータベースから当該ページを削除します。 Googleは、定期的に全インデックスを自動的に更新します。 Webをクロールする際、新しいページをみつけ、無効になったリンクを破棄し、リンクを自動的に更新します。 古くなったリンクはたいてい次回のクロールで削除されます。
日付の書き方は「文書の管理情報に関するもの」ページ内の 「日付」に例があります。

<meta name="Expires" content="Fri, 31 Dec 2010 23:59:59 +0000">

ページの対象範囲に関する指定

meta要素の適用対象範囲指定

<meta name="distribution" content="Global">

他のmeta要素が外部に対して指定されているのか、内部に対して指定されているのかを表します。 通常トップページや主なページに対して"Global"を割り当て、 その他のページには"Local"を割り当てます。 検索エンジンに全てのウェブページをindexさせたければglobalで指定しても構いません。

サービス提供対象

<meta name="coverage" content="worldwide">

サイトで扱っている商品やサービスについて、提供する対象範囲を記述します。 例では世界中の国々に対して提供する、という意味になります。 日本国内であればworldwideのところをjapanと置き換えます。

地理的な対象エリアの指定

<meta name="Targeted Geographic Area" content="Japan">

ページが対象とする地理的なエリア範囲を指定します。例は日本が対象である場合です。 アジアが対象であれば"Asia"と記述します。

ジャンル指定

<meta name="classification" content="general">

ページが属するカテゴリ指定を記載します。 business, computers, entertainment, internet, miscellaneous, personal などと記述します。

閲覧対象年齢層の指定

<meta name="rating" content="safe for kids">

ウェブページが対象とする利用者層を指定します。 子どもが見てもよい内容や一般的には"general"と記述します。 他にchild 、adultとかがあります。