Skip to main content

Robots.txt

TL; DR

Robots.txtは、WebクローラーがWebサイト上の特定のページ、フォルダー、またはファイルを無視するための除外プロトコルであり、検索エンジン最適化を改善するために使用されます。

Robots.txtについて

Robots Exclusive Protocol(略してRobots.txt)とも呼ばれるRobots Exclusive Standardは、検索エンジンのスパイダーがクロールしないWebページまたはWebサイトのセクションを認識できるようにするファイルです。 robots.txtを正しく設定することが重要です。これは、1回のミスで、検索エンジンからWebサイト全体のインデックスが解除される可能性があるためです。

Robots.txtが重要なのはなぜですか?

Robots.txtは、すべての主要な検索エンジンがこの除外基準を認識して従うため、SEOの重要な部分です。 Googleはウェブサイトの重要なページのみをインデックスに登録し、残りのページ(重複ページなど)を除外するため、ほとんどのサイトではこのプロトコルは必要ありませんが、robots.txtの使用が推奨される場合があります。ロボット除外標準を使用して、マルチメディアリソース(画像など)のインデックス作成を防止し、公開されていないページ(メンバーのログインページなど)をブロックし、クロール予算を最大化することができます。

Robot.txtファイルの例

robots.txtファイルの基本的な形式は次のとおりです。User-agent:______ Disallow:______ここで、user-agentはアドレス指定されているロボットの名前であり、「disallow」の後に続く部分にはWebページの名前が含まれます。 、ロボットがWebサイトにアクセスするときに無視する必要のあるフォルダまたはファイル。 Webサイトにアクセスする可能性のあるすべてのロボットに対応する場合は、特定のボットの名前の代わりにアスタリスク(*)を使用できます。この例では、クローラーは上記のディレクトリに入らないように通知されます。User-agent:* Disallow:/tmp /Disallow:/junk /この例では、クローラーは特定のファイルを回避するように通知されます。User-agent:* Disallow: /directory/file.html