株式会社アルファクトリー

最新のIT情報を発信する 大阪のIT会社で働く社長のブログ CEO BLOG

重複コンテンツについて

重複コンテンツという言葉を最近よく耳にします。重複コンテンツがよくないってのは言葉でよく聞くので意識はしていると思います。しかしながらどういったものが重複なのか・・!?というとよくわからないってのが皆様の認識ではないでしょうか。

いい情報が出ていたのでご紹介しておきます。


「※http://web-tan.forum.impressrd.jp/e/2010/05/24/8023より」

Google、Bingなどの大手検索エンジンが、重複コンテンツ問題解消のために「rel=”canonical”属性」を共通で導入しています。「rel=”canonical”属性」を使う事によって重複コンテンツをインデックスさせなくする事ができます。

「重複コンテンツ(英語では”duplicate content“)」とは、ページの内容(=コンテンツ)がまったく同じにもかかわらず、URLが異なるWebページのことです。検索エンジンはコンテンツが同じでもURLが違うものを独立した別々のページとして認識します。

どういう事かと言うと・・

よくありがちなのは、wwwありとwwwなし。
他には、index.htmlありとindex.htmlなし。

この2つはよく言われていますね。

これらの問題に対しては、301リダイレクトによる正規化(Canonicalization)で対応するのが一般的です。

.htaccessファイルを使って下記のように表記します。

「wwwあり」に統一する場合
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^aaa.com
RewriteRule ^(.*)$ http://www.aaa.com/$1 [R=301,L]

「wwwなし」に統一する場合
Options +FollowSymLinks
RewriteEngine on
RewriteCond %{HTTP_HOST} ^www.aaa.com
RewriteRule ^(.*)$ http://aaa.com/$1 [R=301,L]

こうする事によってwwwありとwwwなしが統一されます。これで重複が避けられるというわけですね。

検索エンジン(サーチエンジン)は、ダブっているとみなしたページを、SERPに表示しないようにフィルタリングしてします性質がありますので正規化(Canonicalization)をしておく事をおすすめいたします。

またECサイトで起こりがちなのが、個別の商品に割り当てられるURLの重複です。

上記のような「動的URL」がそうです。

同じ商品を説明したページでも、直接アクセスした場合やカテゴリからたどっていた場合などで違ったURLになるシステムなどがありますね。そういったシステムを使っているサイトはご用心です。今は結構、少なくなってきていますが・・。

さらに、、問題は別のところにもあります。「クローリングの妨げ」「被リンクの分散」につながることです。例えば、wwwありとwwwなしに被リンクが貼られていたとすればリンクの効果が2分の1になってしまいますよね。

robots.txtでインデックスさせたくないURLを除外したり、動的URLを静的URLに書き換えたり、優先するURLだけをXML Sitemapに記述したりすることによって重複コンテンツ対策というのは行っていけます。重複コンテンツはウェブマスターにとっても検索エンジンン(サーチエンジン)にとっても、厄介な問題なので検索エンジンにとって出来る限りわかるやすくしてあげることがSEO対策にもつながっていきます。

まずはwwwありとwwwなしの正規化。

行っていらっしゃらない方はお早めに。






PAGETOP