重複コンテンツの対策について

コンテンツの複製は、多数の問題を発生させます。
最大の問題は、検索者(お客様)への検索体験低下です。
具体的には、次の通りです。

「安倍首相 就任」等で検索します。
(数字は検索順位、表示サイトの例です)

1.ウィキペディア(安倍晋三の1ページ)
2.ウィキペディア(安倍晋三の2ページ目)
3.ウィキペディア(安倍晋三の1ページのモバイル版)
4.ウィキペディア(安倍晋三の1ページの英語版)
5.個人サイト(ウィキペディアへのlinkのみ)
6.個人サイト(ウィキペディアの丸コピー&体裁変更)
7.個人サイト(ウィキペディアの丸コピー&語尾変更)

みての通り、1~7は全て同じコンテンツです。
検索者が知りたいのは「クエリにマッチした多くの情報」です。
しかし、1~7が全て同じサイトの情報であれば、多様性が全く無く検索者は少ない情報しか得れません。
これは、Googleも排除したい内容です。

ということで最大の問題は、検索者に対する「検索体験の低下」です。
では、このことで「得」をする人は誰でしょうか?

5~7に関しては、殆ど労力を使うことなく、高品質なコンテンツを自サイトに取り込み、検索者を誘導しています。
なので、広告を設置するだけで、クリック収益が期待できます。
5~7は、自動巡回して自サイト内に自動作成するのも容易です。

7に関しては、オリジナルのコンテンツかどうかGoogleの判別を欺くような専用AIソフトも販売されています。

現状こんな感じです。
では、今後どうなるのか、またサイト運営者はどうするのが良いか、というのをみてみたいと思います。

コンテンツの重複は非常に種類が多く全ては説明できませんが、例を基に説明してみます。

コンテンツ重複は次の問題で発生します。

①GoogleのCanonical(正規化)アルゴリズムが追いついていない
②運営者(ウェブマスター)の不備
③意図的な複製
④その他

この4つについて順番に説明してみます。
①GoogleのCanonical(正規化)アルゴリズムが追いついていない
ご存じの方も多いと思いますが、Googleはこんな検索体験を低下させる検索結果を望んでいません。
なので、アルゴリズムによって自動対策を実施しています。
自動対策は2~7で自動的に発動します。

この、自動アルゴリズム(自動正規化:AutoCanonical)の機能は、重複コンテンツを検索結果に表示しない事です。
コンテンツを作ったのに公開されない=ペナルティだと思う方が殆どでしょう。
Googleは手動対策でさえ、ペナルティと呼んでいません。
私は、(このサイトでは)手動対策及び自動対策をペナルティと呼ぶことにします。
なので、自動正規化は、ペナルティと言っても過言ではありません。

作成したコンテンツが公開されない=作成した労力が無になる

これは、制作者からみたら重大なペナルティでしょう。
さて、話しを戻します。

説明の通り2~7は、自動正規化され検索結果に表示されないようにGoogleは対策を実施してきます。
ただし、自動対策の中にも次の種類があります。
1)真のペナルティ
ペナルティのPで始まり白と黒をはっきりと付けるという意味の
Pandaアップデートです。
これらは、例の6~7が該当します。
通常は自動で検索結果から除外されますが、自動アルゴリズムがうまく機能しない場合は、手動対策としてウェブマスタに通知が行きます。
どのような内容かは、以下を確認願います。
無断複製されたコンテンツ
https://support.google.com/webmasters/answer/2721312

2)真のペナルティではない問題

また、2~4に関しては、非常に多い重複です。
主にウェブマスターのミスが原因ですが、Googleのバグによっても発生します。
詳細は次項で説明します。

②運営者(ウェブマスター)の不備
この項では、ウェブマスターがタグを間違えたり、重複するコンテンツをインディックス要求するようなする場合です。

2は、ページャーの問題です。
Googleはページネーションを正しく理解します。
LINKタグで nextやprevタグを用い正しく設置することでGoogleに構造を伝える事が出来ます。

複数ページにまたがる記事やコンテンツをお持ちの方へ。rel=”next” と rel=”prev” を使用したページネーションのご紹介
https://webmaster-ja.googleblog.com/2011/12/relnext-relprev.html

これらを設置していても、Googleの自動正規化アルゴリズムの不備で、
重複コンテンツが表示される場合があります。
その場合は、意図的に2ページ目以降をnoindexなどにする施策が重要です。

ただしこれには、反対意見もあります。
まず、前提ですが私は「記事」に関してnoindexは一切使うべきではないと主張します。
ですが、「記事の一覧」については、日付archiveやcategoryarchiveなどで重複する場合が多数あります。
WordPressのテーマによっては、記事一覧が、10記事のコピーとか平気で存在します。
たとえば、ウェブマスター公式ブログです。(bloggerですがw)

こんな設定は絶対使うべきでは、ありません。
Googleが記事と、一覧を正しく区別してくれればよいのですが、正規化アルゴリムズは、たまに「一覧をインディックスして、記事を表示しない」というとち狂った動きをする場合があります。

ウェブマスターフォーラムでも、この問題が何件も発生していました。
ウェブ制作者からみたら「作成した記事が検索結果に出ない」「ペナルティーだ」と叫ぶことになります。
慌てふためく前に、まず設定や送信しているサイトマップを再確認します。
キーワードに対して表示されるページは一意にしたいものです。
検索者の側に立ってみれば、記事一覧を「記事の連続コピー」などにするなんて狂気の沙汰です。
こういうのは、改善すべきでしょうね。

3に関しては、alternateの不備で発生する事が多いです。
a)タグが無い
→モバイル、PCに正しくタグを入れる。
動的な配信の場合、Vary HTTPヘッダーを使用してUAに応じた処理が必要です。
詳しくは、以下を参照してください。

モバイルサイトの構築
https://developers.google.com/webmasters/mobile-sites/?hl=ja

また、ウェブマスターフォーラムでよくあったのが
b)変なリダイレクト
これです。
海外だけブロックしていたりリダイレクトしたりしたりすると、Googlebotがサイト構造を正しく理解できません。
リダイレクトやブロックは細心の注意が必要です。

4は、モバイルの実装ミスとほぼ同じです。
hreflangを正しく実装しましょう。

言語や地域の URL に hreflang を使用する
https://support.google.com/webmasters/answer/189077?hl=ja

ウェブマスターフォーラムで非常に多かったのが変なリダイレクトです。
IPが日本なら、日本語へリダイレクト、IPが米国なら英語へリダイレクト。
訪問者の事を思っての施策ですが、海外の利用者の意味が全く分かってないです。
アメリカ人が日本にやってきて、ローミングでdocomoからアクセスすると、日本のIPになります、そして日本語のページにリダイレクトします。
こんな事をすると、外人さんは困りますよね。
ということで、変なリダイレクトはやめましょう。
また、リダイレクトはbotにも作用しますのでGooglebotも例外なくリダイレクトされちゃいます。
外国語実装したら、サイトが英語になりました!
というのの原因は、ほぼコレです。

次に行きます。

③意図的な複製
これは、コピーしている人は、分かっている内容ですよね。
コピーされた側は、Googleに対して、スパム通報を行ってください。
DMCAも利用できますが、そんな事よりGoogleの自動/手動のペナルティに頑張ってもらいたいです。

私としては、Googleのスタンスも問題なのかと思います。
たとえばウェブマスターブログのように、「記事一覧を記事のコピー」にしているブログがあります。
こういったサイトに長山さんはオフィスアワーで「対策は不要」とはっきりと言っています。
まあ対策が必要ならこんな設定にはしないでしょうねw
この変なコピーサイトを、正しく処理しようとするので、正規化が難しくなっているのではないかと個人的には思います。

④その他
今回、例に出し切れていないのも幾つかあります。
Googleアナリティクスを用い、サイトを解析する場合、各種パラメータを付ける事があります。
urlにパラメータを付けると付けないURLとば別のURLと判別される場合があります。
さらにECサイトでは、商品に応じた色のページなど、正常に運用してもいくつもの重複コンテンツが生成されます。
これらは、いくつ生成されても手動の対策が実施される事はありませんが、ウェブマスターが正しくタグを設置することにより、重複コンテンツを減らすことが可能です。
詳しくは、以下を参照してください。

重複するコンテンツ
https://support.google.com/webmasters/answer/66359?hl=ja

■まとめ
今後は、自動正規化アルゴリズムが、どんどん高性能になっていくと思われます。
同時に誤動作も、起きないとも限りません。
まずは、インディックスの状態を確認し、正しくキーワードに応じた検索結果が表示されて居るのか、確認するのが良いでしょう。

また、自動/手動のコピーをしているサイトは、無意味になっていく可能性が高いです。
Googleを欺く手法で、収益をあげていても、必ず対策される日が来ます。
労力の無駄なので、そういった行為をせず、正攻法で行った方が良いかと思います。

記事を書いたとき、必ず重複コンテンツの確認が必要になります。
その手法を書いたので、以下を参照してみてください。

コメント