Conteúdo duplicado em um mundo pós-Panda - Parte 01

“Ninguém viu a revolta do Panda surgindo. Um dia, eles estavam brincando alegremente em nossos zoológicos. No outro, eles estavam brincado alegremente em nossas entranhas. Eles vieram pelos gêmeos idênticos primeiro, então pelos ruivos, e então pelo resto de nós. Eu finalmente prendi um e perguntei a ela a pergunta que estava queimando dentro da alma de todos nós – ‘Por que?!’ Ele simplesmente sorriu e disse ‘Vocês humanos todos parecem iguais para mim’.” – Sgt. Jericho “Bamboo” Jackson

Ok, talvez estejamos ficando um pouco melodramáticos com toda essa coisa do Panda. Enquanto é verdade que o Panda não mudou nada sobre SEO, acredito que ele foi um chamado para nos despertar sobre os problemas de SEO que temos ignorado por muito tempo.

Um desses problemas é o conteúdo duplicado. Enquanto conteúdo duplicado como problema de SEO tem estado por aí há anos, a maneira com a qual o Google lida com isso evoluiu dramaticamente e parece ficar mais complicada a cada atualização. O Panda aumentou o preço ainda mais.

Então eu pensei ser um bom momento para cobrir o tópico de conteúdo duplicado, tal como está em 2011, em profundidade. Este artigo foi criado para ser uma fonte abrangente – uma discussão completa do que conteúdo duplicado é, como ele ocorre, como diagnosticá-lo e como consertá-lo. Talvez iremos até acabar com alguns pandas desonestos pelo caminho.

I. O que é conteúdo duplicado?

Vamos começar com o básico. Conteúdo duplicado existe quando quaisquer duas (ou mais) páginas compartilham o mesmo conteúdo. Se você aprender melhor visualmente, aqui está uma ilustração para você:

Fácil o suficiente, certo? Então, porque um conceito tão simples gera tanta dificuldade? Um problema é que as pessoas muitas vezes cometem o erro de pensar que uma “página” é um arquivo ou documento que está no seu servidor web. Para um crawler (como o Googleboot), uma página é qualquer URL única que ele encontra, geralmente através de links internos ou externos. Especialmente em sites grandes e dinâmicos, criar duas URLs que levam para o mesmo conteúdo é surpreendentemente fácil (e muitas vezes não intencional).

II. Porque duplicatas importam?

Conteúdo duplicado como um problema de SEO existia muito antes da atualização do Panda, e tomou várias formas à medida que o algoritmo mudava. Aqui está um olhar rápido sobre os grandes problemas com conteúdo duplicado ao longo dos anos…

O Índice Suplementar

Nos dias iniciais do Google, apenas a indexação das páginas era um desafio computacional imenso. Para lidar com esse desafio, algumas páginas que eram vistas como duplicadas ou apenas com uma qualidade muito baixa eram armazenadas em um índex secundário, chamado de “suplementar”. Essas páginas automaticamente se tornaram cidadãos de segunda classe, de uma perspectiva de SEO, e perderam toda sua capacidade de competição por posicionamento.

Por volta do fim de 2006, o Google integrou os resultados suplementares de volta para o índex principal, mas esses resultados ainda eram muitas vezes removidos. Você sabe que encontrou os resultados filtrados sempre que você vir este aviso no final do SERP do Google:

Mesmo o índex sendo unificado, os resultados ainda era “omitidos”, com conseqüências óbvias para o SEO. Claro, em muitos casos, essas páginas realmente eram duplicadas ou tinham um valor muito pequeno de busca, e o impacto prático de SEO era insignificante, mas nem sempre.

O “Orçamento” do Crawl (rastreamento)

É sempre difícil falar de limites quando se trata do Google, porque as pessoas querem ouvir um número absoluto. Não existe um orçamento absoluto do ‘crawl’, ou um número fixo de páginas que o Google irá rastrear em uma página. Existe, no entanto, um ponto no qual o Google pode desistir de rastrear seu site por um tempo, especialmente se você continuar enviando spiders em caminhos sinuosos.

Apesar de o “orçamento” não ser absoluto, mesmo para um determinado site, você pode ter uma ideia da alocação de rastreamento do Google para o seu site em Google Webmaster Tools (sob “Diagnostics” > “Crawl Stats”):

Então, o que acontece quando o Google encontra tantos caminhos e páginas duplicados que ele desiste no dia? Praticamente, as páginas que você quer indexadas podem não ser rastreadas. Na melhor das hipóteses, elas não serão rastreadas com tanta freqüência.

O “Cap de indexaçãao (limite de indexação)

Similarmente, não existe um limite determinado de quantas páginas de um site o Google irá indexar. Parece existir um limite dinâmico, no entanto, e esse limite é relativo à autoridade do site. Se você encher seu índex com páginas inúteis e duplicadas, você pode acabar perdendo páginas mais importantes e profundas. Por exemplo, se você carregasse milhares resultados internos de busca, o Google pode não indexar todas as páginas de produtos. Muitas pessoas cometem o erro de pensar que quanto mais páginas indexadas, melhor. Eu vi muitas situações onde o oposto era verdade. Todo o resto sendo igual, indexes inflados diluem sua habilidade de posicionamento.

O debate da penalidade

Muito antes do Panda, um debate sempre surgia e ressurgia sobre se havia ou não uma penalidade para conteúdo duplicado. Enquanto esses debates levantaram pontos válidos, eles muitas vezes focavam em semântica – se o conteúdo duplicado causava ou não uma Penalidade, com P maiúsculo. Apesar de eu acreditar que a diferença conceitual entre penalidades e filtros é importante, a conclusão para o proprietário de um site geralmente é a mesma. Se uma página não estiver posicionada (ou até indexada) devido ao seu conteúdo duplicado, então você tem um problema, não importando do que você o chame.

A atualização do Panda

Desde o Panda (começando em Fevereiro de 2011), o impacto do conteúdo duplicado se tornou muito mais grave em alguns casos. Antes o conteúdo duplicado somente poderia prejudicar àquele próprio conteúdo. Se você tinha uma duplicata, ela poderia se tornar suplementar ou ser retirada do filtro. Normalmente isso era ok. Em casos extremos, um grande número de duplicatas poderiam inflar seu índex ou gerar problemas de rastreamento, e começar a impactar as páginas

O Panda tornou o conteúdo duplicado parte de uma equação maior de qualidade – agora, um problema de conteúdo duplicado pode impactar todo o seu site. Se você é atingido pelo Panda, páginas não-duplicadas podem prender poder de posicionamento, parar totalmente de se posicionar, ou até sair do índex. Conteúdo duplicado não é mais um problema isolado.

III. Três tipos de duplicatas

Antes de mergulharmos em exemplos de conteúdo duplicado e as ferramentas para lidar com eles, eu gostaria de cobrir 3 grandes categorias de duplicatas. São elas: (1) True duplicates, (2) Near duplicates, e (3) Cross-domain duplicates. Referenciarei esses 3 tipos principais nos exemplos ao longo do artigo.

(1) True Duplicates

Uma true duplicate é qualquer página que seja 100% idêntica (em conteúdo) a outra página. Essas páginas só se diferem pela URL:

(2) Near duplicates

Uma near duplicate se difere de outra página (ou páginas) por uma quantidade muito pequena – pode ser um bloco de texto, uma imagem, ou até a ordem do conteúdo:

Uma definição exata de “próxima” é difícil de se obter, mas eu discutirei alguns exemplos em detalhes depois.

(3) Cross-domain Duplicates

Uma cross-domain duplicate acontece quando dois websites compartilham a mesma peça de conteúdo:]

Essas duplicatas poderiam ser “verdadeiras” (true) ou “próximas” (near). Ao contrário do que algumas pessoas acreditem, cross domain duplicates podem ser um problema até para conteúdo legítimo e sindicado.

IV. Ferramentas para conserto de duplicatas

Isso pode parecer fora de ordem, mas quero discutir as ferramentas para lidar com duplicadas antes de entrar nos exemplos específicos. Dessa maneira, eu posso recomendar as ferramentas apropriadas para consertas cada exemplo sem confundir ninguém.

1. 404 (Not Found)

Claro, a maneira mais simples de lidar com conteúdo duplicado é simplesmente removê-lo e retornar um erro 404. Se o conteúdo de fato não tiver nenhum valor para os visitantes ou para a busca, e se não tiver links de entrada ou tráfego significantes, então a remoção completa é uma opção perfeitamente válida.

2. 301 Redirect

Uma outra maneira de remover uma página é através de um 301-redirect. Diferentemente do 404, o 301 diz aos visitantes (e robôs) que a página se moveu permanentemente para outro local. Visitantes humanos chegam sem problemas à nova página. De uma perspectiva de SEO, a maior parte da autoridade dos links de entrada também é passada para a nova página. Se o seu conteúdo duplicado tem uma clara URL canônica, e a duplicata tem tráfego ou links de entrada, então um 301-redirect pode ser uma boa opção.

3. Robots.txt

Outra opção é deixar o conteúdo duplicado disponível para os visitantes humanos, mas bloqueá-lo para os rastreadores de busca. A maneira mais antiga e provavelmente mais fácil de fazer isso é com um arquivo robots.txt (geralmente localizado no seu diretório raiz). Ele se parece com algo assim:

Uma vantagem do robots.txt é que é relativamente fácil bloquear pastas completas ou até parâmetros de URL. A desvantagem é que é uma solução extrema e muitas vezes não confiável. Enquanto o robots.txt é eficaz para bloquear conteúdo não-rastreado, ele não é bom para remover conteúdo que já está no índex. Os maiores mecanismos de busca também parecem se incomodar com seu uso em excesso, e não costumam recomendar o robots.txt para conteúdo duplicado.

4. Meta Robots

Você também pode controlar o comportamento dos robôs de busca no nível da página, com uma diretriz header-level conhecida como “Meta Robots” tag (ou às vezes, Noindex”). Na sua forma mai simples, a tag se parece com algo assim:

Essa diretriz diz aos robôs de busca para não indexar essa página em particular ou seguir os links nela. Anedotamente, eu a acho mais SEO amigável do que o Robots.txt, e como a tag pode ser criada dinamicamente com código, ela muitas vezes pode ser mais flexível.

A outra variável comum para Meta Robots é o valor de conteúdo “NOINDEX, FOLLOW”, que permite que os robôsrasteiem os caminhos na página sem adicionar a página ao index de busca. Isso pode ser útil para páginas como resultados de busca internos, onde você pode querer bloquear certas variações (discutirei mais sobre isso depois) mas ainda seguem os caminhos para páginas de produtos.

Uma nota rápida: não existe necessidade de nunca adicionar uma Meta Robots tag com “INDEX, FOLLOW” a uma página. Todas as páginas são indexadas e seguidas por padrão (a não ser que sejam bloqueadas de outras formas).

5. Rel=Canonical

Em 2009, os motores de busca se uniram para criar a Rel=Canonical directive, às vezes simplesmente chamada de “Rel-canonical” ou de “Canonical Tag”. Isto permite aos webmasters especificar uma versão canônica para qualquer página. A tag vai no header da página (como o Meta Robots), e um simples exemplo se parece com isso:

Quando os mecanismos de busca chegam em uma página com uma canonical tag, eles atribuem a página à URL canônica, independente da URL que eles usaram para chegar até a pagina. Então, por exemplo, se um robô chegou na página acima usando a URL “www.example.com/index.html”, o mecanismo de busca não indexaria a URL adicional, não-canônica. Tipicamente, parece que o link juice de entrada também é passado através da canonical tag.

É importante notar que você precisar entender claramente o que de fato é uma página canônica adequada para cada determinado template de website. Usar o recurso em todo o seu site ou nas páginas erradas pode ser catastrófico.

6. Remoção de URL do Google

No Google Webmaster Tools (GWT), você pode pedir que uma página individual (ou diretório) seja removida manualmente do index. Clique em “Site configuration” > “Crawler access”,e você verá uma série de 3 abas. Clique na terceira aba, “Remove URL”, para ver isto:

Como essa ferramenta somente remove uma URL ou caminho por vez e é totalmente a critério do Google, ela é uma abordagem de última hora para o conteúdo duplicado. Eu apenas quero ser completo, e cobrir todas as suas opções.

Uma nota técnica importante: você precisa usar 404, Robots.txt block ou Meta Noindex na página antes de pedir a remoção. A remoção via GWT é primariamente a última defesa quando o Google está sendo terimoso. Na verdade, o Google suspendeu a exigência de que você primeiramente tinha que bloquear a página para pedir sua remoção. Pedidos de remoção podem ser feitos sem bloqueio através de outros meios agora, mas as remoções somente duram por 90 dias.

7. Parâmetro de Bloqueio do Google

Você também pode usar o GWT para especificar parâmetros de URL que você queira que o Google ignore (o que essencialmente bloqueia a indexação de páginas com esses parâmetros). Se você clicar em “Site Configuration” > “URL parameters”, você terá uma lista parecida com esta:

Esta lista mostra os parâmetros de URL que o Google detectou, bem como as configurações de como esses parâmetros devem ser rastreados. Tenha em mente que a opção “Let Googlebot decide” (‘Deixe o Googlebot decidir’) não reflete outras táticas de bloqueio, como Robots.txt ou Meta Robots. Se você clicar em “Edit”, você terá as seguintes opções:

O Google os mudou recentemente, e eu acho essa nova versão um pouco confusa, mas essencialmente, “Yes” significa que o parâmetro é importante e deve ser indexado, enquanto “No” significa que o parâmetro indica uma duplicata. A ferramenta GWT parece ser eficaz (e pode ser rápida), mas eu não geralmente a recomendo como primeira linha de defesa. Ela não impactará outros mecanismos de buca, e não pode ser lida por ferramentas de SEO e software de monitoramente. Ela também pode ser modificada pelo Google a qualquer momento.

8. Remoção de URL do Bing

O Bing Webmaster Center (BWC) possui ferramentas muito similares as opções do GWT acima. Na verdade, eu acredito que a ferramenta de bloqueio de parâmetros do Bing surgiu antes da versão do Google. Para pedir a remoção de uma URL no Bing, clique na aba “index”, então em “Block URLs” > “Block URL e Cache”. Você terá uma pop-up assim:

O BWC na verdade te dá uma maior quantidade de opções, incluindo bloqueio de um diretório e de seu site completo. Obviamente, este último geralmente não é uma boa ideia.

9. Bloqueio de Parâmetros do Bing

Na mesma seção do BWC (“Index”), existe uma opção chamada “URL Normalization”. O nome implica que o Bing trata isto mais como canonização, mas existe uma única opção – “ignore”. Como o Google, você terá uma lista de parâmetros auto-detectáveis e você pode adicionar ou modificá-los:

Como as ferramentas GWT, considero as versões do Bing como umúltimo recurso. Geralmente, eu somente uso essas ferramentas se outros métodos falharam, e um mecanismo de busca está simplesmente te dando tristeza.

10. Rel=Prev & Rel=Next

Em setembro (2011), O Google nos deu uma nova ferramenta para brigar contra uma forma particular de conteúdo de near duplicates. Irei descrever o problema em mais detalhes na próxima seção, mas essencialmente resultados paginados são quaisquer buscar onde os resultados são quebrados em pedaços, com cada pedaço (digamos, 10 resultados) tendo sua própria página/URL.

Você pode agora dizer ao Google como conteúdo paginado se conecta usando um par de tags muito parecido como Rel-Canonical. Elas são chamadas Rel-Prev e Rel-Next. A implementação é um pouquinho complicada, mas aqui está um exemplo simples:

Neste exemplo, o robô de busca caiu na página 3 dos resultados de busca, então você precisa de 2 tags: (1) uma Rel-Prev apontando para a página 2, e (2) uma Rel-Next apontando para a página 4. Fica complicado porque quase sempre você terá que gerar essas tags dinamicamente, uma vez que seus resultados de busca provavelmente são dirigidos por um template.

Enquanto os resultados iniciais sugerem que essas tags funcionam, elas não são atualmente honradas pelo Bing, e nós não temos muitos dados sobre sua eficácia. Eu discutirei brevemente outros métodos para lidar com conteúdo paginado na próxima seção.

11. Syndication-Source

Em novembro de 2010, o Google introduziu um conjunto de tags para editores de conteúdo sindicado. A diretriz Meta Syndication-Source pode ser usada para indicar a fonte original de um artigo re-publicado, como segue:

Mesmo o próprio conselho do Google sobre como usar essa tag e como usar uma canonical tag cross-domain é um pouco confuso. O Google lançou essa tag como “experimental”, e não tenho certeza se eles anunciaram publicamente uma mudança de estado. É algo de se assistir, mas não de se confiar.

12. Links Internos

É importante se lembrar que sua melhor ferramenta para lidar com conteúdo duplicado é não criá-lo, pra começo de conversa. Tudo bem, isso não é sempre possível, mas se você se vê tendo que corrigir dúzias de problemas, você deve ter que re-examinar sua extrutura de links internos e arquitetura de site.

Quando você corrige um problema de duplicação, seja com um 01-redirect ou canonical tag, também é importante fazer as outras partes do seu site refletiram essa mudança. É incrível quantas vezes vejo alguém usar um 301 ou canonical em uma versão de uma página, e então continuar a linkar internamente para uma versão não-canônica e preencher seu XML sitemap com URLs não-canônicas. Links internos são sinais fortes, e enviar sinais confusos somente irá causa problemas.

13. Não faça nada

Finalmente, você pode deixar os mecanismos de busca resolverem o problema. Isso é o que o Google recomenda que você faça por anos. Infelizmente, na minha experiência, especialmente para sites grandes, isso geralmente é uma ideia ruim.

É importante notar, no entanto, que nem todo conteúdo duplicado é um desastre, e o Google certamente conseguefiltrar algum dele sem grandes conseqüências. Se você somente tem algumas duplicatas isoladas por aí, deixá-las quietas é uma opção perfeitamente válidas.

Esta foi a primeira parte deste (longo) artigo. No próximo, veremos alguns exemplos reais de conteúdo duplicado e como trabalhar com eles. Também apresentarei ferramentas para diagnosticar duplicatas, e farei uma explicação melhor sobre qual URL é canônica.

***

Este artigo é uma republicação feita com permissão. SEOMoz não tem qualquer afiliação com este site. O original está em: http://www.seomoz.org/blog/duplicate-content-in-a-post-panda-world