Guia de Problemas de Rastreabilidade em sites

Problemas de Rastreabilidade

Você está trabalhando duro em seu site e está ansioso para vê-lo no topo da pesquisa, mas seu conteúdo está lutando para superar o obstáculo da 10ª página. Se você tem certeza de que seu site merece ter uma  classificação melhor, pode existir um problema dentro de seu site: na rastreabilidade.

O que é rastreabilidade?

Os motores de busca usam rastreadores para coletar determinados parâmetros das páginas dos sites. O processo de coleta desses dados é chamado de rastreamento. Com base nesses dados, os mecanismos de pesquisa incluem páginas do site no índice de busca, o que significa que a página pode ser encontrada pelos usuários. A capacidade de rastreabilidade do site é a sua acessibilidade para os rastreadores. Você tem que ter certeza de que os rastreadores de busca serão capazes de encontrar as páginas do seu site, obter acesso e, em seguida, “ler”.

Também dividimos essas questões em duas categorias: aquelas que você pode resolver por conta própria e aquelas que você precisa para envolver um desenvolvedor ou um administrador de sistema.

O que eu quero dizer por “resolver por conta própria”: você pode gerenciar as páginas do seu site e os arquivos da raiz. Você também precisa ter conhecimento básico de codificação (alterar ou substituir um pedaço de código no lugar certo e da maneira correta).

O que eu entendo por “envolver um desenvolvedor ou um administrador de sistema”: envolver os administradores do servidor e / ou profissionais com habilidades de desenvolvimento web.

Rastreadores: Spiders, robôs, bots e crawlers!

Os termos spiders, robôs, bots e crawler representam a mesma coisa: programas automatizados programados para cruzar a internet com o objetivo de fornecer ao seu mecanismo de busca a habilidade de indexar o máximo de websites e seus arquivos associados na medida do possível.

Rastreadores bloqueados por meta tags ou robots.txt

Estes tipos de problemas são bastante fáceis de detectar e resolver, basta verificar suas meta tags e arquivo o robots.txt. O site inteiro ou determinadas páginas podem estar invisíveis para o Google por uma simples razão: os rastreadores dos mecanismos de buscas não têm permissão para entrar nelas.

Existem vários comandos para os rastreadores, que evitarão o rastreamento de suas páginas. Note que não é um erro ter esses parâmetros no robots.txt; Usados corretamente e com precisão, esses parâmetros ajudarão a salvar um orçamento de rastreamento e darão aos robôs a direção exata que precisam seguir para rastrear as páginas que você deseja rastrear.

1. Bloquear indexação da página através da meta tag robots

Se você fizer isso, os rastreadores não vão nem começar a olhar para o conteúdo da sua página, passando diretamente para a próxima página.

Você pode detectar este problema verificando se o código da sua página contém esta diretiva:

<meta name="robots" content="noindex" />

2. Atributo “No follow”

Neste caso, os rastreadores irão indexar o conteúdo da sua página, mas não seguirão os links. Existem dois tipos de diretivas a seguir:

Em toda a página. Verifique se você tem:

<meta name="robots" content="nofollow">

No código da página – isso significaria que o rastreador não pode seguir nenhum link na página.

Para um único link. O código é:

<href="nomedapagina.html" rel="nofollow"/>

3. Bloqueando indexação de páginas através de robots.txt

Robots.txt é o primeiro arquivo do seu site que os rastreadores vão olhar. A coisa mais dolorosa que você pode encontrar lá é:

User-agent: *
Disallow: /

Isso significa que todas as páginas do site estão bloqueadas para indexação.

Pode acontecer que apenas certas páginas ou seções sejam bloqueadas, por exemplo:

User-agent: *
Disallow: /produtos/

Nesse caso, qualquer página da subpasta “Produtos” será bloqueada para indexação e, portanto, nenhum dos seus produtos ficará visível no Google.

Problemas com links quebrados

Links quebrados são sempre uma má experiência para seus usuários, mas também para os rastreadores. Cada página que o rastreador está indexando (ou tentando indexar) é um gasto de provisão de rastreamento, que é o tempo limitado que o Google dedica a cada site. Com isso em mente, se você tem muitos links quebrados, o rastreador irá desperdiçar todo o seu tempo para indexá-los e não chegará a páginas relevantes e de qualidade.

Os relatórios de erros de rastreamento no Google Search Console ajudarão a identificar esse tipo de problema.

4. Erros de URL

Um erro de URL geralmente é causado por um erro de digitação na URL que você insere em sua página (link de texto, link de imagem, link de formulário). Certifique-se de verificar se todos os links estão digitados corretamente.

5. URLs desatualizados

Se você realizou uma migração de site recentemente, uma exclusão em massa de URLs ou uma alteração em sua estrutura de URL, você precisa verificar novamente esse problema. Certifique-se você não linkou qualquer URLs antigas ou excluídas de qualquer uma das páginas do seu site e verifique se as URLs antigas foram redirecionadas para as URLs novas.

6. Páginas com acesso negado

Se você ver que muitas páginas do seu site retornam, por exemplo, um código de status 403, é possível que essas páginas estejam acessíveis apenas para usuários registrados. Marque esses links como nofollow para que elas não comprometam a sua provisão de rastreamento.

Links quebrados causados por problemas relacionados ao servidor

7. Erros do Servidor

Um grande número de erros 5xx (por exemplo código de erro 502) pode ser um sinal de problemas de servidor. Para resolvê-los, forneça a lista de páginas com erros à pessoa responsável pelo desenvolvimento e manutenção do site. Essa pessoa cuidará dos erros ou problemas de configuração do site que esteja causando os erros do servidor.

8. Capacidade limitada do servidor

Se o servidor está sobrecarregado, ele pode parar de responder às solicitações de usuários e rastreadores. Quando isso acontece, seus visitantes recebem a mensagem ” Connection timed out”. Este problema só pode ser resolvido juntamente com o especialista em manutenção do site que irá estimar se e em quanto a capacidade do servidor deve ser aumentada.

9. Configuração incorreta do servidor Web

Esta é uma questão complicada. O site pode ser perfeitamente visível para você como um ser humano, mas ele continua dando uma mensagem de erro a um rastreador, então todas as páginas ficam indisponíveis para rastreamento. Isso pode acontecer devido à configuração específica do servidor: alguns firewalls de aplicativos Web (por exemplo, o mod_security do Apache) bloqueiam o Googlebot e outros bots de pesquisa por padrão. Em resumo, este problema, como todos os aspectos relacionados, deve ser resolvido por um especialista.

O Sitemap, juntamente com o robots.txt, conta para a primeira impressão dos rastreadores. Um sitemap correto os aconselha a indexar seu site da maneira que você deseja que ele seja indexado. Vamos ver o que pode dar errado quando o rastreador começa a olhar para o seu sitemap (s).

Erros de Sitemaps

10. Erros de formatação

Existem vários tipos de erros de formatação, por exemplo, URL inválida ou falta de tags (consulte a lista completa, juntamente com uma solução para cada erro, aqui).

Você também pode ter descoberto (no primeiro passo) que o arquivo de sitemap é bloqueado pelo robots.txt. Isso significa que os rastreadores não conseguiram acessar o conteúdo do sitemap.

11. Páginas erradas no sitemap

Vamos passar para o conteúdo. Mesmo se você não for um desenvolvedor web, você pode estimar a relevância das URLs no sitemap. Dê uma olhada nas URLs do sitemap e certifique-se de que cada uma delas é relevante, atualizada e correta (sem erros ortográficos ou erros de carregamento). Se a provisão de rastreamento for limitada e os rastreadores não puderem rastrear todo o site, as indicações do sitemap podem ajudá-los a indexar as páginas mais valiosas primeiro.

Não engane os rastreadores com instruções controversas: certifique-se de que as URLs no seu sitemap não estão bloqueadas para indexação ou diretivas de meta ou robots.txt.

Problemas de arquitetura do site

As questões desta categoria são as mais difíceis de resolver. É por isso que recomendamos que você siga as etapas anteriores antes de tentar resolver os problemas abaixo.

Esses problemas relacionados à arquitetura do site podem desorientar ou bloquear os rastreadores em seu site.

12. Linkagem interna incorreta

Em uma estrutura de site corretamente otimizada, todas as páginas formam uma cadeia indissolúvel, de modo que o rastreador pode facilmente chegar a cada página.

Em um site sem otimização certas páginas podem sair da visão dos rastreadores. Pode haver diferentes razões para isso.

A página que você deseja obter classificação não está vinculada por qualquer outra página no site. Desta forma, ela não tem chance de ser encontrado e indexado pelo rastreador.

Muitos níveis de URLS entre a página principal e a página que você deseja classificar. A prática comum é 3 níveis de URLs ou menos, caso contrário há uma chance de que o rastreador não chegue a ela.

RUIM: http://seusite.com.br/categoria/produto/palavras-chave/especifico-para-xyz/palavras-chave (= 5 níveis)
BOM: http://seusite.com.br/blog/seu-artigo (= 2 níveis)

Mais de 3000 links ativos em uma página (trabalho demais para o rastreador).

Os links estão ocultos em elementos do site não-indexáveis: formulários requeridos pela submissão, frames, plugins (Java e Flash em primeiro lugar).

Na maioria dos casos, o problema de linkagem interna não é algo que você pode resolver facilmente. Uma revisão profunda da estrutura do site em colaboração com os desenvolvedores é necessária.

13. Redirecionamentos incorretos

Redirecionamentos são necessários para encaminhar os usuários para uma página mais relevante (ou, melhor, aquela que o proprietário do site considera relevante). Veja o que você pode ignorar ao trabalhar com redirecionamentos:

Redirecionamento temporário em vez de permanente: Usar redirecionamentos 302 ou 307 é um sinal para os rastreadores retornarem à página novamente e novamente, gastando a provisão de rastreamento. Portanto, se você entender que a página é original use o redirecionamento 301 (permanente) para ela.

Redirecionar em loop: Pode acontecer que duas páginas sejam redirecionadas uma para a outra. Assim, o rastreador é pego em um loop e desperdiça toda a provisão de rastreamento. Verifique e remova os eventuais redirecionamentos mútuos.

14. Velocidade de carregamento lenta

Quanto mais rápido suas páginas forem carregadas, mais rápido o rastreador passará por elas. Cada fração de segundo é importante. E a posição do site na SERP é correlacionada à velocidade da carregamento.

Use o Google Pagespeed Insights para verificar se seu site é rápido o suficiente. A velocidade de carregamento pode afastar os usuários, pode haver vários fatores que o afetam.

Fatores do lado do servidor: seu site pode ser lento por um motivo simples – a largura de banda do servidor atual não é mais suficiente. Você pode verificar a largura de banda na descrição do plano de preços da sua hospedagem.

Fatores front-end: um dos problemas mais frequentes é o código não optimizado. Se ele contém scripts volumosos e muitos plug-ins, seu site está em risco. Também não se esqueça de verificar regularmente se suas imagens, vídeos e se outros conteúdos semelhantes são otimizados e não diminuem a velocidade de carregamento da página.

15. Duplicações de conteúdo causadas pela má arquitetura do site

O conteúdo duplicado é o problema de SEO mais frequente, encontrado nos sites. Esta é uma das principais razões que pode prejudicar a sua taxa de rastreamento. O Google dedica um tempo limitado a cada site, por isso é impróprio desperdiçá-lo indexando o mesmo conteúdo. Outro problema é que os rastreadores não sabem em qual cópia confiar mais e podem dar prioridade a páginas erradas, se você não usar a Canonical Tag para organizar as coisas.

Para corrigir esse problema, você precisa identificar páginas duplicadas e impedir seu rastreamento de uma das seguintes maneiras:

  • Excluir páginas duplicadas
  • Definir parâmetros necessários no robots.txt
  • Definir parâmetros necessários em meta tags
  • Definir um redirecionamento 301
  • Use rel=canonical

16. Uso de JS e CSS

Os arquivos CSS e JavaScript são muitas vezes a razão pela maior parte dos sites serem lentos. Especialmente grandes e complicados templates de sites WordPress, Joomla e Drupal podem usar muitos arquivos CSS e Javascript. Carregar todos esses arquivos leva tempo, especialmente se eles são carregados com solicitações HTTP separadas. Minimizar essas solicitações pode ter um enorme impacto para a velocidade do seu site, então você precisa fazer algo sobre isso. Esta é provavelmente uma das maiores melhorias no desempenho do seu site. Os principais CMSs tem extensões (plug-ins) que ajudam a fazer a compressão e minificação de arquivos JS e CSS.

Tecnologias desatualizadas

17. Conteúdo em Flash

Usar a tecnologia em Flash pode ser prejudicial para a experiência do usuário (arquivos Flash não são suportados em alguns dispositivos móveis) e SEO. É improvável que, um conteúdo de texto ou um link dentro de um elemento Flash seja, indexado pelos rastreadores.

Portanto, sugerimos simplesmente não usar em seu site.

18. Frames HTML

Se o seu site contém frames, eu tenho más notícias para você, frames HTML são extremamente desatualizados, mal indexados e você precisa substituí-los com uma solução mais atualizada o mais rápido possível.

Conclusão

Uma página perfeitamente otimizada não é garantia de que você irá colocá-la no topo do Google, se o conteúdo não puder ser entregue ao mecanismo por causa de problemas de rastreabilidade.

Para descobrir o que está bloqueando ou desorientando os rastreadores do Google em seu site, você precisa revisar seu domínio. É um esforço árduo para fazê-lo manualmente. É por isso que você deve confiar as tarefas de rotina para ferramentas apropriadas. A maioria das soluções de auditoria de sites mais populares ajudam a identificar, categorizar e priorizar os problemas, para que você possa ir para ação imediatamente após a obtenção do relatório. Além disso, muitas ferramentas permitem armazenar dados de auditorias anteriores, o que permite obter uma visão geral do desempenho técnico do seu site ao longo do tempo.

Existem outras questões que você considera críticas para o rastreamento do site? Você usa alguma ferramenta que ajuda você a otimizar e solucionar esses problemas de maneira oportuna? Sinta-se livre para compartilhar suas sugestões nos comentários!

Autor: Henry Douglas
Analista de marketing digital, trabalho com SEO desde 2010 e tenho 13 anos de experiência em em WordPress.

Como podemos te ajudar?

Entre em contato conosco hoje mesmo e descubra como nossa empresa de marketing pode impulsionar suas vendas, aumentar sua visibilidade online e alcançar seus objetivos de negócios.

Desenvolvemos projetos conforme as necessidades e objetivos de cada cliente, sempre com processos bem definidos e transparentes do planejamento ao controle, facilitando a comunicação com as partes interessadas e a melhoria contínua das ações de marketing implementadas.

Danilo Pedrosa
Especialista em Projetos de Marketing, Shiftmind