Bloquear bots y scrapers con htaccess Imprimir

  • 0

Para bloquear bots, scrapers y herramientas automatizadas que intentan acceder al sitio web mediante reglas en el archivo .htaccess:

  1. Acceder al panel de control DirectAdmin utilizando las credenciales de administrador del dominio.
  2. En el menú principal, hacer clic en Sistema de Archivos > Administrador de Archivos de la lista de opciones disponibles.
  3. Navegar hasta la carpeta raíz del sitio web (public_html).
  4. Localizar el archivo .htaccess o crear uno nuevo si no existe.
  5. Agregar el siguiente código al archivo .htaccess:
    <IfModule mod_rewrite.c>
        RewriteEngine On
        RewriteCond %{HTTP_USER_AGENT} ^.*(Scrapy|python-requests|HttpClient|curl|wget|libwww-perl|Java|WinHttp).* [NC]
        RewriteRule ^.* - [F,L]
    </IfModule>
  6. Guardar los cambios en el archivo .htaccess.

Explicación del código

  • RewriteEngine On: Activa el motor de reescritura de Apache.
  • RewriteCond %{HTTP_USER_AGENT}: Evalúa el User-Agent del navegador o herramienta que realiza la solicitud.
  • ^.*(Scrapy|python-requests|...): Expresión regular que identifica los User-Agents de bots comunes.
  • [NC]: Bandera que indica que la comparación no distingue entre mayúsculas y minúsculas.
  • [F,L]: Devuelve un error 403 Forbidden y detiene el procesamiento de reglas adicionales.

Personalización del bloqueo

Para agregar o eliminar User-Agents específicos del bloqueo:

  • Agregar bots: Incluir el nombre del bot en la lista separado por el símbolo | (pipe).
  • Permitir herramientas legítimas: Eliminar de la lista herramientas como curl o wget si son necesarias para el funcionamiento del sitio.
  • Bloqueo selectivo: Crear reglas específicas para diferentes secciones del sitio web.

User-Agents recomendados para bloquear

Lista de User-Agents comúnmente utilizados por bots y scrapers:

Scrapers y herramientas de extracción

  • Scrapy: Framework de Python para web scraping
  • python-requests: Librería de Python para solicitudes HTTP
  • curl: Herramienta de línea de comandos para transferir datos
  • wget: Utilidad para descargar archivos de la web
  • HttpClient: Cliente HTTP de varias librerías
  • libwww-perl: Librería de Perl para web
  • Java: Aplicaciones Java genéricas
  • WinHttp: API de Windows para HTTP

Bots de motores de búsqueda (usar con precaución)

  • Googlebot: Bot de Google (NO bloquear si desea indexación)
  • bingbot: Bot de Bing (NO bloquear si desea indexación)
  • YandexBot: Bot de Yandex
  • BaiduSpider: Bot de Baidu
  • Sogou: Bot del motor chino Sogou
  • 360Spider: Bot del motor chino 360

Bots de herramientas SEO

  • AhrefsBot: Bot de la herramienta SEO Ahrefs
  • MJ12bot: Bot de Majestic SEO
  • SemrushBot: Bot de Semrush
  • BLEXBot: Bot de BLEXBot
  • DataForSeoBot: Bot de DataForSEO
  • PetalBot: Bot de Huawei
  • DotBot: Bot de OpenSite Explorer

Bots de redes sociales

  • facebookexternalhit: Bot de Facebook para vistas previas
  • Twitterbot: Bot de Twitter para tarjetas
  • LinkedInBot: Bot de LinkedIn
  • WhatsApp: Bot de WhatsApp para vistas previas
  • Telegram: Bot de Telegram
  • Slackbot: Bot de Slack

Otros bots comunes

  • CCBot: Common Crawl bot
  • archive.org_bot: Bot de Internet Archive
  • Applebot: Bot de Apple
  • DuckDuckBot: Bot de DuckDuckGo
  • Barkrowler: Bot de Babbar
  • proximic: Bot de Proximic
  • SiteAuditBot: Bot de auditoría de sitios

Advertencia: Este bloqueo puede afectar herramientas legítimas de monitoreo, APIs y servicios que utilicen los User-Agents bloqueados. Probar cuidadosamente después de implementar las reglas.

Advertencia: Bloquear bots de motores de búsqueda legítimos como Googlebot o bingbot puede afectar negativamente el posicionamiento SEO del sitio web. Evaluar cuidadosamente qué bots bloquear según las necesidades específicas del sitio.

Consejo: Recordar hacer una copia de seguridad del archivo .htaccess antes de realizar modificaciones. Si alguna funcionalidad del sitio deja de trabajar correctamente, revisar que las nuevas reglas no estén bloqueando tráfico legítimo. Para casos complejos de protección, considerar implementar soluciones adicionales de seguridad.


¿Fue útil la respuesta?

« Atrás

Powered by WHMCompleteSolution