Sorry, your browser does not support JavaScript!

Evitar extracción de documentos con herramientas tipo HTTrack

Las herramientas de scraping automatizado como HTTrack, Wget y Curl pueden comprometer la seguridad de una plataforma web si no se implementan defensas adecuadas. Esta guía presenta medidas técnicas y éticas para proteger documentos sensibles y preservar la soberanía digital.

1. Autenticación avanzada por sesión

2. Bloqueo proactivo a bots

Evita que los crawlers comunes accedan a tu sitio usando reglas en .htaccess:

RewriteEngine On
		RewriteCond %{HTTP_USER_AGENT} ^HTTrack [NC,OR]
		RewriteCond %{HTTP_USER_AGENT} ^wget [NC,OR]
		RewriteCond %{HTTP_USER_AGENT} ^curl [NC]
		RewriteRule ^.*$ - [F,L]

También puedes bloquear desde PHP:

$ua = $_SERVER['HTTP_USER_AGENT'];
		if (preg_match('/HTTrack|wget|curl/i', $ua)) {
		header('HTTP/1.0 403 Forbidden');
		exit;
		}

3. Prevención de indexación

User-agent: *
		Disallow: /privado/
		Disallow: /documentos/
		
<meta name="robots" content="noindex, nofollow">

4. Protección de archivos por diseño

5. Auditoría y vigilancia de patrones sospechosos

6. Enfoque ético y descentralizado

7. Recomendaciones adicionales