¿En qué se basa el scraping? El hackeo que le ha costado a Meta una multa extremadamente alta

El mundo de Internet es muy amplio y no siempre te vas a encontrar con la mejor de las situaciones allá donde vayas. Los piratas informáticos acechan constantemente, especialmente en esos sitios tan populares que hay por la cantidad de personas que la utilizan. Eso se convierten en datos que los malhechores intentan obtener y una de las técnicas que utilizan es el llamado scraping.

-¿Qué es y en qué consiste el scraping?

Son muchas las técnicas que utilizan los hackers para conseguir datos en Internet. Algunos son muy sofisticados y son capaces de romper hasta las medidas más consistentes de seguridad informática si cuentan con las herramientas adecuadas. Por supuesto, muchos se dedican a la creación de software que facilita y automatiza este procedimiento, como aquellos que usan la técnica del scraping.

Para quien no lo sepa, que puede haber bastantes en la sala, el scraping es una técnica que se le conoce como ‘raspado web’ y se utiliza para extraer contenido de un sitio web, así como de su base de datos. Se utiliza a través de un software que hace una copia del contenido de un sitio y, además, tiene dos vertientes de seguridad.

Y decimos esto porque muchas compañías utilizan estros robots de forma legal para obtener datos o incluso clasificarlos. Por ejemplo, si este Black Friday has utilizado algún comparador de precios has usado este software. Y es que estas páginas se encargan de obtener los datos clasificados como precio de las webs para más tarde ofrecerte el sitio más barato donde comprar un producto.

-¿En qué casos es malo el scraping?

Como te hemos comentado, hay dos formas de hacer un scraping. El ‘bueno’ ya te lo hemos contado, aunque también se identifica porque los robots que extraen el código HTML de una página se identifican por la empresa que los lanza y, además, respetan un archivo que toda web tiene que es el robot.txt, el cual delimita el uso de estos programas a ciertas páginas del site.

El caso malo, que es el motivo por el que a Meta le han puesto una multa por el filtrado de datos de 533 cuentas, tiene que ver con el resto de prácticas. Es decir, la seguridad de una compañía se ve vulnerada cuando los robots o usuarios que hacen el raspado no están debidamente identificados, así como que los datos que se reciben acaban en un servidor no autorizado.

De hecho, hay hackers que lo que hacen es infectar otros equipos con el fin de distribuir los datos obtenidos en más sitios, por lo que es más difícil encontrarlos.

-¿Se puede evitar el scraping?

Como te decíamos ayer, Meta ha recibido una multa por el gran volumen de datos filtrados además de no disponer de las medidas necesarias para evitar estos problemas. Por eso, la respuesta es que si se puede evitar el scraping en Internet. Por supuesto, mejorar el el archivo robot.txt de tu site no es suficiente como puedes ver, pero sí que lo puede ser una mejora del firewall de los servidores donde se aloja.

También se pueden usar las famosas listas negras para bloquear ciertas IP que solicitan acceso al raspado, así como limitar el número de estas. También puedes cambiar el código de tu página para que sea más inaccesible a este tipo de software, pero el que más llama la atención es el uso de los llamados Honeypots o ‘tarros de miel’ en español. Estos redireccionan a esos programas a un sitio web sin datos, ralentizando así su trabajo y ayudándote a evitar estos problemas.