Tecnología

Tecnología / INTERNET

La estadística de la basura de Twitter

Día 30/05/2013 - 06.46h
Temas relacionados

Combinando métricas y técnicas el lenguaje, investigadores de la UNED logran un método en tiempo real para clasificar los 'tuits' que son spam de los que no lo son

A lo largo de una jornada, son varios los temas que pueden agitar el nido del jilguero más conocido de internet. Son los famosos y comentados 'trending topics', pequeños tsunamis de cientos, miles o millones de comentarios que eclipsan otros asuntos que aguardan en algún lugar de la red social. Un momento en el que algunos aprovechan para lanzar sus redes y colar 'spam' que frecuentemente pasa desapercibido para los sistemas de la plataforma. Ahora, un grupo de investigadores de la UNED han desarrollado un método estadístico basado en técnicas del lenguaje con el que pretenden dar caza a ese contenido basura.

"Básicamente lo que intentamos es localizar esos mensajes con 'spam' procesando el lenguaje que contienen los distintos tuits", explica Juan Martínez-Romo, uno de los autores del estudio recogido en la revista 'Expert Systems with Applications'. Para comprobar la efectividad de su algoritmo han analizado más de 20 millones de publicaciones -llevan "unos ocho meses" con este trabajo- y 34.000 tendencias. Un proceso que también les ha llevado a revisar nada más y nada menos que unas seis millones de direcciones webs que aparecían en los 'tuits'.

"Obviamente no es lo mismo cuando se habla de un terremoto que cuando, por ejemplo, se habla del embarazo de Britney Spears. Pero se podría decir que hasta un 10% de los mensajes que se intentan publicar en Twitter son contenido basura", aclara Martínez-Romo, quien matiza que muchos de esos intentos se quedan por el camino debido a las medidas de seguridad impuestas por la propia compañía. Su receta, por el momento, ha tenido una gran eficacia: clasificó correctamente el 93,7% de los mensajes maliciosos y en el caso de los aquellos que no lo eran, la tasa de identificación llega hasta el 89,3%.

En tiempo real

"El problema es que hasta ahora la mayoría de sistemas de detección se basaban en cuentas de usuarios", agrega. Un proceso, el de crear un perfil, que es sumamente fácil. "Esto provoca que la eliminación de estas cuentas sea una tarea infructuosa, porque a la vez, esa persona puede ir abriendo otras y seguir enviando contenido", explica. Además, la tarea se extiende en el tiempo porque para calificarle de 'spammer' hay que hacer un seguimiento y que varios de sus comentarios "hayan sido reportados por la comunidad".

La fórmula creada por Martínez-Romo y Lourdes Araujo se "puede implementar" en tiempo real porque tratan los 'tuits' de manera aislada. Combinando técnicas métricas y de lenguaje se analizan, entre otros valores, el número de verbos, sustantivos o adjetivos de cada mensaje. Esto permite construir modelos asociados a cada uno de los temas de debate y señalar los mensajes que se salgan de esa 'regla'. "De esta forma, podemos detectar aquellos que no se correspondan y, por tanto, sean 'spam'", anuncia Araujo. "Se puede decir que los cibercriminales intentan buscar en vías menos estudiadas como las redes sociales o incluso aplicaciones como WhatsApp para hacer este tipo de ataques", opina Martínez-Romo.

Compartir

  • Compartir

Temas relacionados
publicidad
Consulta toda la programación de TV programacion de TV La Guía TV

Comentarios:

Sigue ABC.es en...

PS4
J.M.SÁNCHEZEl clásico videojuego de corte «musou» ofrece una estética llena de fantasía en donde nos sumergimos a espadazo limpio
Probamos
BB-8
J.M.SÁNCHEZLa firma tecnológica trae a España su bola robótica manejable desde el «smartphone» inspirada en la saga «Star Wars»
Emprendedores
Sergio Álvarez Leiva
J.M.SÁNCHEZEl cofundador de la «startup» detalla a ABC los planes de futuro de esta firma pionera en la visualización geoespacial de datos