¿Qué es el phishing?

El phishing es un delito cibernético en el que los delincuentes cibernéticos atraen a los usuarios de Internet en sitios web que parecen confusamente similares a los sitios web populares como Paypal o Facebook. También hay sitios web de phishing que no se distinguen visualmente de estos sitios web. La víctima cree que está visitando el sitio web real e ingresa información confidencial como contraseñas o información de la tarjeta de crédito para iniciar sesión en un sitio web o completar la información de la cuenta. Como resultado, la información personal cae en manos de los ciberdelincuentes que alojan el sitio web de phishing. A menudo, la información robada se utiliza para futuros ataques u otras actividades delictivas.

El phishing no solo es el ataque más utilizado, sino también el más exitoso aplicado por los delincuentes cibernéticos [1] [2]. El phishing causa enormes daños financieros a empresas y personas privadas [3]. El robo de secretos empresariales (por ejemplo, datos de clientes, ideas / conceptos o patentes que no están registrados en ese momento) representa una amenaza importante para el éxito económico de una empresa comercial. Es probable que el robo de datos de clientes resulte en una enorme pérdida de imagen para las empresas. Atacando a personas privadas, los datos robados se utilizan a menudo para realizar robos de identidad completos. Al aplicar robos de identidad, los delincuentes cibernéticos se hacen pasar por sus víctimas y realizan acciones fuera de su autorización, como por ejemplo, hacer compras en nombre de la víctima o cometer un nuevo delito cibernético al usar la PC pirateada de la persona engañada. Cada vez con más frecuencia, los delincuentes cibernéticos se las arreglan para robar contraseñas de proveedores de la nube como AWS o Azure y, por lo tanto, pueden usar el poder computacional para fines delictivos.

El robo de identidad provoca un enorme esfuerzo burocrático de revertir las acciones ejecutadas de los delincuentes cibernéticos. Aún peor que todo el esfuerzo burocrático son las consecuencias legales que se aplican a la persona afectada. La víctima que posee la PC o el servidor pirateado puede ser responsable de las acciones criminales que se ejecutan desde la máquina de la víctima.

Cada recurso de Internet (sitio web, documento pdf, archivo zip) posee una dirección establecida por la URL. Una URL tiene una estructura particular. Sólo muy raramente, se utilizan todos los componentes de una URL. Los componentes de color de la URL ofrecen diferentes funcionalidades y se explican a continuación:

https://johndoe:mypassword@www.example.com:80/file1/index.html?birthdate=04091992#Article2

Esquema: el esquema determina qué enfoque técnico (protocolo) se utiliza para acceder al recurso de Internet y cómo se transfieren los datos al visitante. Los esquemas típicos existentes son HTTP, HTTPS o FTP. Al agregar “: //” al esquema, el esquema se separa y se distingue del resto de la URL.

Nombre de usuario y contraseña: estos componentes son opcionales y permiten al visitante del sitio web iniciar sesión en ciertos sitios web con solo ingresar la URL. El nombre de usuario está separado de la contraseña por el signo reservado “:”. El nombre de host se separa de la contraseña con un signo-@.

Nombre de host: el nombre de host define el nombre del servidor en el que el sitio web está disponible para descargar. El nombre de host está escrito en una secuencia de letras legibles (por ejemplo, www.gdata.de) o como una dirección IP numérica (por ejemplo, 212.23.136.50). Cada nombre de dominio legible se resuelve en una dirección IP correspondiente, que luego se utiliza para el establecimiento de la conexión. Por esta razón, también se puede acceder a todos los sitios web ingresando la dirección IP correspondiente en la barra del navegador.

Puerto: el puerto inmoviliza la aplicación en el servidor al que se debe establecer una conexión. La aplicación responsable de entregar el sitio web al visitante se ejecuta en el puerto 80 de forma predeterminada considerando HTTP o en el puerto 443 considerando HTTPS. El número de puerto es opcional y los puertos estándar mencionados anteriormente se agregan automáticamente a la URL. El número de puerto está separado por un signo “:” del nombre de host.

Ruta y nombre de archivo: Debido a que los sitios web se componen de varios documentos, la mayoría de los desarrolladores de sitios web organizan estos documentos en diferentes directorios. Esto se hace para proporcionar una mejor descripción y estructura. Al ingresar la ruta y el nombre del archivo, el visitante del sitio web especifica qué sitio web desea solicitar o ver.

Consulta: Con la ayuda de la consulta, la entrada del usuario que se ingresa en el sitio web se puede enviar al servidor para su procesamiento posterior. En la URL de ejemplo anterior, una fecha de nacimiento ingresada se envía al servidor. La consulta está separada del resto de la URL por un signo de interrogación. La consulta consta de un identificador y es seguida por un valor separado por un signo “=”. Si es necesario, se agregan más pares identificador-valor con un separador “&”.

Fragmento: el fragmento se utiliza para indicar al navegador que se desplace automáticamente a una parte específica del sitio web, en nuestro ejemplo del artículo 2. El fragmento está separado del resto de la URL por un signo #.

Estrategias de phishing – Los trucos de los ciberdelincuentes Todos los ataques de phishing tienen una cosa en común, se debe alentar a la víctima a hacer clic en una URL de phishing. Por lo tanto, los delincuentes cibernéticos utilizan varios trucos para que la víctima crea que la URL es la dirección de un sitio web popular y confiable. Por lo tanto, los delincuentes cibernéticos utilizan trucos para ocultar la diferencia entre la URL real y la URL de phishing. Tomemos como ejemplo las tres URL a continuación. ¿Reconoce la diferencia entre ellos?

1. Spoofing de script mixto con conjuntos de caracteres inusuales

Original URL http://www.google.com U+006F, small o from the ASCII-Set
Phishing URL http://www.gооgle.com U+043E, small o from the Cyrillic alphabet
Phishing URL http://www.gοοgle.com U+03BF, small Omicron from the Greek alphabet

Probablemente reconozca una pequeña diferencia entre la segunda y la tercera URL, si observa más detenidamente el carácter ‘o’. ¿Pero notaría esta diferencia si está navegando sin sospechar? Probablemente no. Además, la primera y la segunda URL prácticamente no se distinguen. Teniendo en cuenta este tipo de phishing, los ciberdelincuentes aprovechan la posibilidad de utilizar diferentes familias de fuentes en la URL. Estas familias de fuentes trazan los mismos caracteres de formas ligeramente diferentes. En el ejemplo anterior, la letra ‘o’ se ilustra utilizando la familia de fuentes latina, la familia de fuentes cirílica y griega.

2. Insertar caracteres invisibles. La inyección de caracteres invisibles hace uso de caracteres invisibles de Unicode. Al insertar esos caracteres en una URL, el texto visible no se distingue de la URL original. 3. Spoofing de texto bidireccional La suplantación de texto bidireccional explota los scripts de Unicode que muestran una dirección de escritura de derecha a izquierda para mezclarlos con los scripts de escritura normales de izquierda a derecha. Después de que el navegador presenta estos scripts combinados, los caracteres de la URL resultantes aparecen en un orden diferente. [21] Después de la representación, esto puede llevar a URL bidireccionales que no se distinguen de las URL orientadas de izquierda a derecha. 4. URL de inicio de sesión amigable http://paypal.com:login@phishingsite.org

Otra estrategia de phishing para engañar al destinatario de la URL de phishing es el uso de las llamadas URL de inicio de sesión amistosas. ¿Te enamorarías de este ataque de phishing? Las URL de inicio de sesión amistosas son URL que están presentes en el siguiente formato: esquema: // nombre de usuario: contraseña @ nombre de host / ruta y permiten al visitante del sitio web iniciar sesión en ciertos sitios web ingresando la URL como se describe en la sección sobre la estructura de la URL. Por lo tanto, el usuario no necesita ingresar su información de acceso en el sitio web en sí. El servidor extrae el nombre de usuario y la contraseña de la URL y verifica que la contraseña sea correcta. En el ejemplo anterior, phishingsite.org (marcado en rojo en la figura anterior) es la URL si no se envían datos de inicio de sesión al servidor. Como prefijo "paypal.com" como nombre de usuario y "inicio de sesión" como contraseña, la víctima es engañada para que piense que los datos de inicio de sesión son el nombre de dominio real paypal.com/login.
5. Los nombres colocados en subdominio

http://paypal.login.30jka.sde{...}ajd.233.phishingsite.org

Esta estrategia de phishing explota el hecho de que la mayoría de la gente lee de izquierda a derecha, mientras que la resolución de la URL se realiza de derecha a izquierda. Los ciberdelincuentes insertan los nombres de los sitios web imitados en la URL como subdominios, como puede ver en el ejemplo anterior. Al agregar cadenas de caracteres arbitrarias en forma de subdominios a la URL, la identidad real del servidor ("phishingsite.org" en nuestro caso) se organiza al final de la barra de direcciones del navegador de las víctimas y, por lo tanto, está fuera de foco. El visitante del sitio web simplemente lee el nombre del sitio web imitado ("paypal.login" en nuestro caso).
6. Dirección IP y nombre de host en la ruta
http://141.255.145.23/www.paypal.com

A menudo, el nombre de host de una URL de phishing se confunde con su dirección IP correspondiente. La URL imitada se coloca en la ruta de la URL.
7. Typos y letras similares
Orginal URL: http://www.paypal.com
Phishing URL: http://www.paypaI.com
En este caso, la letra grande i (I) se usa en lugar de la letra pequeña L (l) al final de la URL www.paypal.de. La URL está mal escrita a propósito. Los personajes son reemplazados por personajes que son similares en términos de apariencia visual.
8. URL acortadas

http://goo.gl/nbKckE

Los servicios de acortamiento de URL no solo disminuyen la longitud de la URL original, sino que también crean una nueva URL, que consiste en un nombre de sitio del servicio (por ejemplo, bit.ly o goo.gl) y una secuencia aleatoria de letras y números. Con solo mirar la URL reducida, el visitante del sitio web no puede identificar la página web a la que se le redirige después de hacer clic en la URL reducida. Por lo tanto, la identidad del sitio web de los atacantes está ofuscada.
9. Ofuscación de URL codificada

Dword http://3515261219
Octal http://0321.0206.0241.0043
Hexadecimal http://0xD186A123
Por lo general, las direcciones IP se escriben como bloques de cuatro (Ipv4) o seis (Ipv6) dígitos / caracteres. Además de esta forma de escribir direcciones IP, también se pueden representar utilizando una notación hexadecimal, octal o hexadecimal. Los operadores de sitios web utilizan esta representación para ocultar el nombre escrito (nombre de host) del sitio web.
10. Dominio sombreado
Además de la estrategia de piratear otro servidor web y luego comprometerlo y utilizar las técnicas de ofuscación mencionadas para ocultar el dominio de segundo nivel, existe la estrategia para utilizar la buena reputación del dominio de segundo nivel. Usando esta técnica que se llama Dominación de dominio, los delincuentes cibernéticos obtienen acceso a la cuenta de administración de DNS del propietario de la página y agregan subdominios que conducen a las direcciones IP que pertenecen a ellos mismos. Usando este enfoque, el servidor web en sí no es hackeado. Solo se compromete el registro DNS que pertenece al servidor web. La ventaja clave de la técnica Domain Shadowing es que toma notablemente más tiempo detectar la existencia del sitio web de phishing y eliminarlo. Esto se debe al hecho de que no existen indicaciones del ataque al servidor web. Además, se necesita una colaboración completa con el registrador y / o el operador de DNS para garantizar que el sitio web original no se vea afectado por el phishing.
11. Palabras clave que suenan serias
http://secure-login-paypal.com

Para tratar de ganarse la confianza de la víctima, se usan palabras clave que suenan serias en la URL y se combinan con la organización objetivo. En el ejemplo anterior, se puede utilizar una revisión de los datos de WHOIS para averiguar si el dominio está registrado por Paypal o no.
Aprendizaje automático
Las personas que comprueban a fondo las URL antes de hacer clic en ellas podrían reconocer algunos trucos de engaño. Pero debido a que es humano que a menudo tenemos prisa o no estamos concentrados cuando navegamos por Internet en la vida cotidiana, se cometen errores. Por lo tanto, es mejor y más confiable detectar los diferentes tipos de phishing mediante un enfoque automático.
Todas las estrategias de phishing presentadas persiguen el objetivo de ofuscar la verdadera identidad del sitio web y, al mismo tiempo, engañan al destinatario para que piense que visita el sitio web original mientras que en realidad visita el sitio falsificado. Basándonos en todas estas estrategias de phishing, podemos extraer ciertas funciones léxicas de una URL. Estas características léxicas se utilizan posteriormente como base de la toma de decisiones para decidir si la URL a examinar es una URL de phishing o una URL benigna. A continuación, enumeramos algunos ejemplos de las características léxicas que utilizamos. Estas características se pueden agrupar en características de conteo, características de patrón, características de n-gramo, características de longitud y características binarias:
Características de cuenta
En este grupo, se cuentan las características específicas, por ejemplo:
Número de puntos en el nombre de host
Aparición de la cadena de caracteres 'www' en el nombre de host
Número de @ -signos en el nombre de host
Características del patrón
Aquí, se graban ciertos patrones, por ejemplo:
Características de N-gram
Medidas de similitud con los sitios web más populares del mundo.
Cambio de caso
Características de longitud
Este grupo se ocupa de la longitud de ciertas propiedades, por ejemplo,
Longitud del primer segmento de trayectoria
Longitud del dominio de nivel superior
Longitud de la consulta
Características binarias
Las características binarias se pueden asignar a pares como falso / verdadero, sí / no, existente / no existente, etc.
Dirección IP en lugar de un nombre de host

Calculamos la mayoría de las características léxicas, para cada nombre de host, la ruta, la consulta y la URL completa. Muchos puntos en la URL no son inusuales hasta cierto punto. Al considerar los puntos en la ruta, muchos puntos apuntan a la existencia de carpetas ocultas en el servidor, lo que podría ser una evidencia de un servidor pirateado. Por lo tanto, es útil un cálculo separado de los valores-características para diferentes segmentos de URL.
Cuando observamos las funciones de n-gramas, diferenciamos entre gramos, dos gramos, tres gramos y cuatro gramos. El cálculo de n-gramas, la URL, el nombre de host, la ruta y la consulta se dividen en segmentos de uno, dos, tres o cuatro caracteres. Por ejemplo, el nombre de host paypal.com se divide en tres gramos de pago, ayp, ypa, pal, al.c, l.c, .co y com. Después de esto, calculamos las probabilidades de que estos tres gramos pertenezcan a un sitio web de suplantación de identidad (phishing) y benigno, y los agreguemos a un sitio web en particular

La ventaja del aprendizaje automático: un enfoque inteligente
La práctica común para vencer los ataques de phishing es el uso de listas negras que contienen una colección de URL de phishing prohibidas. Si un usuario de Internet visita un sitio web que figura en la lista negra, el acceso al sitio web se deniega instantáneamente. Una desventaja importante de las listas negras es el hecho de que las personas deben caer primero en un ataque de phishing y, por lo tanto, se dañan antes de agregar una URL a la lista negra. En contraste con esto, un algoritmo de aprendizaje automático es capaz de clasificar URL desconocidas y, por lo tanto, es un enfoque proactivo. Otra desventaja de las listas negras es que es muy difícil mantener las listas negras actualizadas debido al hecho de que los delincuentes adaptan dinámicamente las URL de phishing para evadir la detección. Por esta razón, no es posible descubrir nuevos ataques utilizando listas negras. El 63% de los ataques de phishing finalizan después de un período de tiempo de dos horas [4]. Los algoritmos de aprendizaje automático tienen la capacidad de detectar las URL de phishing de forma automática y directa. La función de clasificación se mantiene actualizada mientras se vuelve a capacitar continuamente y, por lo tanto, es una contramedida para proteger contra nuevas estrategias de phishing.

Fuente www.gdatasoftware.com/blog