La similitud coseno es una medida fundamental utilizada para determinar la similitud entre dos vectores calculando el coseno del ángulo entre ellos. Esta métrica es ampliamente utilizada en aprendizaje automático, minería de datos, recuperación de información y procesamiento de lenguaje natural para cuantificar qué tan similares son dos puntos de datos en términos de su dirección en el espacio multidimensional.
La fórmula de similitud coseno es: cos(θ) = (A · B) / (|A| × |B|), donde A · B es el producto escalar de los vectores A y B, y |A| y |B| son sus respectivas magnitudes. Esta fórmula produce un valor entre -1 y 1, donde 1 indica dirección idéntica, 0 indica ortogonalidad, y -1 indica direcciones opuestas.
Fundamento Matemático
El fundamento matemático de la similitud coseno radica en la relación geométrica entre vectores en el espacio n-dimensional. A diferencia de la distancia euclidiana, que mide la magnitud de la diferencia entre vectores, la similitud coseno se enfoca únicamente en el ángulo entre ellos, haciéndola independiente de la magnitud vectorial.
Esta propiedad hace que la similitud coseno sea particularmente valiosa al comparar datos donde las diferencias de magnitud son menos importantes que las similitudes direccionales. Por ejemplo, en análisis de texto, dos documentos podrían tener diferentes longitudes pero temas similares, haciendo que la similitud coseno sea más apropiada que las medidas basadas en distancia.
Rango e Interpretación
Los valores de similitud coseno varían de -1 a 1: Un valor de 1 significa que los vectores apuntan exactamente en la misma dirección (orientación idéntica), 0 indica vectores perpendiculares (sin correlación), y -1 representa vectores apuntando en direcciones completamente opuestas. Los valores más cercanos a 1 indican mayor similitud, mientras que los valores más cercanos a -1 indican mayor disimilitud.