Coincidencia de Puntuación de Propensión

Pruebas Estadísticas Avanzadas

Ingresa tus datos del grupo de tratamiento y control en formato CSV para estimar el Efecto Promedio del Tratamiento en los Tratados (ATT).

Ejemplos

Usa estos conjuntos de datos de muestra para ver cómo funciona la calculadora.

Efecto de un Nuevo Medicamento

Estudio Médico

Evaluando el efecto de un nuevo medicamento en la presión arterial (resultado), controlando por edad e IMC (covariables).

Datos de Tratamiento:

blood_pressure,age,bmi
140,55,25.1
135,62,28.3
138,58,26.5
145,65,30.1
142,59,27.8...

Datos de Control:

blood_pressure,age,bmi
150,56,26.2
155,60,29.1
148,61,27.3
160,68,31.0
152,57,28.1...

Impacto de un Programa de Capacitación Laboral

Política Económica

Evaluando el impacto de un programa de capacitación laboral en el ingreso semanal (resultado), controlando por nivel educativo y años de experiencia.

Datos de Tratamiento:

income,education,experience
850,16,5
900,18,8
880,16,7
920,19,10
860,14,6...

Datos de Control:

income,education,experience
750,14,4
780,16,6
800,12,5
770,14,7
790,16,9...

Efecto de una Promoción en las Ventas

Mercadotecnia

Midiendo el efecto de una promoción de mercadotecnia en el gasto del cliente (resultado), controlando por puntuación de lealtad del cliente y frecuencia de visitas.

Datos de Tratamiento:

spending,loyalty,frequency
120,85,10
150,90,15
130,88,12
145,92,18
125,80,9...

Datos de Control:

spending,loyalty,frequency
90,70,8
100,75,11
95,72,9
110,80,14
105,78,13...

Impacto de un Programa de Tutoría

Educación

Analizando el impacto de un programa de tutoría en las puntuaciones de exámenes (resultado), controlando por calificaciones del año anterior y asistencia.

Datos de Tratamiento:

test_score,prior_grade,attendance
88,80,95
92,85,98
85,78,92
95,90,99
89,82,96...

Datos de Control:

test_score,prior_grade,attendance
75,70,90
80,75,94
78,72,88
82,80,96
79,74,91...
Otros Títulos
Entendiendo la Coincidencia de Puntuación de Propensión: Una Guía Integral
Una inmersión profunda en la teoría, aplicación e interpretación de la Coincidencia de Puntuación de Propensión (PSM) para inferencia causal.

¿Qué es la Coincidencia de Puntuación de Propensión?

  • El Desafío de la Inferencia Causal en Estudios Observacionales
  • Introduciendo la Puntuación de Propensión
  • La Idea Central del Emparejamiento
En muchos campos, como la medicina, la economía y las ciencias sociales, queremos entender el efecto causal de una intervención—un nuevo medicamento, una política gubernamental, un método de enseñanza. El estándar de oro para esto es el Ensayo Controlado Aleatorizado (RCT), donde los sujetos son asignados aleatoriamente a un grupo de tratamiento o control. Esta aleatoriedad asegura que, en promedio, los dos grupos sean similares en todos los aspectos, tanto observados como no observados. Por lo tanto, cualquier diferencia en los resultados puede atribuirse con confianza al tratamiento. Sin embargo, los RCTs a menudo son poco éticos, imprácticos o demasiado costosos. Debemos entonces confiar en datos observacionales, donde los sujetos se auto-seleccionan o son seleccionados en grupos de tratamiento y control basándose en ciertas características. Esto crea sesgo de selección, ya que los grupos pueden no ser comparables desde el principio.
La Puntuación de Propensión como Puntuación de Equilibrio
La Coincidencia de Puntuación de Propensión (PSM) es un método estadístico diseñado para abordar este problema. Su objetivo es imitar un RCT creando un grupo de control que sea lo más similar posible al grupo de tratamiento basándose en sus características observadas (covariables). El concepto central es la 'puntuación de propensión,' que es la probabilidad de que un sujeto sea asignado al grupo de tratamiento, dado su conjunto de covariables observadas. La teoría, desarrollada por Rosenbaum y Rubin, muestra que si podemos emparejar individuos de los grupos de tratamiento y control que tienen la misma puntuación de propensión, hemos equilibrado efectivamente sus covariables observadas. Esto permite una comparación más directa, reduciendo el sesgo de selección en el efecto de tratamiento estimado.

Guía Paso a Paso para Usar la Calculadora PSM

  • Preparando e Ingresando Tus Datos
  • Ejecutando el Análisis y Eligiendo un Método
  • Interpretando los Resultados
1. Preparación de Datos
Tus datos deben estar estructurados de una manera específica. Necesitas dos conjuntos de datos separados: uno para el grupo de tratamiento y uno para el grupo de control. Ambos conjuntos de datos deben estar en formato CSV. La primera línea de tus datos debe ser una fila de encabezado que contenga los nombres de tus variables. La primera columna debe ser siempre tu variable de resultado (aquella en la que estás midiendo el efecto). Todas las columnas subsiguientes son tus covariables (las características que quieres controlar). Crucialmente, los nombres de los encabezados y el orden de las columnas deben ser idénticos en ambos archivos de datos de tratamiento y control.
2. Cálculo
Pega tus datos CSV preparados en las respectivas cajas de texto 'Grupo de Tratamiento' y 'Grupo de Control'. La calculadora realizará tres pasos principales internamente: 1) Ejecutará una regresión logística para calcular la puntuación de propensión para cada individuo en tu conjunto de datos. 2) Usará un algoritmo de emparejamiento (como Vecino Más Cercano) para emparejar cada individuo en el grupo de tratamiento con un individuo en el grupo de control que tenga la puntuación de propensión más cercana. 3) Calculará el efecto de tratamiento y las estadísticas de equilibrio basándose en esta nueva muestra emparejada.
3. Interpretando la Salida
La salida principal es el Efecto Promedio del Tratamiento en los Tratados (ATT), que te dice el impacto promedio de la intervención en aquellos que la recibieron. También verás un Error Estándar y un Valor P para evaluar la significancia estadística de este efecto. Igual de importante es la tabla 'Equilibrio de Covariables'. Muestra la Diferencia de Medias Estandarizada (DMP) para cada covariable antes y después del emparejamiento. Una DMP grande (ej., > 0.1 o 0.2) indica que los grupos eran muy diferentes en esa covariable. Después del emparejamiento, quieres ver que estas DMPs bajen por debajo de 0.1, lo que sugiere que el emparejamiento fue exitoso en crear grupos comparables.

Aplicaciones del Mundo Real de la Coincidencia de Puntuación de Propensión

  • Atención Médica y Medicina
  • Economía y Política Pública
  • Educación y Programas Sociales
Evaluando Tratamientos Médicos
Un caso de uso común es evaluar la efectividad de un nuevo procedimiento quirúrgico comparado con uno tradicional usando registros de pacientes. Dado que los cirujanos podrían elegir el nuevo procedimiento para pacientes más jóvenes o más saludables, una comparación simple estaría sesgada. PSM puede usarse para emparejar pacientes que recibieron la nueva cirugía con pacientes similares (en términos de edad, severidad de la enfermedad, comorbilidades) que recibieron la tradicional, proporcionando una comparación más justa de resultados como tiempo de recuperación o tasas de supervivencia.
Evaluando el Impacto de Políticas
Los gobiernos a menudo implementan políticas como programas de capacitación laboral para los desempleados. Para ver si el programa funciona, los analistas no pueden simplemente comparar los ingresos de aquellos que participaron con aquellos que no lo hicieron, ya que los participantes podrían haber estado más motivados desde el principio. PSM puede emparejar participantes del programa con no participantes que tenían características similares (ej., edad, educación, historial laboral previo) antes de que el programa comenzara para obtener una estimación menos sesgada del impacto del programa en los ingresos.

Conceptos Erróneos Comunes y Métodos Correctos

  • PSM Solo Equilibra Covariables Observadas
  • La Importancia de la Selección de Covariables
  • El Emparejamiento No es una Bala Mágica
El Problema de la Covariable 'No Observada'
La limitación más importante de PSM es que solo puede equilibrar las covariables que puedes observar y medir. Si hay características no observadas (ej., motivación del paciente, talento innato) que influyen tanto en la selección al grupo de tratamiento como en el resultado, PSM no puede tenerlas en cuenta, y la estimación resultante aún puede estar sesgada. Esta es la ventaja clave de un RCT, que equilibra tanto factores observados como no observados. Por lo tanto, los resultados de PSM siempre deben interpretarse con esta advertencia en mente.
Eligiendo las Variables Correctas
La validez de PSM depende en gran medida de la 'suposición de independencia condicional,' que significa que después de controlar por las covariables seleccionadas, la asignación del tratamiento es esencialmente aleatoria. Esto significa que debes incluir todas las covariables que se piensa que influyen tanto en la selección del tratamiento como en el resultado. Omitir covariables importantes puede llevar a resultados sesgados, mientras que incluir irrelevantes (aquellas solo relacionadas con el resultado pero no con la selección del tratamiento) puede aumentar la varianza de tus estimaciones.

Derivación Matemática y Ejemplos

  • El Modelo de Regresión Logística para Puntuaciones de Propensión
  • El Algoritmo del Vecino Más Cercano
  • Calculando la Diferencia de Medias Estandarizada (DMP)
1. Estimando Puntuaciones de Propensión
Sea T el indicador de tratamiento (1 si tratado, 0 si control) y X el vector de covariables observadas. La puntuación de propensión e(X) se define como e(X) = P(T=1 | X). Esta probabilidad típicamente se estima usando un modelo de regresión logística: log(p / (1-p)) = β₀ + β₁X₁ + ... + βₖXₖ. El modelo se ajusta en toda la muestra (tanto grupos de tratamiento como de control) para encontrar los coeficientes (β's) que mejor predicen el estado de tratamiento a partir de las covariables.
2. Emparejamiento
Después de estimar la puntuación de propensión e(Xᵢ) para cada sujeto i, se aplica un algoritmo de emparejamiento. El más simple es el emparejamiento 1-a-1 del Vecino Más Cercano. Para cada sujeto tratado i, encontramos un sujeto de control j que minimice la distancia |e(Xᵢ) - e(Xⱼ)|. Una vez que un sujeto de control es emparejado, se elimina del grupo de coincidencias potenciales para otros sujetos tratados.
3. Evaluando el Equilibrio
Para verificar si el emparejamiento funcionó, calculamos la Diferencia de Medias Estandarizada (DMP) para cada covariable antes y después del emparejamiento. La fórmula es: DMP = (media(Xtrat) - media(Xcontrol)) / √((var(Xtrat) + var(Xcontrol))/2). Después del emparejamiento, esto se recalcula usando solo la muestra emparejada. Un emparejamiento exitoso resultará en DMPs post-emparejamiento cercanas a cero.
4. Estimando el ATT
El Efecto Promedio del Tratamiento en los Tratados se calcula entonces simplemente como la diferencia en las medias de resultados entre los sujetos tratados y sus controles emparejados: ATT = (1/Nₜ) Σ(Yᵢ_trat) - (1/Nₜ) Σ(Yⱼ_control), donde la suma es sobre los Nₜ pares emparejados.