8 Matching

ESTE CAPÍTULO SE ENCUENTRA AÚN EN CONSTRUCCIÓN

Idea: Al evaluar el efecto de tratamiento, buscamos a un grupo de individuos de control “similares” a los individuos de tratamiento en todas las características relevantes de pre-tratamiento (\(X_i\)). Una vez hecho, el efecto de tratamiento se obtiene comparando ambos tipos de individuos.

Supuestos clave:

Unconfoundedness: Las variables que determinarán la asignación al tratamiento deben ser observadas.

\[\{Y_i^T,~Y_i^C\}~\perp~T_i~|~X_i\]

Common support: Para el valor de \(X_i\) tenemos tanto individuos tratadas como de control.

\[0<Pr(T_i=1~|~X_i)<1\]

Existen versiones más laxas de los supuestos si xxx parámetro de interés es \(TOT\) (ej. programas de pobreza).

Supuestos (bis):

1b. Unconfoundedness para control:

\[ Y_i^C~\perp~T_i~|~X_i \]

(Recordar derivación del sesgo de selección).

2b. Weak overlap: Donde vea observaciones de tratamiento necesito encontrar controles, pero no viceversa.

\[ Pr(T_i=1~|~X_i)<1 \]

Empecemos por ver cómo OLS se podría emplear para estimar los efectos de tratamiento usando controles como “preview” a Matching

Estimador de regresión:

\[ \widehat{\tau}_{reg}=\frac{1}{N}\sum_i(\widehat{\mu}_T(X_i)-\widehat{\mu}_C(X_i)) \]

donde:

\[\begin{align*} \widehat{\mu}_T(X_i)&=E(Y_i^T~|~X_i) \\ \widehat{\mu}_C(X_i)&=E(Y_i^C~|~X_i) \end{align*}\]

Del estimador sería de esperar que:

Promedio de \(Y\) de observaciones tratadas igual al promedio de la predicción con las observaciones tratadas:

\[\frac{1}{N_T}\sum_iW_iY_i=\frac{1}{N_T}\sum_iW_i\widehat{\mu}_T(X_i)\]

Promedio de \(Y\) de observaciones en control igual al promedio de la predicción con las observaciones en control:

\[\frac{1}{N_C}\sum_i(1-W_i)Y_i=\frac{1}{N_C}\sum_i(1-W_i)\widehat{\mu}_C(X_i)\]

Entonces:

\[\begin{equation*} \begin{split} \widehat{\tau}_{reg}&=\frac{1}{N}\sum_i\left[W_i(\widehat{\mu}_T(X_i)-\widehat{\mu}_C(X_i))+(1-W_i)(\widehat{\mu}_T(X_i)-\widehat{\mu}_C(X_i))\right] \\ &=\frac{1}{N}\sum_i\left[W_i(Y_i-\widehat{\mu}_C(X_i))+(1-W_i)(\widehat{\mu}_T(X_i)-Y_i)\right] \\ &=\frac{1}{N}\left[N_T\cdot\underbrace{\frac{1}{N_T}\sum_{i|T_i=1}(Y_i-\widehat{\mu}_C(X_i))}_{\text{Est. efecto promedio en tratados }~TOT=\tau_{reg,T}}+N_C\cdot\underbrace{\frac{1}{N_C}\sum_{i|T_i=0}(\widehat{\mu}_T(X_i)-Y_i)}_{\text{Est. efecto promedio en no tratados}~TONT=\tau_{reg,NT}}\right] \\ &=\frac{N_T}{N}\widehat{\tau}_{reg,T}+\frac{N_C}{N}\widehat{\tau}_{reg,NT} \\ ATE~&=\text{Promedio ponderado de}~TOT~\text{y}~TONT \end{split} \end{equation*}\]

Ojo: Puede ser que el objeto de interés sea \(\widehat{\tau}_{reg,T}\)

¿Cómo obtener un buen estimador de \(\widehat{\mu}_T(X_i)\) y \(\widehat{\mu}_C(X_i)\)?

Vía regresión separada:

\[ \mu_T(X_i)=X_i'\beta_T\quad\quad\quad\mu_C(X_i)=X_i'\beta_C \]

Aquí surgen diferentes aproximaciones en la literatura que incluyen:

Regresiones Kernel (LL)
Series methods (Hahn) No-paramétricos

La idea de estos métodos es que imputan el contrafactual que no es observado.

Principio de Matching: Para cada observación de tratamiento, buscar el valor contrafactual de control con el vecino más cercano.

Encontraremos un tradeoff sesgo-varianza:

Vecinos más cercanos \(\Longrightarrow\) pocos vecinos \(\Longrightarrow\) mejor contrafactual \(\Longrightarrow\) menor sesgo, pero más volatilidad/riesgo \(\Longrightarrow\) Mayor varianza

Metodología:

Podemos aplicar el principio de estimadores de Neyman con estratificación xxx matched pairs.

Búsqueda de vecinos, alternativas:

Covariate matching -> Curse of dimensionality (ejemplo).
PSM -> Estimar \(p(X_i)=Pr(T_i=1~|~X_i)\)
- Probit/Logit
- Multinomial para más de un tratamiento

Paso 1: Problemas: Selección de \(X\)

Elegir \(X\) que explican tomar tratamiento y relacionadas con \({Y_i^T,~Y_i^C}\).
Overfitting puede llevar a problemas de common support y mayor varianza.
Algunos métodos para guiar la selección de \(X\)

Riesgo principal: Omitir \(X\) relevantes para explicar \(T\) que son relevantes para \({Y_i^T,~Y_i^C}\) y crean sesgo de selección.

Paso 2: Elegir algoritmo de Matching (Las siguientes estrategias se pueden hacer con PSM en vez de \(X_i\) sustituyendo \(X_i~\rightarrow~p(X_i)\) unidimensional)

Tenemos \(\{Y_i,~X_i,~T_i\}_{i=1}^n\). Sea \(\ell_m(i)\) el índice \(\ell\) (indicador de observaciones) tal que \(T_i\neq T_{\ell}\):

\[\sum_{j|T_j\neq T_i}\mathbf{1}\{\|x_j-x_i\|\leq\|x_{\ell}-x_i\|\}=m\]

Hay \(m\) observaciones \(j\) igual o más cercanas que las observación \(\ell\) del grupo contrario de \(T_i\).

Hay distintas alternativas para la métrica de distancia con variables contínuas (con variables discretas se busca un match exacto)

Euclideana: Suma del cuadrado de la diferencia para cada dimensión:

\[d_E(a,b)=(a-b)'(a-b)\]

Mahalanobis: Suma del cuadrado de la diferencia estandarizada tomando en cuenta una posible correlación:

\[d_M(a,b)=\sqrt{(a-b)'\Sigma^{-1}(a-b)},\]

donde \(\Sigma^{-1}\) es la matriz de varianza-covarianza de las variables.

Híbridos: (Abadie-Imbens) Igual a \(M\) sin correlaciones:

\[d_{AI}(a,b)=\sqrt{(a-b)'\text{diag}(\Sigma^{-1})(a-b)}\]

Sea \(\mathcal{I}_M\) el grupo de índices para los \(M\) NN de \(i\):

\[\mathcal{I}_M(i)=\{\ell_1(i),\ell_2(i),\ldots,\ell_M(i)\},\]

definir si es con sustitución o no.

\[\begin{equation*} \widehat{\mu}_C(X_i) = \left\{ \begin{array}{ll} Y_i & \mbox{si } T_i = 0 \\ \frac{1}{M}\sum_{j\in\mathcal{I}_M(i)}Y_i & \mbox{si } T_i = 1 \end{array} \right. \end{equation*}\] \[\begin{equation*} \widehat{\mu}_T(X_i) = \left\{ \begin{array}{ll} \frac{1}{M}\sum_{j\in\mathcal{I}_M(i)}Y_i & \mbox{si } T_i = 0 \\ Y_i & \mbox{si } T_i = 1 \end{array} \right. \end{equation*}\]

El estimador de Matching simple para el \(ATE\):

\[ \widehat{\tau}_{sm}=\frac{1}{N}\sum_{i=1}^N(\widehat{\mu}_T(i)-\widehat{\mu}_C(i)) \]

Alternativas al NN:

Caliper Matching: El \(M-\)ésimo NN podría estar muy lejos y significar un mal control (prob xxx common support)

Caliper \(=\) máxima distancia aceptable
- Mismo cálculo anterior imponiendo la restricción de que:

\[\|x_{\ell}-x_i\|<c\quad\quad\rightarrow\quad c-\text{caliper}\]

Esta es una restricción del common support y provocará que tal vez no todo \(i\) tenga un match para poder formar \(\widehat{\mu}_T(X_i)\) o \(\widehat{\mu}_C(X_i)\)

Problema de validez externa ya que estas observaciones se removerían.

Radius Matching: Similar al anterior, pero ahora el radio \((r)\) hace el papel de \(M\) y se incluye en el cálculo del contrafactual xxx todos los individuos del otro grupo dentro del radio:

\[\ell_M(i)=~~\max_j~~\|x_j-x_i\|\]

\[\text{s.t.}\quad\quad\|x_j-x_i\|\leq r\]

Blocking: Formar \(M\) estratos. Es más sencillo con variables discretas pero se puede hacer con PSM.
- Discretas: \(M\) bloques que tengan al menos una observación de control si hay tratamiento.
- PSM: \(\mathcal{J}_{im}=\mathbf{1}\left\{\frac{m}{M+1}<p(X_i)\leq\frac{m+1}{M+1}\right\},\quad m=0,1,\ldots,M\)

\[\widehat{\tau}_M=\frac{1}{N_{T,m}}\sum_{i|T_i=1~~~\mathcal{J}_{im}=1}Y_i-\frac{1}{N_{C,m}}\sum_{i|T_i=0~~~\mathcal{J}_{im}=1}Y_i,\]

donde \(N_{T,m}\) es el número de obseraciones \(T\) en el bloque \(m\) y \(N_{C,m}\) es el número de observaciones \(C\) en el bloque \(m\).

\[\widehat{\tau}_{block}=\sum_{m=0}^M\widehat{\tau}_m\left(\frac{N_{T,m}+N_{C,m}}{N}\right)\]

Para blocking se sugiere:

Checar el balance al interior del bloque de PSM y covariates
Si no hay balance \(\Longrightarrow\) revisar la construcción del PSM

Reponderar (weighting): Para este caso se emplea \(p(X_i)\) como una función ponderadora siguiendo el principio IPW.

Recordemos a \(W_i\) que utilizamos en Neyman:

\[W_i=\frac{T_iY_i}{\frac{N_T}{N}}-\frac{(1-T_i)Y_i}{\frac{N_C}{N}},\]

donde \(\frac{N_T}{N}\) es la proporción o probabilidad constante para todo \(T_i=1\) (similar para \(\frac{N_C}{N}\)).

Habíamos demostrado que \(\frac{1}{N}\sum_{i=1}^nW_i=\bar{Y^1}-\bar{Y^0}\), aquí sustituimos \(\frac{N_T}{N}\) con \(p(X_i)\) y \(\frac{N_C}{N}\) con \(1-p(X_i)\):

\[ \widehat{\tau}_{weight}=\frac{\sum_{i=1}^n\frac{T_iY_i}{p(X_i)}}{\sum_{i=1}^n\frac{T_i}{p(X_i)}}-\frac{\sum_{i=1}^n\frac{(1-T_i)Y_i}{1-p(X_i)}}{\sum_{i=1}^n\frac{1-T_i}{1-p(X_i)}} \]

Nótese que \(E(p(X_i))=\frac{N_T}{N}\).

Matching: Covariate-specific treat vs control comparisons, weighted together to produce \(ATE\) estimates

Reflejado en el supuesto de uncofoundedness

Regresión puede motivarse como un tipo de weighted matching estimator

Matching estimator en el contexto deselection bias:

\[E(Y_i~|~T_i=1)-E(Y_i~|~T_i=0)=\overbrace{E(Y_i^T-Y_i^C~|~T_i=1)}^{TOT}+\underbrace{E(Y_i^C~|~T_i=1)-E(Y_i^C~|~T_i=0)}_{\text{selection bias}}\]

Enfoquémosnos en el \(TOT\):

\[\begin{equation*} \begin{split} E(Y_i^T-Y_i^C)&\overbrace{=}^{LIE} E(E(Y_i^T-Y_i^C~|~X_i,T_i=1)~|~T_i=1) \\ &=E(E(Y_i^T~|~X_i,T_i=1)-E(Y_i^C~|~X_i,T_i=1)~|~T_i=1) \\ &\overbrace{=}^{\text{unconf}} E(E(Y_i^T~|~X_i,T_i=1)-E(Y_i^C~|~X_i,T_i=0)~|~T_i=1) \\ &=E(\delta_X|T_i=1) \end{split} \end{equation*}\]

donde \(\delta_X=E(Y_i~|~X_i,T_i=1)-E(Y_i~|~X_i,T_i=0)\).

Diferencia de medias de \(Y_i\) entre grupo de tratamiento y control para un nivel específico de \(X_i\).
Al tener los xxx \(\delta_X\) se pondera con su distribución en \(T_i=1\).

En el caso discreto por ejemplo:

\[TOT=\sum_x\delta_xPr(X_i=x~|~T_i=1)\]

Similarmente podemos obtener:

\[\begin{equation*} \begin{split} ATE &= E(E(Y_i^T~|~X_i,T_i=1)-E(Y_i^C~|~X_i,T_i=0)) \\ &=\sum_x\delta_xPr(X_i=x) \end{split} \end{equation*}\]

La diferencia entre el \(ATE\) y \(TOT\) está en la distribución de \(X\) el grupo de tratamiento vs control

Una regresión que controla por los mismos covariates que el estimador de matching es en sí similar.

La diferencia son los weights que se usan para promediar los \(\delta_X\):

Matching: Usa la distribución de \(X_i\)
OLS: Usa varianzas

Veamos ahora el caso contínuo. Para el \(TOT\) se puede usar la Regla de Bayes:

\[ Pr(X_i=x~|~T_i=1)=\frac{Pr(T_i=1~|~X_i=x)\cdot Pr(X_i=x)}{Pr(T_i=1)} \]

\[ \Longrightarrow TOT=\sum_x\delta_x\cdot~\frac{Pr(T_i=1~|~X_i=x)\cdot Pr(X_i=x)}{Pr(T_i=1)} \]

\[ \widehat{\tau}_{weight}=\sum_{i~|~T_i=1}\theta_iY_i-\sum_{i~|~T_i=0}\lambda_iY_i \]

donde los ponderadores son:

\[ \theta_i=\frac{\frac{1}{Pr(X_i)}}{\sum_{i~|~T_i=1}\frac{1}{Pr(X_i)}} \]

\[ \lambda_i=\frac{\frac{1}{1-Pr(X_i)}}{\sum_{i~|~T_i=0}\frac{1}{1-Pr(X_i)}} \]

\[ \widehat{\tau}_{w,TOT}=\frac{1}{N_T}\sum_{i~|~T_i=1}Y_i-\sum_{i~|~T_i=0}Y_i\psi(X_i) \]

donde:

\[ \psi(X_i)=\frac{\frac{Pr(X_i)}{1-Pr(X_i)}}{\sum_{i~|~T_i=0}\frac{Pr(X_i)}{1-Pr(X_i)}} \]

Queremos que las observaciones de control tengan su distribución de \(X_i\)’s de tratamiento. Es decir, que el segundo termino fuera calculado bajo la distribución de tratamiento.

Para ello reponderamos, ya que:

\[\begin{equation*} \begin{split} E(E(Y_i^C~|~X_i,T_i=0)~|~T_i=1) &= E(E(Y_i~|~X_i,T_i=0)~|~T_i=1) \\ &= \sum_{x,~T_i=0}Y_i\underbrace{Pr(X_i=x~|~T_i=1)}_{\text{no se puede observar}} \\ &=\sum_{x,~T_i=0}Y_i~\frac{Pr(X_i=x~|~T_i=0)}{Pr(X_i=x~|~T_i=0)}\cdot Pr(X_i=x~|~T_i=1) \\ &=\sum_{x,~T_i=0}Y_i~\frac{Pr(X_i=x~|~T_i=1)}{Pr(X_i=x~|~T_i=0)}\cdot Pr(X_i=x~|~T_i=0) \\ &=\sum_{x,~T_i=0}Y_i~\left[\frac{\frac{Pr(T_i=1~|~X_i=x)}{Pr(T_i=1)}\cdot Pr(X_i=x)}{\frac{Pr(T_i=0~|~X_i=x)}{Pr(T_i=0)}\cdot Pr(X_i=x)}\right]\cdot Pr(X_i=x~|~T_i=0) \\ &=\sum_{x,~T_i=0}Y_i\left[\frac{\frac{Pr(X_i)}{1-Pr(X_i)}}{\frac{N_T/N}{N_C/N}}\right]\cdot Pr(X_i=x~|~T_i=0) \\ &= \sum_{x,~T_i=0}Y_i\left[\frac{\frac{Pr(X_i)}{1-Pr(X_i)}}{\frac{N_T}{N_C}}\right]\cdot Pr(X_i=x~|~T_i=0)\\ &= \sum_{x,~T_i=0}Y_i\cdot\underbrace{\psi(X_i)}_{\text{ponderador}}\cdot Pr(X_i=x~|~T_i=0) \end{split} \end{equation*}\]

8.1 Synthetic Control Method

Útiles cuando hay pocas unidades de tratamiento con muchas observaciones cada unidad

Ejemplo: Escuelas Alemania \(\perp\) Muro

Se busca generar contrafactuales para dichas observaciones

Idea: Generar un “control sintético” combinando información de observaciones de control ponderando

\[ Y_t^C=\sum_{j=2}^{J+1}w_jY_{jt} \]

Elegir \(W=(w_2,\ldots,w_{J+1})\), minimizando:

\[ \|X_1-X_0W\|=\left(\sum_{h=1}^Kv_h(X_{h1}-X_h^C)^2\right)^{\frac{1}{2}} \]

donde \(X_h^C=\sum_{j=2}^{J+1}w_jX_{hj}\), \(v_h\) pondera la importancia de la variable \(h\).

Para elegir \(V=(v_1,\ldots,v_K)\), proponen minimizar la Media Cuadrada del Error de xxx antes del tratamiento:

\[ \min_{V}~~\sum_{t<T_0}(Y_{it}-Y_t^C)^2 \]

Otra opción: Inverso de la varianza para normalizar.