Modelos Rasch: ¿cuán (in-)coherentemente son
presentados y utilizados?*
Rasch Models: How (In-)Coherently are they
Showed and Used?
Ernesto San Martín1
Pontificia Universidad Católica de Chile, Chile
Resumen. El modelo Rasch es ampliamente usado para el análisis de datos educacionales. En la práctica, se reportan los estimadores de la dificultad de los ítems y los estimadores de las habilidades de los individuos. Sin embargo, nunca se explicita qué significado tiene el término “dificultad” y cuál el término “habilidad”. Los significados de estos términos no dependen de las estimaciones; al contrario, estas últimas han de interpretarse en función del significado de los primeros. En este trabajo se muestra que el significado de las nociones de “dificultad” y “habilidad” dependen de la forma en que el modelo Rasch se específica. En la literatura psicométrica hay dos maneras de especificar dicho modelo: una que sólo se limita a modelar los observables; la otra, que además de los observables, modela no-observables. La primera forma de especificación se debe al mismo Rasch, mientras que la segunda fue desarrollada por Lord.
Palabras clave. Axioma de independencia local, rasgo latente, dificultad de un ítem, proporción de chances, probabilidad inversa.
Abstract. Rasch models are widely used for the analysis of educational data. In practice, estimates of difficulties of items and abilities of examinees are reported. However, the meaning of the terms “difficulty” and “abilities” are never made explicit. The meaning of these terms does not depend on the estimations; they should be interpreted with respect to the eventual meaning of both item difficulties and individual abilities. This paper shows that the meaning of the terms “difficulty” and “ability” depends on the way in which the Rasch model is specified. In the psychometric literature, Rasch models are specified in two different ways: one specifies the observable only, whereas the other one specifies both observable and unobservable. The first specification is due to Rasch himself, the second one is due to Lord.
Keywords. Local independence axiom, latent trait, item difficulty, odds ratio, inverse probability.
1 Ernesto San Martín. Facultad de Matemáticas, Pontificia Universidad Católica de Chile, Chile; Center for Operations Research and Econometrics, Belgium. Dirección Postal: Vicuña Mackenna 4860, Macul, Santiago, Chile. Email: esanmart@mat.puc.cl
*Agradecimientos: Este trabajo ha sido parcialmente financiado por el Proyecto ANILLO SOC 1107 Statistics foor Public Policy in Education, de la Corporación Nacional de Ciencia y Tecnología del Gobierno de Chile.
Problema: a modo de introducción
Supongamos que 10 estudiantes respondieron un test compuesto de seis ítems de selección múltiple. Una vez revisado el test, los resultados se resumen en la tabla 1.
Datos como estos se obtienen a partir de aplicaciones masivas, como el SIMCE en Chile, las pruebas SABER en Colombia, o PISA por la OECD. Los análisis psicométricos que se hacen se reducen a dos tipos: por un lado se estima un puntaje individual, el cual típicamente se interpreta como el grado de dominio que un determinado estudiante tiene en relación a lo que mide el test; de hecho, a veces se relaciona dicho puntaje con una supuesta habilidad medida por el test, en cuyo caso dicha habilidad corresponde a un rasgo latente. Por otro lado, se estiman propiedades de los ítems, concretamente la dificultad, el grado de discriminación y el grado de respuesta al azar. Las propiedades de los ítems están basadas en modelos de Teoría de Respuesta al Ítem (TRI), aunque también suelen reportarse indicadores de dificultad y de discriminación (i.e.. correlación ítem-test) basados en la Teoría Clásica de Test (TCT).
La práctica resumida en el párrafo anterior plantea un problema que utiliza una terminología estándar (a saber, habilidad de un individuo y dificultad de un ítem) independientemente del tipo de modelo psicométrico que se utilice para analizar dichos datos. Puede argüirse que, por ejemplo, las estimaciones de las dificultades de los ítems bajo el esquema de la TCT está casi perfectamente correlacionado con las estimaciones de las dificultades que se obtienen al aplicar un modelo Rasch o un modelo 2PL. Pero, como ya es ampliamente reconocido en la investigación cuantitativa, correlación no implica explicación, por lo que no resulta coherente suponer que a una misma terminología subyace una misma significación.
El objetivo de este artículo es mostrar cómo el significado de dificultad de un ítem y habilidad de un individuo dependen de la especificación del modelo psicométrico utilizado. Concretamente, nos focalizaremos en dos maneras de especificar el modelo Rasch, las cuales se aclararán en los párrafos siguientes.
Primera Parte
Heterogeneidad de la información observada
Para definir rigurosamente habilidad individual y dificultad de un ítem, es necesario considerar dos hechos:
La heterogeneidad puede ser representada formalmente por medio de probabilidades. Para ser más específicos, definamos una variable aleatoria Ypi que toma el valor 1 cuando la persona p responde correctamente el ítem i; y toma el valor 0 en caso contrario. La heterogeneidad de la variable aleatoria Ypi se representa por medio de la probabilidad que dicha variable tiene de ser igual a 1 ó a 0: más alta (respectivamente, más baja) es esta probabilidad, más chances (respectivamente, menos chances) hay que la persona p responda correctamente el ítem i. Si denotamos por π dicha probabilidad, entonces escribimos P[Ypi = 1] = π, y consecuentemente P[Ypi = 0] = 1-π. De forma compacta, decimos que Ypi es una variable aleatoria Bernoulli de parámetro π, y lo denotamos por Ypi~Bern(π).
Bajo estas consideraciones, la tabla de datos inicial corresponde a una posible realización de 60 distribuciones Bernoulli de parámetro π, todas mutuamente independientes entre sí –es decir, que la realización de cualquiera de ellas no proporciona información alguna acerca de la realización de cualquiera de las restantes.
Pero de inmediato surgen dos preguntas: para un determinado ítem, ¿por qué asumir que la probabilidad de responder correctamente es la misma para cada persona? Para una persona determinada, ¿por qué asumir que la probabilidad de responder correctamente cada ítem es la misma? Una forma de representar la heterogeneidad que se observa tanto a nivel de ítems, como de personas, es precisamente asumir que la probabilidad de responder correctamente un ítem por una determinada persona depende tanto del ítem como de la persona. Más precisamente, se supone que el proceso generador de datos que subyace a la tabla inicial de observaciones está caracterizado por dos condiciones:
Modelo Rasch
Separación entre la característica individual y la característica de un ítem. Como ya ha sido mencionado anteriormente, la especificación anterior implica que P(Ypi = 1) = πpi y P(Ypi = 0) = 1-πpi. Ambas igualdades pueden resumirse por medio del siguiente cociente de chances
donde
El parámetro λpi (que corresponde a un número real) representa la razón entre la probabilidad que la persona p responda correctamente el ítem i, y la probabilidad de que lo responda incorrectamente. Así, por ejemplo, si λpi = 3, entonces la probabilidad que la persona p responda correctamente el ítem i triplica la probabilidad de que lo responda incorrectamente. De manera similar, si λpi < 1, entonces la probabilidad de que la persona p responda correctamente el ítem i es menor que la probabilidad de que lo responda incorrectamente.
El modelo Rasch introduce una hipótesis fundamental, que consiste en “separar” la característica individual de la característica del ítem; ver Rasch (1960). Específicamente, supone que el parámetro λpi se descompone de la siguiente manera:
donde εp representa una característica de la persona p, y ηi representa una característica del ítem i. Para entrever a qué tipo de características nos referimos, notemos lo siguiente:
Las afirmaciones anteriores se basan en una comparación entre εp y ηi. Esto requiere que los valores que se asignan a los parámetros εp y ηi. estén únicamente determinados. Sin embargo, la descomposición (1) sufre de una indeterminación. En efecto, supongamos que λpi = 3. Como ya hemos indicado, esto significa que la probabilidad de que la persona p responda correctamente el ítem i triplica la probabilidad de responderlo incorrectamente. La pregunta ahora es a qué característica individual y a qué característica del ítem corresponde este valor del parámetro λpi. Pues bien, observemos las siguientes igualdades:
Es decir, el parámetro λpi = 3, que tiene un significado bien preciso, está asociado a diferentes combinaciones de características de un individuo y de un item: una “habilidad” igual a 3 y una “dificultad” igual a 1; o una “habilidad” igual a 30 y una “dificultad” igual a 10; o una “habilidad igual a 1” y una “dificultad” igual a 1/3. Es decir, dado un valor de λpi, no existe un único valor de εp y un único valor de ηi, lo cual implica que los términos de dificultad y de habilidad no están bien definidos y, por tanto, son meros nombres a los que se les puede atribuir cualquier significado que no esté sustentado por el proceso que genera los datos bajo análisis. Técnicamente, esto corresponde a un problema de identificación (para detalles, ver San Martín, González & Tuerlinckx, 2009; San Martín, 2015), el cual requiere ser resuelto a fin de asegurar un significado a los parámetros εp y ηi.
Significados de “habilidad” y “dificultad”
Para resolver dicha indeterminación, es necesario introducir una restricción de identificación. Una posible restricción es la siguiente:
Bajo esta restricción, se deduce que
para toda persona p. Es decir, bajo la restricción η1 = 1, lo que típicamente se llama “habilidad de una persona p” corresponde al cociente de la probabilidad que dicha persona responda el ítem estándar (así llamaremos al ítem con la etiqueta 1) correctamente sobre la probabilidad de que lo responda incorrectamente. Más aún, si εp > 1 tiene un significado bien preciso: la persona p tiene una probabilidad de responder correctamente el ítem estándar mayor que la de responderlo incorrectamente.
En relación al significado de ηi, notemos que
Es decir, lo que llamamos “dificultad del ítem i” corresponde al odd ratio entre el ítem 1 y el ítem i para cada persona p. Así, si ηi > 1, entonces la razón de chances de una respuesta correcta de la persona p al ítem estándar es más grande que la razón de chances de una respuesta correcta al ítem i. En otras palabras, es más probable para la persona p responder correctamente el ítem estándar que el ítem i (esto es, ηi >η1 = 1).
Representación simultánea habilidades-dificultades. Las consideraciones anteriores sugieren cómo las habilidades pueden compararse con las dificultades. En efecto,
para cada persona p y cada ítem i. Es decir, un individuo p tiene una habilidad superior a la dificultad del ítem i si la probabilidad que la persona p tiene de responder correctamente el ítem i es mayor que la probabilidad que tiene de responderlo incorrectamente.
Discusión. El modelo Rasch, así como otras modelos de Teoría de Respuesta al Ítem, son usados intensivamente en los sistemas educacionales nacionales e internacionales para analizar los resultados que una población de estudiantes obtiene después de la aplicación de un test. Estos análisis se reducen a estimar las habilidades de los individuos, en base a las cuales se calcula un puntaje individual; y a estimar las dificultades de los ítems (como otras características de los ítems). A pesar de esto, no es del todo claro lo que se entiende por “dificultad de un ítem” y por “habilidad de un estudiante” ya que, como lo hemos dicho en la introducción, se habla de la dificultad de un ítem tanto si se la estima usando Teoría Clásica de Test, o un modelo Rasch u otro modelo de Teoría de Respuesta al Ítem, como el 2PL o 3PL.
Tanto la habilidad de una persona, como la dificultad de un ítem, deben ser interpretadas con respecto a un proceso generador de datos, el cual se formaliza en términos probabilísticos. Este proceso no hace sino representar la heterogeneidad que se observa tanto en las respuestas que una persona da a un conjunto de ítems, así como la heterogeneidad que se observa cuando un grupo de estudiantes responde un determinado ítem. Asumido esto, hemos especificado el modelo Rasch de la siguiente manera:
donde εp representa la habilidad de una persona p, y ηi representa la dificultad del ítem i. Esta parametrización puede ser poco familiar al lector. Sin embargo, si utiliza la siguiente reparametrización
entonces
que es la forma estándar de presentar el modelo Rasch.
Lo que hemos constatado en las secciones anteriores es que el significado de εp y de ηi dependen exclusivamente del proceso generador de datos, que en este caso se reduce a distribuciones de probabilidad Bernoulli con parámetros dados por (6). Este significado se hace explícito sólo si se elimina una indeterminación en la igualdad (1), o equivalentemente (6). Una forma de eliminar dicha indeterminación es por medio de la restricción (2). Bajo esta restricción, es posible determinar el significado de la “habilidad de una persona p” y de la “dificultad de un ítem i”. Estos significados están explicitados en las ecuaciones (3) y (4). Es más, tanto las habilidades como las dificultades pueden compararse entre sí, y dicha comparación tiene un significado explícito dado por la desigualdad (5).
Tres observaciones se imponen:
Descomposición Marginal-Condicional Fundamental
Los modelos de Teoría de Respuesta al Ítem se especifican desde una perspectiva completamente diferente a la discutida en la primera parte de este trabajo. El contexto general sobre el cual dichos modelos se especifican asume dos procesos aleatorios secuenciales: el primero de ellos describe la heterogeneidad de una característica individual llamada constructo o rasgo latente; el segundo dice relación con la heterogeneidad de las respuestas que se dan a un ítem o a un test por un individuo con un determinado nivel de habilidad. Si denotamos por Y la respuesta a un test o a un ítem, y por θ el rasgo o constructo latente, entonces los dos procesos aleatorios anteriores corresponden a una descomposición marginal-condicional de la distribución conjunta de (Y,θ), la que denotamos por p(Y,θ); esto es,
donde p(θ) corresponde a la distribución de probabilidad que representa la heterogeneidad de los rasgos o constructos latentes de una determinada población de individuos, y p(Y|θ) corresponde a la distribución condicional que representa la heterogeneidad de las respuestas a un test o ítem cuando el individuo que responde tiene un rasgo latente dado por θ. El aspecto fundamental que es necesario enfatizar es que la descomposición (7) asume que existe una relación de dependencia entre el rasgo o constructo latente θ y la respuesta observable Y, o, en otras palabras, que la respuesta observable Y está determinada por el rasgo latente θ.
En este contexto, el problema psicométrico consiste en “estimar” el nivel de habilidad θ de una persona después que se ha observado el puntaje Y que ha obtenido en una prueba o en un ítem. Más precisamente, dado que el rasgo latente es una variable aleatoria cuya distribución está dada por p(θ), el objetivo consiste en obtener la distribución p(θ|Y). Es importante notar que esta distribución, junto a la distribución de los puntajes observados p(Y), constituyen una descomposición alternativa de la distribución conjunta p(Y|θ), esto es,
Combinando las igualdades (7) y (8) es posible obtener una forma explícita de calcular la distribución de probabilidad p(θ|Y):
En esta igualdad, conocida como el Teorema de Bayes-Laplace, la única componente que puede estimarse a partir de las observaciones es p(Y); las otras dos son supuestas y, en algún grado, justificadas por las aplicaciones. En la práctica, se reporta como “estimador” de θ la media de la distribución condicional p(θ|Y), estimador que se conoce como “Empirical Bayes estimator”.
Especificación del Modelo Rasch
Consideremos nuevamente la matriz de datos de la introducción. Como antes, denotaremos por Ypi = 1 si la persona p responde correctamente el ítem i, en caso contrario diremos que Ypi = 0. Las respuesta de la persona p a todos los ítems será llamado patrón de respuesta y será denotado por Yp. Teniendo en cuenta el contexto descrito en la sección anterior, debemos afirmar que los observables están dados por los patrones de respuesta de cada individuo, a saber Y1,Y2,…,Yn. El problema consiste en especificar el modelo estadístico que genera dichas observaciones. En lugar de limitarse a especificar una distribución de los observables, lo que se hace es suponer que existe una estructura subyacente responsable de generar los observables. Esta estructura subyacente corresponde a la descomposición marginal-condicional de la distribución conjunta de (Yp,θp). Los componentes de dicha descomposición serán llamado modelo estructural, para distinguirlo del modelo estadístico. Digamos de paso que este paradigma fue formalizado por Koopmans y Reiersol (1950), y aplicado a los modelos de Teoría de Respuesta al Ítem por Lord (1952).
Modelo estructural. El modelo estructural está definido por las siguientes hipótesis:
Es importante enfatizar que la expresión (9) corresponde a la probabilidad condicional P (Ypi = 1 |θp), mientras que en el paradigma discutido en la primera parte de este trabajo, esto corresponde a la probabilidad marginal P (Ypi = 1 |θp ). Por otro lado, la probabilidad condicional P (Ypi = 1 |θp ) puede especificarse de diversas formas, como por ejemplo el modelo 2Pl o el modelo 3PL.
¿Cuál es la diferencia entre el modelo estructural y el modelo estadístico? El modelo estructural induce un modelo estadístico, que corresponde al proceso generador de las observaciones – en nuestro caso, los patrones de respuesta. Para entender la diferencia y la relación que existe entre ambos modelos, parece instructivo introducir un símil, que está basado en la Teoría Clásica de Probabilidades, tal y como fue desarrollada por Laplace (1774). De hecho, el paradigma introducido por Laplace (1774) está completamente asumido en el paradigma explicitado en la sección sobre la descomposición marginal-condicional fundamental.
Supongamos que se tiene dos urnas: la urna A, que representa a las personas cuyo rasgo latente es “bajo”; la urna B, que representa a las personas cuyo rasgo latente es “alto”. Cada urna contiene bolitas blancas y negras: las bolitas blancas corresponden a “respuestas correctas”, mientras que las bolitas negras corresponden a “respuestas incorrectas”. Supongamos que conocemos la composición de cada urna: la urna A está compuesta por 3 bolitas blancas y 17 negras; la urna B está compuesta por 14 bolitas blancas y 4 bolitas negras. Ahora bien, describamos la extracción de las bolitas:
El esquema anterior tiene su correspondencia con el problema psicométrico que estamos modelando. En efecto,
Ahora bien, teniendo en cuenta el esquema de extracción de bolitas ya especificado, Laplace (1774) enuncia dos problemas. El primer problema consiste en calcular la probabilidad de extraer, por ejemplo, la secuencia (b, n, b, b). Evidentemente, la probabilidad de extraer dicha secuencia depende de la urna que se escoja: si se escoge la urna A, entonces aplicando el Axioma de Independencia Local se tiene que
Y si se escoge la urna B, entonces aplicando el Axioma de Independencia Local,
Pero la elección de la urna es aleatoria, por lo que es necesario combinar estos resultados teniendo en cuenta la distribución de elección de las urnas; esto es,
donde P(A) = 2/3 y P(B) = 1/3 . Lo que llamamos modelo estructural corresponde a la probabilidad de escoger cada urna y a la probabilidad condicional de extraer bolitas de cada urna. Lo que llamamos modelo estructural corresponde a la probabilidad de escoger cada urna y a la probabilidad condicional de extraer bolitas de cada urna. Lo que llamamos modelo estadístico corresponde a la probabilidad de la secuencia (b, n, b, b), que se obtiene después de promediar las probabilidades condicionales de extraer la secuencia (b, n, b, b) de cada urna, donde dicho promedio se determina teniendo en cuenta el “peso” de cada urna.
En el contexto psicométrico, el modelo estadístico corresponde a la distribución de probabilidad de los patrones de respuesta Yp, el cual se obtiene promediando las probabilidades condicionales con respecto a la distribución del rasgo latente. Más precisamente, para yp∈{0,1}I (es decir, un vector de largo I cuyas coordenadas son 0 ó 1),
donde yp+corresponde al total de 1’s que tiene el vector yp, y la esperanza de la igualdad anterior se calcula con respecto a la distribución del rasgo latente. La igualdad (11) nos permite además concluir que el modelo estadístico está parametrizado por (β1, β2,…, βI, σ), por lo que el significado de los “parámetros de dificultad” βi’s, así como del “parámetro de escala” σ deben precisarse con respecto al modelo estadístico. Este aspecto será discutido en la siguiente sección.
Significado de Axioma de Independencia Local. Usando el mismo esquema anterior, podemos apreciar el impacto que tiene el Axioma de Independencia Local sobre la extracción de una secuencia, como por ejemplo (b,n,b,b). Este impacto consiste en que se induce una dependencia entre las extracciones consideradas por separado. Más precisamente, se puede verificar que
En el contexto psicométrico, el Axioma de Independencia Local implica que las respuestas de un individuo a diferentes ítemes están correlacionadas entre sí. Más precisamente,
En otras palabras, las respuestas Ypi’s están relacionadas entre sí porque cada respuesta está relacionada con el rasgo latente θp (Lazarsfeld, 1954).
El problema inverso. El segundo problema mencionado por Laplace (1774) puede enunciarse de la siguiente manera: supongamos que se observa la secuencia (b, n, b). ¿Cuál es la urna más probable de la que proviene esta secuencia? Para responder a esta pregunta, es necesario calcular las probabilidades condicionales P(A|b, n, b) y P(B|b, n, b). Estas se calculan usando el Teorema de Probabilidades Inversa o Fórmula de Bayes-Laplace:
Similarmente para P(B|b, n, b). Se puede verificar que P(B|b, n, b) > P(A|b, n, b), por lo que la urna más probable de la que la secuencia (b, n, b) proviene es la urna B.
En términos psicométricos, el problema inverso consiste en calcular la probabilidad condicional del rasgo latente una vez que se ha observado un patrón de respuesta.
Significados de “dificultad de un ítem” y de “habilidad individual”
Significado de la dificultad de un item. Para poder interpretar el significado de los parámetros de dificultad, así como del parámetro de escala, es necesario realizar un análisis de identificación. Dicho análisis ha sido recientemente realizado por San Martín y De Boeck (2015), concluyéndose lo siguiente:
Para apreciar de forma explícita estas afirmaciones, consideremos el llamado modelo Normal-Ojiva, el cual asume que P(Ypi = 1|θp ) = Φ(θp-βi ), donde Φ(.) es la función de distribución de una normal estándar, y que la distribución del rasgo latente θp es una distribución normal de media 0 y varianza σ2. Sea
donde
Entonces, considerando la distribución conjunta de (Ypi,Ypj ) para cualquier individuo p y para cualquier par de ítemes i y j, se tiene que
con
Para detalles, ver San Martín & Rolin (2007). Notemos que P(Ypi = 1) corresponde a la probabilidad marginal de que cualquier individuo p responda correctamente el ítem i, y que puede ser estimado por medio de la proporción de individuos que efectivamente respondieron dicho ítem correctamente –es decir, la dificultad empírica del ítem según la TCT. Similarmente, P(Ypi = 1,Ypj = 1) corresponde a la probabilidad conjunta marginal de responder correctamente ambos ítems i y j. El Axioma de Independencia Local asegura que hay una relación de dependencia entre Ypi e Ypj , por lo que dicha probabilidad conjunta es distinta al producto P(Ypi = 1)×P(Ypj = 1). Dicha probabilidad conjunta puede ser estimada por medio de la proporción de individuos que efectivamente respondieron correctamente ambos ítems.
De las igualdades anteriores se deduce que, para cada ítem i,
que se puede interpretar diciendo que γi es una función decreciente de la dificultad empírica del ítem i. Por otro lado, se puede verificar que P(Ypi = 1,Ypj = 1) se puede escribir como
donde 1{Ui ≤ γi } es igual a 1 cuando efectivamente Ui ≤ γi , y 0 en caso contrario. Teniendo en cuenta que γi y γjson conocidos (ver ecuación (14)) el término de la derecha de la igualdad (15) es una función de ρ, que denotamos por H(ρ). Se puede verificar que la función H(.) es estrictamente creciente y, por tanto, invertible, por lo que ρ es una función tanto de P(Ypi = 1) y P(Ypj = 1) (a través de γi y γj), así como de la probabilidad marginal conjunta P(Ypi = 1,Ypj = 1). En otras palabras, ρ, y por tanto σ (gracias a la igualdad (12)), representa la dependencia que hay entre las respuestas a cualquier par de ítems.
Teniendo en cuenta las ecuaciones (13) y (14), se deduce que, para todo ítem i,
Es decir, lo que llamamos dificultad del ítem es una función tanto de la dificultad empírica del ítem, así como de la dependencia entre cualquier par de ítems. La igualdad (16) puede interpretarse de la siguiente manera:
En otras palabras, para los ítemes cuya dificultad empírica es a lo más 0.5, la escala de dificultades del modelo Rasch es una contracción de la escala de dificultades empíricas. Para los ítemes cuya dificultad empírica es a lo menos 0.5, la escala de dificultades del modelo Rasch es una extensión de la escala de dificultades empíricas2.
Significado de habilidad individual. En relación con la “habilidad individual” (rasgo latente), como hemos dicho anteriormente, la práctica común consiste en reportar como “estimador del rasgo latente” la media condicional de la distribución condicional p(θ|Yp = yp). El esquema laplaciano desarrollado en la sección sobre el Modelo de Rasch, nos permite entender el significado de esta “estimación”: se trata de un problema de clasificación. En efecto, una vez que se observa un patrón de respuesta Yp, interesa saber cuál es el grupo de habilidad más probable al que pertenece el individuo cuyo patrón de respuesta es Yp.
El análisis estadístico de un conjunto de observaciones requiere especificar el proceso generador de dichos datos. Este proceso corresponde a lo que hemos llamado modelo estadístico. Formalmente hablando, el modelo estadístico corresponde a una familia de distribuciones de probabilidad etiquetadas por parámetros. Los parámetros tienen un significado que debe ser derivado a partir del modelo estadístico. El significado de los parámetros nunca es algo nominal o impuesto.
En este trabajo hemos mostrado que el significado de “dificultad de un ítem” y “habilidad de una persona” es completamente diferente dependiendo de cómo se especifica el modelo estadístico. La primera especificación, debida al propio Rasch, y que en la jerga estadística y econométrica se denomina modelo Rasch efecto fijo, se caracteriza por el hecho de que todas las respuestas de todos los individuos, además de las respuestas de un mismo individuo, son mutuamente independientes entre sí. En este contexto, tanto la dificultad de un ítem, como la habilidad de una persona se pueden escribir en función de probabilidades de respuesta correcta e incorrecta, tal y como lo muestran las ecuaciones (3) y (4). Este resultado depende de una restricción de identificación, a saber que la dificultad del ítem estándar es igual a 0. Una consecuencia importante es que, en este contexto, se pueden comparar habilidades individuales y dificultades de ítems. Dicha comparación se hace en términos de probabilidades de respuesta correcta e incorrecta; ver ecuación (5).
Resulta interesante constatar que el procedimiento de standard setting llamado Bookmark utiliza la representación simultánea habilidades-dificultades para clasificar a las personas luego que un conjunto de jueces ha establecido un puntaje de corte teniendo en cuenta las dificultades de los ítems (Cizek, 2012). Estrictamente hablando, este procedimiento tiene sentido solo en la especificación de un modelo Rasch en la cual las respuestas a los ítems no son sólo mutuamente independientes, sino que además no están relacionadas entre sí por medio de un rasgo latente no observable.
La otra forma de especificar el modelo Rasch, debida a Lord, y que en la jerga estadística y econométrica se denomina modelo Rasch efecto aleatorio, está dentro de una tradición completamente distinta y que, en términos históricos, tiene su origen en Laplace y en su concepción de probabilidades inversas. El supuesto fundamental es que las respuestas que un individuo da a un grupo de ítems están correlacionadas entre sí porque cada una está relacionada con el rasgo latente (o habilidad individual no observable). Desde esta perspectiva, el problema psicométrico consiste en calcular la probabilidad condicional del constructo latente condicionalmente a las respuestas dadas por un individuo. Cuando este problema se examina a la luz del paradigma de Laplace, se puede afirmar que se trata de un problema de clasificación: aquí no interesa estimar la verdadera habilidad de una persona, sino que interesa clasificarla en un grupo de habilidades después que dichos grupos han sido definidos por medio de la distribución del rasgo latente.
Esta conclusión se refrenda aún más si nos hacemos la siguiente pregunta: si el rasgo latente es no-observable, ¿cómo es posible tener una idea precisa de su distribución de probabilidad? Una manera de responder a esta pregunta es especificar un modelo Rasch, donde la distribución del rasgo latente es completamente desconocida y por tanto se convierte en un parámetro de interés. Se ha demostrado que dicha distribución no es identificada, por lo que no tiene significado alguno; para detalles, ver San Martín, Jara, Rolin y Mouchart (2011) y San Martín, Rolin y Castro (2013). Por lo tanto, una manera de justificar el procedimiento de estimación de la probabilidad condicional de las habilidades dado los patrones de respuesta es atendiendo al problema de clasificación.
En este contexto, las dificultades de los ítems no tienen la misma significación que en el caso del modelo Rasch efecto fijo. Las dificultades de los ítems son una función tanto de la dificultad empírica de cada ítem, así como del grado de dependencia entre todo par de ítems. Así, la escala de las dificultades empíricas es contraída o extendida (dependiendo de si los ítems tienen dificultades empíricas mayores a 0.5, o menores a 0.5) en un factor que depende precisamente de dicha dependencia.
La interpretación de un fenómeno observable u observado depende completamente del modelo estadístico propuesto o inducido. El caso de datos educacionales no es la excepción, aunque se pone escasa atención a la significación de los términos “dificultad” y “habilidad”, términos que son los que precisamente ayudan a construir el discurso sustantivo de los datos. Este trabajo quiere enfatizar este asunto, mostrando cómo un modelo estadístico tiene una lectura sustantiva que puede y debe dialogar con la teoría psicológica y educacional que hace usos de estos modelos.
Cizek, G. (2012). Setting Performance Standards: Foundations, Methods, and Innovations. Routledge.
Embretson, S. E. & Reise, S. P. (2000). Item Response Theory for Psycholigists. New Jersey: Lawrence Erlbaum Associates, Publishers.
Koopmans, T. J. & Reiersol, O. (1950). The identification of structural characteristics. The Annals of Mathematical Statistics, 21, 165-181.
Laplace, P.S. (1774). Mémoire sur la probabilité des cause par les événements. Paris: Académie Royal des Sciences de Paris.
Lazarsfeld, P. F. (1954). A conceptual introduction to latent structure analysis. In: P. F. Lazarsfeld (Ed.), Mathematical Thinking in the Social Sciences, pp. 349-387. New York: Russell & Russell.
Lord, F. (1952). A Theory of Test Scores. Psychomettric Monograph No. 7.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. The Danish Institute for Educational Research (Expanded Edition, 1980). Chicago: The University Chicago Press.
San Martín, E. (2015). Identification of Item Response Theory Models. In: R.K. Hambleton & W. van der Linden (Eds.), Handbook of Item Response Theory: Models, Statistical Tools, and Applications, Volumen 2, Chapter 8. En Imprenta.
San Martín, E. & De Boeck, P. (2015). What do you mean by a difficult item? On the interpretation of the difficulty parameter in Rasch models. In: Roger E. Millsap, Daniel M. Bolt, L. Andries van der Ark, Wen-Chung Wang (Eds.), Quantitative Psychology Research, Springer Proceedings in Mathematics & Statistics, 89, Chapter 1.
San Martín, E., González, J. & Tuerlinckx, F. (2009). Identified Parameters, Parameters of Interest and Their Relationships. Measurement: Interdisciplinary Research & Perspective, 7, 97-105.
San Martín, E., González, J. & Tuerlinckx, F. (2014). On the unidentifiability of the fixed-effects 3PL model. Psychometrika, 80, 450-467. DOI: 10.1007/S11336-014-9404-2.
San Martín, E., Jara, A., Rolin, J.-M. & Mouchart, M. (2011). On the Bayesian nonparametric generalization of IRT-type models. Psychometrika, 76, 385-409.
San Martín, E. & Rolin, J. –M. (2007). Identifiability and Estimability of Parametric Rasch-Type Models. Discussion Paper 0702, Institut de Statistique, Université catholique de Louvain, Belgium. Disponible en http://sites.uclouvain.be/IAP-Stat-Phase-V-VI/ISBApub/dp2007/DP0702.pdf.
San Martín, E. & Rolin, J. –M. (2013). Identification of parametric Rasch-type models. Journal of Statistical Planning and Inference, 143, 116-130.
San Martín, E., Rolin, J.-M. & Castro, M. (2013). Identification of the 1PL model with guessing parameter: parametric and semi-parametric results. Psychometrika, 78, 341-379.
2Estas afirmaciones corrigen lo expuesto en San Martín y De Boeck (2015, p. 7), donde no se advirtió que el signo de Φ-1 [P(Ypi = 1)] puede ser negativo o positivo, dependiendo si P(Ypi = 1)<0.5 o P(Ypi = 1)>0.5.
Recibido: 23 de abril de 2015
Aceptado: 18 de setiembre de 2015