Modelos Rasch: ¿cuán (in-)coherentemente son
presentados y utilizados?*
Resumen. El modelo Rasch es ampliamente usado para el análisis de datos educacionales. En la práctica, se reportan los
estimadores de la dificultad de los ítems y los estimadores de las habilidades de los individuos. Sin embargo, nunca se explicita
qué significado tiene el término “dificultad” y cuál el término “habilidad”. Los significados de estos términos no dependen
de las estimaciones; al contrario, estas últimas han de interpretarse en función del significado de los primeros. En este trabajo
se muestra que el significado de las nociones de “dificultad” y “habilidad” dependen de la forma en que el modelo Rasch se
específica. En la literatura psicométrica hay dos maneras de especificar dicho modelo: una que sólo se limita a modelar los
observables; la otra, que además de los observables, modela no-observables. La primera forma de especificación se debe al
mismo Rasch, mientras que la segunda fue desarrollada por Lord.
Palabras clave. Axioma de independencia local, rasgo latente, dificultad de un ítem, proporción de chances, probabilidad
inversa.
Abstract. Rasch models are widely used for the analysis of educational data. In practice, estimates of difficulties of items
and abilities of examinees are reported. However, the meaning of the terms “difficulty” and “abilities” are never made explicit.
The meaning of these terms does not depend on the estimations; they should be interpreted with respect to the eventual
meaning of both item difficulties and individual abilities. This paper shows that the meaning of the terms “difficulty” and
“ability” depends on the way in which the Rasch model is specified. In the psychometric literature, Rasch models are specified
in two different ways: one specifies the observable only, whereas the other one specifies both observable and unobservable.
The first specification is due to Rasch himself, the second one is due to Lord.
Keywords. Local independence axiom, latent trait, item difficulty, odds ratio, inverse probability.
Actualidades en Psicología, 29(119), 2015, 91-102
http://revistas.ucr.ac.cr/index.php/actualidades
1 Ernesto San Martín. Facultad de Matemáticas, Ponticia Universidad Católica de Chile, Chile; Center for Operations Research and
Econometrics, Belgium. Dirección Postal: Vicuña Mackenna 4860, Macul, Santiago, Chile. Email: esanmart@mat.puc.cl
*Agradecimientos: Este trabajo ha sido parcialmente financiado por el Proyecto ANILLO SOC 1107 Statistics foor Public Policy in Education,
de la Corporación Nacional de Ciencia y Tecnología del Gobierno de Chile.
Ernesto San Martín1
Ponticia Universidad Católica de Chile, Chile
Rasch Models: How (In-)Coherently are they
Showed and Used?
ISSN 2215-3535
DOI: http://dx.doi.org/10.15517ap.v29i119.18911
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
92 San Martín
Actualidades en Psicología, 29(119), 2015, 91-102
Problema: a modo de introducción
Supongamos que 10 estudiantes respondieron un
test compuesto de seis ítems de selección múltiple.
Una vez revisado el test, los resultados se resumen en
la tabla 1.
Datos como estos se obtienen a partir de aplicaciones
masivas, como el SIMCE en Chile, las pruebas SABER
en Colombia, o PISA por la OECD. Los análisis
psicométricos que se hacen se reducen a dos tipos:
por un lado se estima un puntaje individual, el cual
típicamente se interpreta como el grado de dominio
que un determinado estudiante tiene en relación a lo
que mide el test; de hecho, a veces se relaciona dicho
puntaje con una supuesta habilidad medida por el
test, en cuyo caso dicha habilidad corresponde a un
rasgo latente. Por otro lado, se estiman propiedades
de los ítems, concretamente la dificultad, el grado de
discriminación y el grado de respuesta al azar. Las
propiedades de los ítems están basadas en modelos
de Teoría de Respuesta al Ítem (TRI), aunque también
suelen reportarse indicadores de dificultad y de
discriminación (i.e.. correlación ítem-test) basados en
la Teoría Clásica de Test (TCT).
La práctica resumida en el párrafo anterior plantea
un problema que utiliza una terminología estándar (a
saber, habilidad de un individuo y dificultad de un ítem)
independientemente del tipo de modelo psicométrico
que se utilice para analizar dichos datos. Puede argüirse
que, por ejemplo, las estimaciones de las dificultades
de los ítems bajo el esquema de la TCT está casi
perfectamente correlacionado con las estimaciones de
las dificultades que se obtienen al aplicar un modelo
Rasch o un modelo 2PL. Pero, como ya es ampliamente
reconocido en la investigación cuantitativa, correlación
no implica explicación, por lo que no resulta coherente
suponer que a una misma terminología subyace una
misma significación.
El objetivo de este artículo es mostrar cómo
el significado de dificultad de un ítem y habilidad
de un individuo dependen de la especificación del
modelo psicométrico utilizado. Concretamente, nos
focalizaremos en dos maneras de especificar el modelo
Rasch, las cuales se aclararán en los párrafos siguientes.
Primera Parte
Heterogeneidad de la información observada
Para definir rigurosamente habilidad individual
y dificultad de un ítem, es necesario considerar
dos hechos:
a. Cuando se observan las respuestas a un ítem
dadas por una determinada población de individuos, se
constata que dichas respuestas son heterogéneas.
b. Cuando se observan las respuestas que un
estudiante da a un conjunto de ítemes, también se
observa un comportamiento heterogéneo.
Tabla 1
Matriz de respuestas individuales a un conjunto de ítemes
Item 1 Item 2 Item 3 Item 4 Item 5 Item 6
Estudiante 1 0 0 1 1 0 1
Estudiante 2 1 0 0 1 1 1
Estudiante 3 1 1 0 0 0 0
Estudiante 4 1 1 0 1 0 0
Estudiante 5 0 0 1 1 0 0
Estudiante 6 1 0 1 0 0 0
Estudiante 7 1 1 1 1 0 1
Estudiante 8 1 1 0 0 0 1
Estudiante 9 1 0 0 0 1 1
Estudiante 10 0 0 0 1 0 1
Modelos Rasch: ¿cuán (in-)coherentemente son presentados y utilizados?
Actualidades en Psicología, 29(119), 2015, 91-102
93
La heterogeneidad puede ser representada
formalmente por medio de probabilidades. Para ser
más específicos, definamos una variable aleatoria Ypi
que toma el valor 1 cuando la persona p responde
correctamente el ítem i; y toma el valor 0 en caso
contrario. La heterogeneidad de la variable aleatoria
Ypi se representa por medio de la probabilidad que
dicha variable tiene de ser igual a 1 ó a 0: más alta
(respectivamente, más baja) es esta probabilidad,
más chances (respectivamente, menos chances) hay
que la persona p responda correctamente el ítem i.
Si denotamos por π dicha probabilidad, entonces
escribimos P[Ypi = 1] = π, y consecuentemente P[Y
pi
= 0] = 1-π. De forma compacta, decimos que Ypi es
una variable aleatoria Bernoulli de parámetro π, y lo
denotamos por Ypi~Bern(π).
Bajo estas consideraciones, la tabla de datos
inicial corresponde a una posible realización de
60 distribuciones Bernoulli de parámetro π, todas
mutuamente independientes entre sí –es decir, que
la realización de cualquiera de ellas no proporciona
información alguna acerca de la realización de
cualquiera de las restantes.
Pero de inmediato surgen dos preguntas: para un
determinado ítem, ¿por qué asumir que la probabilidad de
responder correctamente es la misma para cada persona?
Para una persona determinada, ¿por qué asumir que la
probabilidad de responder correctamente cada ítem es la
misma? Una forma de representar la heterogeneidad que
se observa tanto a nivel de ítems, como de personas, es
precisamente asumir que la probabilidad de responder
correctamente un ítem por una determinada persona
depende tanto del ítem como de la persona. Más
precisamente, se supone que el proceso generador de
datos que subyace a la tabla inicial de observaciones está
caracterizado por dos condiciones:
a. Las variables aleatorias Ypis son mutuamente
independientes.
b. Para cada persona p e ítem i, Ypi~Bern(πpi ),
donde el parámetro πpi (0,1). Enfaticemos que πpi es
distinto de 0 y de 1: si πpi fuera igual a 0 ó a 1, entonces
no habría heterogeneidad alguna.
Modelo Rasch
Separación entre la característica individual y la característica
de un ítem. Como ya ha sido mencionado anteriormente,
la especificación anterior implica que P(Ypi = 1) = πpi y
P(Ypi = 0) = 1-πpi. Ambas igualdades pueden resumirse
por medio del siguiente cociente de chances
donde
El parámetro λpi (que corresponde a un número
real) representa la razón entre la probabilidad que
la persona p responda correctamente el ítem i, y la
probabilidad de que lo responda incorrectamente.
Así, por ejemplo, si λpi = 3, entonces la probabilidad
que la persona p responda correctamente el ítem
i triplica la probabilidad de que lo responda
incorrectamente. De manera similar, si λpi < 1,
entonces la probabilidad de que la persona p
responda correctamente el ítem i es menor que la
probabilidad de que lo responda incorrectamente.
El modelo Rasch introduce una hipótesis
fundamental, que consiste en “separar” la
característica individual de la característica del ítem;
ver Rasch (1960). Específicamente, supone que el
parámetro λpi se descompone de la siguiente manera:
donde εp representa una característica de la persona p, y
ηi representa una característica del ítem i. Para entrever
a qué tipo de características nos referimos, notemos lo
siguiente:
a. Supongamos que ηi está fijo. Si εp crece
(respectivamente, decrece) indefinidamente, entonces
en algún momento λpi > 1 (respectivamente, λpi < 1) y
P[Ypi = 1] = λ pi
P[Ypi = 0]
λpi=πpi
1-πpi
λpi =ε p(1)
hi
94 San Martín
Actualidades en Psicología, 29(119), 2015, 91-102
por lo tanto la probabilidad que la persona p responda
correctamente el ítem i será mayor (respectivamente,
menor) que la probabilidad de responderlo
incorrectamente. En términos meramente intuitivos,
podemos afirmar que εp representa la “habilidad de la
persona p”. No hay que olvidar que esta afirmación es
relativa al valor fijo de ηi.
b. Supongamos que εp está fijo. Si ηi crece
(respectivamente, decrece) indefinidamente, entonces
en algún momento λpi < 1 (respectivamente, λpi > 1) y
por lo tanto la probabilidad que la persona p responda
correctamente el ítem i será menor (respectivamente,
menor) que la probabilidad de que lo responda
incorrectamente. En términos meramente intuitivos,
podemos afirmar que ηi representa la “dificultad del ítem
i. No hay que olvidar que esta afirmación es relativa al
valor fijo de εp.
Las afirmaciones anteriores se basan en una
comparación entre εp y ηi. Esto requiere que los valores
que se asignan a los parámetros εp y ηi. estén únicamente
determinados. Sin embargo, la descomposición (1) sufre de
una indeterminación. En efecto, supongamos que λpi = 3.
Como ya hemos indicado, esto significa que la probabilidad
de que la persona p responda correctamente el ítem i
triplica la probabilidad de responderlo incorrectamente.
La pregunta ahora es a qué característica individual y a qué
característica del ítem corresponde este valor del parámetro
λpi. Pues bien, observemos las siguientes igualdades:
Es decir, el parámetro λpi = 3, que tiene un significado
bien preciso, está asociado a diferentes combinaciones
de características de un individuo y de un item: una
“habilidad” igual a 3 y una “dificultad” igual a 1; o una
“habilidad” igual a 30 y una “dificultad” igual a 10;
o una “habilidad igual a 1” y una “dificultad” igual a
1/3. Es decir, dado un valor de λpi, no existe un único
valor de εp y un único valor de ηi, lo cual implica que
los términos de dificultad y de habilidad no están
bien definidos y, por tanto, son meros nombres a los
que se les puede atribuir cualquier significado que no
esté sustentado por el proceso que genera los datos
bajo análisis. Técnicamente, esto corresponde a un
problema de identificación (para detalles, ver San
Martín, González & Tuerlinckx, 2009; San Martín,
2015), el cual requiere ser resuelto a fin de asegurar un
significado a los parámetros εp y ηi.
Significados de “habilidad” y “dificultad”
Para resolver dicha indeterminación, es necesario
introducir una restricción de identificación. Una
posible restricción es la siguiente:
η1 = 1 (2)
Bajo esta restricción, se deduce que
para toda persona p. Es decir, bajo la restricción η1 = 1,
lo que típicamente se llama “habilidad de una persona
p” corresponde al cociente de la probabilidad que dicha
persona responda el ítem estándar (así llamaremos al ítem
con la etiqueta 1) correctamente sobre la probabilidad
de que lo responda incorrectamente. Más aún, si εp >
1 tiene un significado bien preciso: la persona p tiene
una probabilidad de responder correctamente el ítem
estándar mayor que la de responderlo incorrectamente.
En relación al significado de ηi, notemos que
P(Yp1 = 1) P(Yp1 = 0) =λp1 =εp= ηi(4)
P(Ypi = 1) ⁄ P(Ypi = 0) λpi εp⁄ηi
Es decir, lo que llamamos “dificultad del ítem
i
corresponde al odd ratio entre el ítem 1 y el ítem i
para cada persona p. Así, si ηi > 1, entonces la razón
de chances de una respuesta correcta de la persona
p al ítem estándar es más grande que la razón de
chances de una respuesta correcta al ítem i. En otras
palabras, es más probable para la persona p responder
correctamente el ítem estándar que el ítem i (esto es,
ηi 1 = 1).
Representación simultánea habilidades-dificultades. Las
consideraciones anteriores sugieren cómo las habilidades
pueden compararse con las dificultades. En efecto,
λpi = 3 = 3=30 =1=...
1 10 1/3
P(Yp1 = 1)= λp1 = εp(3)
P(Yp1 = 0)
Modelos Rasch: ¿cuán (in-)coherentemente son presentados y utilizados?
Actualidades en Psicología, 29(119), 2015, 91-102
95
εp > ηi P(Ypi = 1) > P(Ypi = 0) (5)
para cada persona p y cada ítem i. Es decir, un individuo
p tiene una habilidad superior a la dificultad del ítem i
si la probabilidad que la persona p tiene de responder
correctamente el ítem i es mayor que la probabilidad
que tiene de responderlo incorrectamente.
Discusión. El modelo Rasch, así como otras
modelos de Teoría de Respuesta al Ítem, son usados
intensivamente en los sistemas educacionales
nacionales e internacionales para analizar los resultados
que una población de estudiantes obtiene después de
la aplicación de un test. Estos análisis se reducen a
estimar las habilidades de los individuos, en base a las
cuales se calcula un puntaje individual; y a estimar las
dificultades de los ítems (como otras características
de los ítems). A pesar de esto, no es del todo claro
lo que se entiende por “dificultad de un ítem” y por
“habilidad de un estudiante” ya que, como lo hemos
dicho en la introducción, se habla de la dificultad de
un ítem tanto si se la estima usando Teoría Clásica de
Test, o un modelo Rasch u otro modelo de Teoría de
Respuesta al Ítem, como el 2PL o 3PL.
Tanto la habilidad de una persona, como la
dificultad de un ítem, deben ser interpretadas con
respecto a un proceso generador de datos, el cual
se formaliza en términos probabilísticos. Este
proceso no hace sino representar la heterogeneidad
que se observa tanto en las respuestas que una
persona da a un conjunto de ítems, así como la
heterogeneidad que se observa cuando un grupo
de estudiantes responde un determinado ítem.
Asumido esto, hemos especificado el modelo
Rasch de la siguiente manera:
a. {Ypi : p = 1,…,N;i = 1,…,I} son mutuamente
independientes.
b. Para cada p e i, Ypi~Bernpi) para cada persona p y
cada ítem i, con πpi (0,1).
c. El parámetro πpi se descompone como
πpi =εp
ηi(6)
1+εp
ηi
donde εp representa la habilidad de una persona p, y ηi
representa la dificultad del ítem i. Esta parametrización
puede ser poco familiar al lector. Sin embargo, si utiliza
la siguiente reparametrización
θp = e εp , ηi = eβi
entonces
P(Ypi = 1) =eθp-βi
1+eθp-βi
que es la forma estándar de presentar el modelo Rasch.
Lo que hemos constatado en las secciones
anteriores es que el significado de εp y de ηi dependen
exclusivamente del proceso generador de datos, que
en este caso se reduce a distribuciones de probabilidad
Bernoulli con parámetros dados por (6). Este
significado se hace explícito sólo si se elimina una
indeterminación en la igualdad (1), o equivalentemente
(6). Una forma de eliminar dicha indeterminación es
por medio de la restricción (2). Bajo esta restricción,
es posible determinar el significado de la “habilidad de
una persona p” y de la “dificultad de un ítem
i
”. Estos
significados están explicitados en las ecuaciones (3) y
(4). Es más, tanto las habilidades como las dificultades
pueden compararse entre sí, y dicha comparación tiene
un significado explícito dado por la desigualdad (5).
Tres observaciones se imponen:
a. El desarrollo que hemos hecho acá para
encontrar la interpretación de los parámetros del
modelo Rasch es posible hacerla para los modelos 2PL
y 3PL. Dejemos constatado aquí que para el modelo
3PL no es posible interpretar las características de los
ítems y que, en particular, lo que llamamos “parámetro
de adivinanza” no tiene significado alguno. Para
detalles, ver San Martín, González y Tuerlinckx (2014).
b. El significado de las habilidades, así como de las
dificultades, se basa exclusivamente en probabilidades
de respuestas correctas/incorrectas. Es por ello que
este modelo debe considerarse como un modelo
descriptivo en el sentido de que no se provee ninguna
explicación psicológica o educacional de las habilidades
y dificultades. Es posible, sin embargo, extender este
96 San Martín
Actualidades en Psicología, 29(119), 2015, 91-102
modelo de manera de incorporar un aspecto explicativo
tanto de las habilidades como de las dificultades. Para
detalles y referencias, ver San Martín y Rolin (2013).
c. En la construcción del modelo Rasch no se
ha supuesto que la habilidad individual sea un rasgo
latente, el cual se representa por medio de una variable
aleatoria. Sin embargo, las modernas especificaciones
del modelo Rasch lo asumen, aunque tienden a presentar
el significado de “habilidad” y “dificultad” en la línea
discutida hasta aquí; ver por ejemplo Embretson y Reise
(2000). La pregunta que es necesario hacer, entonces,
es cómo se modifican los significados de “dificultad”
y “habilidad” bajo este nuevo esquema. Esto es lo que
discutiremos en la segunda parte de este trabajo.
Segunda Parte
Descomposición Marginal-Condicional Fundamental
Los modelos de Teoría de Respuesta al Ítem se
especifican desde una perspectiva completamente
diferente a la discutida en la primera parte de este trabajo.
El contexto general sobre el cual dichos modelos se
especifican asume dos procesos aleatorios secuenciales:
el primero de ellos describe la heterogeneidad de una
característica individual llamada constructo o rasgo
latente; el segundo dice relación con la heterogeneidad
de las respuestas que se dan a un ítem o a un test por
un individuo con un determinado nivel de habilidad.
Si denotamos por Y la respuesta a un test o a un
ítem, y por θ el rasgo o constructo latente, entonces
los dos procesos aleatorios anteriores corresponden
a una descomposición marginal-condicional de la
distribución conjunta de (Y,θ), la que denotamos por
p(Y,θ); esto es,
p(Y,θ) = p(θ)p(Y|θ) (7)
donde p(θ) corresponde a la distribución de
probabilidad que representa la heterogeneidad de
los rasgos o constructos latentes de una determinada
población de individuos, y p(Y|θ) corresponde
a la distribución condicional que representa la
heterogeneidad de las respuestas a un test o ítem
cuando el individuo que responde tiene un rasgo
latente dado por θ. El aspecto fundamental que
es necesario enfatizar es que la descomposición
(7) asume que existe una relación de dependencia
entre el rasgo o constructo latente θ y la respuesta
observable Y, o, en otras palabras, que la respuesta
observable Y está determinada por el rasgo latente θ.
En este contexto, el problema psicométrico
consiste en “estimar” el nivel de habilidad θ de una
persona después que se ha observado el puntaje Y
que ha obtenido en una prueba o en un ítem. Más
precisamente, dado que el rasgo latente es una
variable aleatoria cuya distribución está dada por
p(θ), el objetivo consiste en obtener la distribución
p|Y). Es importante notar que esta distribución,
junto a la distribución de los puntajes observados
p(Y), constituyen una descomposición alternativa de
la distribución conjunta p(Y|θ), esto es,
p(Y|θ) = p(Y)p|Y). (8)
Combinando las igualdades (7) y (8) es posible
obtener una forma explícita de calcular la distribución
de probabilidad p(θ|Y):
p|Y) = p(θ)p(Y|θ)
p(Y)
En esta igualdad, conocida como el Teorema
de Bayes-Laplace, la única componente que puede
estimarse a partir de las observaciones es p(Y); las
otras dos son supuestas y, en algún grado, justificadas
por las aplicaciones. En la práctica, se reporta
como “estimador” de θ la media de la distribución
condicional p(θ|Y), estimador que se conoce como
“Empirical Bayes estimator”.
Especificación del Modelo Rasch
Consideremos nuevamente la matriz de datos de
la introducción. Como antes, denotaremos por Ypi =
1 si la persona p responde correctamente el ítem i,
en caso contrario diremos que Ypi = 0. Las respuesta
de la persona p a todos los ítems será llamado patrón
de respuesta y será denotado por Yp. Teniendo en
cuenta el contexto descrito en la sección anterior,
debemos afirmar que los observables están dados por
los patrones de respuesta de cada individuo, a saber
Modelos Rasch: ¿cuán (in-)coherentemente son presentados y utilizados?
Actualidades en Psicología, 29(119), 2015, 91-102
97
Y1,Y2,…,Yn. El problema consiste en especificar el
modelo estadístico que genera dichas observaciones.
En lugar de limitarse a especificar una distribución
de los observables, lo que se hace es suponer que
existe una estructura subyacente responsable de
generar los observables. Esta estructura subyacente
corresponde a la descomposición marginal-
condicional de la distribución conjunta de (Ypp).
Los componentes de dicha descomposición serán
llamado modelo estructural, para distinguirlo del
modelo estadístico. Digamos de paso que este
paradigma fue formalizado por Koopmans y
Reiersol (1950), y aplicado a los modelos de Teoría
de Respuesta al Ítem por Lord (1952).
Modelo estructural. El modelo estructural está definido
por las siguientes hipótesis:
a. Los rasgos latentes θps son mutuamente
independientes e idénticamente distribuidos, con
distribución común G
σ
–es decir, una distribución
conocida salvo el parámetro de escala. Típicamente,
se asume que dicha distribución corresponde a una
normal de media 0 y de varianza σ2. Esta hipótesis
indica relación con la selección de los individuos: lo que
se selecciona es un rasgo latente, del cual dependen las
respuestas de dicho individuo a un conjunto de ítems.
b. Los patrones de respuesta Yps son mutuamente
independientes condicionalmente a 1,θ2,…,θn).
Esto es, si se conociesen los rasgos latentes de cada
individuo, el patrón de respuesta de un individuo no
sería informativo para inferir el patrón de respuesta de
cualquiera de los restantes individuos.
c. El patrón de respuesta Yp solo depende de θp.
Esto es, el patrón Yp de la persona p solo depende del
rasgo latente θp de dicha persona, y no del rasgo latente
de las restantes personas.
d. Para cada individuo p, sus respuestas
{Yp1 Yp2,…,YpI} son mutuamente independientes
condicionalmente al rasgo latente θp. Esto es
conocido como el Axioma de Independencia Local.
Discutiremos su significado en la siguiente sub-
sección.
e. La distribución condicional de Ypi dado θp
corresponde a una Bernoulli de parámetro
eθp-βi(9)
1+eθp-βi
Es importante enfatizar que la expresión (9)
corresponde a la probabilidad condicional P (Ypi =
1 |θp), mientras que en el paradigma discutido en la
primera parte de este trabajo, esto corresponde a la
probabilidad marginal P (Ypi = 1 |θp ). Por otro lado,
la probabilidad condicional P (Ypi = 1 p ) puede
especificarse de diversas formas, como por ejemplo el
modelo 2Pl o el modelo 3PL.
¿Cuál es la diferencia entre el modelo estructural y el modelo
estadístico? El modelo estructural induce un modelo
estadístico, que corresponde al proceso generador
de las observaciones – en nuestro caso, los patrones
de respuesta. Para entender la diferencia y la relación
que existe entre ambos modelos, parece instructivo
introducir un símil, que está basado en la Teoría Clásica
de Probabilidades, tal y como fue desarrollada por
Laplace (1774). De hecho, el paradigma introducido
por Laplace (1774) está completamente asumido
en el paradigma explicitado en la sección sobre la
descomposición marginal-condicional fundamental.
Supongamos que se tiene dos urnas: la urna A,
que representa a las personas cuyo rasgo latente es
“bajo”; la urna B, que representa a las personas cuyo
rasgo latente es “alto”. Cada urna contiene bolitas
blancas y negras: las bolitas blancas corresponden
a “respuestas correctas”, mientras que las bolitas
negras corresponden a “respuestas incorrectas”.
Supongamos que conocemos la composición de cada
urna: la urna A está compuesta por 3 bolitas blancas
y 17 negras; la urna B está compuesta por 14 bolitas
blancas y 4 bolitas negras. Ahora bien, describamos la
extracción de las bolitas:
a. En primer lugar, definimos un
procedimiento aleatorio que nos permita seleccionar
cada urna. Supongamos, por ejemplo, que la urna A
se selecciona con probabilidad , mientras que la
urna B se selecciona con probabilidad .
2
31
3
98 San Martín
Actualidades en Psicología, 29(119), 2015, 91-102
b. Una vez que se selecciona una urna, se
extraen con reemplazo, por ejemplo, 4 bolitas.
El esquema anterior tiene su correspondencia con
el problema psicométrico que estamos modelando. En
efecto,
a. La distribución de probabilidad bajo la cual se
seleccionan las urnas corresponde a la distribución del
rasgo latente θp.
b. Una vez que se escoge una urna, por ejemplo la
urna B, la extracción con reemplazo de las bolitas asegura
que dichas extracciones son mutuamente independientes.
Esto es, condicionalmente a la urna, las extracciones son
mutuamente independientes. Lo que corresponde al
Axioma de Independencia Local.
Ahora bien, teniendo en cuenta el esquema de
extracción de bolitas ya especificado, Laplace (1774)
enuncia dos problemas. El primer problema consiste
en calcular la probabilidad de extraer, por ejemplo, la
secuencia (b, n, b, b). Evidentemente, la probabilidad
de extraer dicha secuencia depende de la urna que se
escoja: si se escoge la urna A, entonces aplicando el
Axioma de Independencia Local se tiene que
( ) ( ) ( ) ( ) ( )

= = ×


3
3 17
,,,| |||| .
20 20
PbnbbA PbAPnAPbAP bA
Y si se escoge la urna B, entonces aplicando el
Axioma de Independencia Local,
( ) ( ) ( ) ( ) ( )

= = ×


3
14 4
,,,| |||| .
18 18
PbnbbB PbBPnBPbBPbB
Pero la elección de la urna es aleatoria, por lo que
es necesario combinar estos resultados teniendo en
cuenta la distribución de elección de las urnas; esto es,
P(b, n, b, b) = P(b, n, b, b|A)P(A)+P(b, n, b, b|B)P(B) (10),
donde P(A) = y P(B) = .
Lo que llamamos
modelo estructural corresponde
a la probabilidad
de escoger cada urna y a la probabilidad condicional
de extraer bolitas de cada urna. Lo que llamamos
modelo estructural corresponde a la probabilidad de
escoger cada urna y a la probabilidad condicional de
extraer bolitas de cada urna. Lo que llamamos modelo
estadístico corresponde a la probabilidad de la secuencia
(b, n, b, b), que se obtiene después de promediar las
probabilidades condicionales de extraer la secuencia
(b, n, b, b) de cada urna, donde dicho promedio se
determina teniendo en cuenta el “peso” de cada urna.
En el contexto psicométrico, el modelo estadístico
corresponde a la distribución de probabilidad de los
patrones de respuesta Yp, el cual se obtiene promediando
las probabilidades condicionales con respecto a la
distribución del rasgo latente. Más precisamente,
para yp{0,1}I (es decir, un vector de largo I cuyas
coordenadas son 0 ó 1),
P(Yp = yp) = e-∑1≤iI ypiβi×E
()
1
1
yp
e
i
e
iI
θ
θβ

+



+
≤≤

(11)
donde yp+corresponde al total de 1’s que tiene el
vector yp, y la esperanza de la igualdad anterior
se calcula con respecto a la distribución del
rasgo latente. La igualdad (11) nos permite
además concluir que el modelo estadístico está
parametrizado por 1, β2,…, βI, σ), por lo que
el significado de los “parámetros de dificultad”
βis, así como del “parámetro de escala” σ deben
precisarse con respecto al modelo estadístico. Este
aspecto será discutido en la siguiente sección.
Significado de Axioma de Independencia Local. Usando el
mismo esquema anterior, podemos apreciar el impacto
que tiene el Axioma de Independencia Local sobre
la extracción de una secuencia, como por ejemplo
(b,n,b,b). Este impacto consiste en que se induce una
dependencia entre las extracciones consideradas por
separado. Más precisamente, se puede verificar que
P(b, n, b, b) ≠ P(b)P(n)P(b)P(b).
En el contexto psicométrico, el Axioma de
Independencia Local implica que las respuestas de un
individuo a diferentes ítemes están correlacionadas
entre sí. Más precisamente,
2
3
1
3
( )
( )
( )
( )
( )
, ,0
11
pi j
pi i
ij
y
y
pi pj
ee
cov Y Y cov ee
θβ
θβ
θβ θβ


=

++

Modelos Rasch: ¿cuán (in-)coherentemente son presentados y utilizados?
Actualidades en Psicología, 29(119), 2015, 91-102
99
En otras palabras, las respuestas Ypis están
relacionadas entre sí porque cada respuesta está
relacionada con el rasgo latente θp (Lazarsfeld, 1954).
El problema inverso. El segundo problema mencionado
por Laplace (1774) puede enunciarse de la siguiente
manera: supongamos que se observa la secuencia (b, n,
b). ¿Cuál es la urna más probable de la que proviene esta
secuencia? Para responder a esta pregunta, es necesario
calcular las probabilidades condicionales P(A|b, n, b)
y P(B|b, n, b). Estas se calculan usando el Teorema de
Probabilidades Inversa o Fórmula de Bayes-Laplace:
Similarmente para P(B|b, n, b). Se puede verificar
que P(B|b, n, b) > P(A|b, n, b), por lo que la urna más
probable de la que la secuencia (b, n, b) proviene es la
urna B.
En términos psicométricos, el problema inverso consiste
en calcular la probabilidad condicional del rasgo latente una
vez que se ha observado un patrón de respuesta.
Significados de “dificultad de un ítem” y de “habilidad
individual”
Significado de la dificultad de un item. Para poder
interpretar el significado de los parámetros de dificultad,
así como del parámetro de escala, es necesario realizar
un análisis de identificación. Dicho análisis ha sido
recientemente realizado por San Martín y De Boeck
(2015), concluyéndose lo siguiente:
a. El parámetro σ representa la dependencia
entre dos ítemes distintos. Más aún, esta dependencia
es la misma para todos los pares de ítems.
b. El parámetro βi es una función tanto de la
proporción de respuestas correctas del ítem i, como
de la dependencia común entre ítems, dependencia
capturada por el parámetro σ.
Para apreciar de forma explícita estas afirmaciones,
consideremos el llamado modelo Normal-Ojiva, el
cual asume que P(Ypi = 1|θp ) = Φ(θpi ), donde Φ(.)
es la función de distribución de una normal estándar,
y que la distribución del rasgo latente θp es una
distribución normal de media 0 y varianza σ2. Sea
donde
(12)
Entonces, considerando la distribución conjunta de
(Ypi,Ypj ) para cualquier individuo p y para cualquier par
de ítemes i y j, se tiene que
con
(13)
Para detalles, ver San Martín & Rolin (2007).
Notemos que P(Ypi = 1) corresponde a la probabilidad
marginal de que cualquier individuo p responda
correctamente el ítem i, y que puede ser estimado por
medio de la proporción de individuos que efectivamente
respondieron dicho ítem correctamente –es decir, la
dificultad empírica del ítem según la TCT. Similarmente,
P(Ypi = 1,Ypj = 1) corresponde a la probabilidad conjunta
marginal de responder correctamente ambos ítems i y
j. El Axioma de Independencia Local asegura que hay
una relación de dependencia entre Ypi e Ypj , por lo que
dicha probabilidad conjunta es distinta al producto P(Ypi
= 1)×P(Ypj = 1). Dicha probabilidad conjunta puede ser
estimada por medio de la proporción de individuos
que efectivamente respondieron correctamente
ambos ítems.
De las igualdades anteriores se deduce que, para
cada ítem i,
(14)
que se puede interpretar diciendo que γi es una función
decreciente de la dificultad empírica del ítem i. Por otro
lado, se puede verificar que P(Ypi = 1,Ypj = 1) se puede
escribir como
PAbnbPbnbAPA
Pbnb
||
,, ,,
,, .
()
=
()()
()
U
UN
i
j
~, ,
2
0
0
1
1
ρ
ρ
P(Ypi = 1) = P(Ui ≤ -γi ) = Φ(-γi )
P(Ypj = 1) = P(Uj ≤ -γj ) = Φ(-γj )
P(Ypi = 1,Ypj = 1) = P(Ui ≤ -γi ,Uj ≤ -γj )
22
, 
11
j
i
ij
β
β
γγ
σσ
= =
++
2
2

1
σ
ρσ
=+
100 San Martín
Actualidades en Psicología, 29(119), 2015, 91-102
(15)
donde 1{Ui γi } es igual a 1 cuando efectivamente Ui
γi , y 0 en caso contrario. Teniendo en cuenta que γi y
γjson conocidos (ver ecuación (14)) el término de la
derecha de la igualdad (15) es una función de ρ, que
denotamos por H(ρ). Se puede verificar que la función
H(.) es estrictamente creciente y, por tanto, invertible,
por lo que ρ es una función tanto de P(Ypi = 1) y P(Ypj
= 1) (a través de γi y γj), así como de la probabilidad
marginal conjunta P(Ypi = 1,Ypj = 1). En otras palabras,
ρ, y por tanto σ (gracias a la igualdad (12)), representa
la dependencia que hay entre las respuestas a cualquier
par de ítems.
Teniendo en cuenta las ecuaciones (13) y (14), se
deduce que, para todo ítem i,
Es decir, lo que llamamos dificultad del ítem es
una función tanto de la dificultad empírica del ítem,
así como de la dependencia entre cualquier par de
ítems. La igualdad (16) puede interpretarse de la
siguiente manera:
a. Si la dificultad empírica del ítem i es al menos
0.5 (es decir, si al menos el 50% de los individuos
responde el ítem correctamente), entonces β
i
tiene signo
negativo. Más aún, β
i
es una función decreciente de la
dependencia entre cualquier par de ítems: más pequeña
(respectivamente, más grande) es esta dependencia,
menos negativo (más negativo) es β
i
.
b. Si la dificultad empírica del ítem i es a lo
más 0.5 (es decir, si a lo más el 50% de los individuos
responde el ítem correctamente), entonces β
i
tiene signo
positivo. Más aún, β
i
es una función creciente de la
dependencia entre cualquier par de ítemes: más pequeña
(respectivamente, más grande) es esta dependencia, más
positivo (respectivamente, menos positivo) es β
i
.
En otras palabras, para los ítemes cuya dificultad
empírica es a lo más 0.5, la escala de dificultades del
modelo Rasch es una contracción de la escala de
dificultades empíricas. Para los ítemes cuya dificultad
empírica es a lo menos 0.5, la escala de dificultades
del modelo Rasch es una extensión de la escala de
dificultades empíricas2.
Significado de habilidad individual. En relación con la
“habilidad individual” (rasgo latente), como hemos
dicho anteriormente, la práctica común consiste en
reportar como “estimador del rasgo latente” la media
condicional de la distribución condicional p|Yp =
yp). El esquema laplaciano desarrollado en la sección
sobre el Modelo de Rasch, nos permite entender
el significado de esta “estimación”: se trata de un
problema de clasificación. En efecto, una vez que se
observa un patrón de respuesta Yp, interesa saber cuál
es el grupo de habilidad más probable al que pertenece
el individuo cuyo patrón de respuesta es Yp.
Discusión final
El análisis estadístico de un conjunto de
observaciones requiere especificar el proceso generador
de dichos datos. Este proceso corresponde a lo que
hemos llamado modelo estadístico. Formalmente
hablando, el modelo estadístico corresponde a una
familia de distribuciones de probabilidad etiquetadas
por parámetros. Los parámetros tienen un significado
que debe ser derivado a partir del modelo estadístico.
El significado de los parámetros nunca es algo
nominal o impuesto.
En este trabajo hemos mostrado que el significado
de “dificultad de un ítem” y “habilidad de una
persona” es completamente diferente dependiendo de
cómo se especifica el modelo estadístico. La primera
especificación, debida al propio Rasch, y que en la jerga
estadística y econométrica se denomina modelo Rasch
efecto fijo, se caracteriza por el hecho de que todas
las respuestas de todos los individuos, además de las
respuestas de un mismo individuo, son mutuamente
independientes entre sí. En este contexto, tanto la
dificultad de un ítem, como la habilidad de una persona
βi = -Φ-1 (P(Ypi = 1))×
σ
+2
1 .
(16)
2Estas afirmaciones corrigen lo expuesto en San Martín y De Boeck
(2015, p. 7), donde no se advirtió que el signo de Φ-1 [P(Ypi = 1)]
puede ser negativo o positivo, dependiendo si P(Ypi = 1)<0.5 o
P(Ypi = 1)>0.5.
Modelos Rasch: ¿cuán (in-)coherentemente son presentados y utilizados?
Actualidades en Psicología, 29(119), 2015, 91-102
101
se pueden escribir en función de probabilidades
de respuesta correcta e incorrecta, tal y como lo
muestran las ecuaciones (3) y (4). Este resultado
depende de una restricción de identificación, a saber
que la dificultad del ítem estándar es igual a 0. Una
consecuencia importante es que, en este contexto,
se pueden comparar habilidades individuales y
dificultades de ítems. Dicha comparación se hace en
términos de probabilidades de respuesta correcta e
incorrecta; ver ecuación (5).
Resulta interesante constatar que el procedimiento
de standard setting llamado Bookmark utiliza la
representación simultánea habilidades-dificultades
para clasificar a las personas luego que un conjunto
de jueces ha establecido un puntaje de corte teniendo
en cuenta las dificultades de los ítems (Cizek, 2012).
Estrictamente hablando, este procedimiento tiene
sentido solo en la especificación de un modelo
Rasch en la cual las respuestas a los ítems no son
sólo mutuamente independientes, sino que además
no están relacionadas entre sí por medio de un rasgo
latente no observable.
La otra forma de especificar el modelo Rasch, debida
a Lord, y que en la jerga estadística y econométrica se
denomina modelo Rasch efecto aleatorio, está dentro
de una tradición completamente distinta y que, en
términos históricos, tiene su origen en Laplace y en
su concepción de probabilidades inversas. El supuesto
fundamental es que las respuestas que un individuo
da a un grupo de ítems están correlacionadas entre sí
porque cada una está relacionada con el rasgo latente
(o habilidad individual no observable). Desde esta
perspectiva, el problema psicométrico consiste en
calcular la probabilidad condicional del constructo
latente condicionalmente a las respuestas dadas por
un individuo. Cuando este problema se examina a la
luz del paradigma de Laplace, se puede afirmar que se
trata de un problema de clasificación: aquí no interesa
estimar la verdadera habilidad de una persona, sino que
interesa clasificarla en un grupo de habilidades después
que dichos grupos han sido definidos por medio de la
distribución del rasgo latente.
Esta conclusión se refrenda aún más si nos hacemos
la siguiente pregunta: si el rasgo latente es no-
observable, ¿cómo es posible tener una idea precisa
de su distribución de probabilidad? Una manera de
responder a esta pregunta es especificar un modelo
Rasch, donde la distribución del rasgo latente es
completamente desconocida y por tanto se convierte
en un parámetro de interés. Se ha demostrado que
dicha distribución no es identificada, por lo que no
tiene significado alguno; para detalles, ver San Martín,
Jara, Rolin y Mouchart (2011) y San Martín, Rolin y
Castro (2013). Por lo tanto, una manera de justificar
el procedimiento de estimación de la probabilidad
condicional de las habilidades dado los patrones de
respuesta es atendiendo al problema de clasificación.
En este contexto, las dificultades de los ítems
no tienen la misma significación que en el caso
del modelo Rasch efecto fijo. Las dificultades de
los ítems son una función tanto de la dificultad
empírica de cada ítem, así como del grado de
dependencia entre todo par de ítems. Así, la
escala de las dificultades empíricas es contraída
o extendida (dependiendo de si los ítems tienen
dificultades empíricas mayores a 0.5, o menores
a 0.5) en un factor que depende precisamente de
dicha dependencia.
La interpretación de un fenómeno observable
u observado depende completamente del modelo
estadístico propuesto o inducido. El caso de datos
educacionales no es la excepción, aunque se pone escasa
atención a la significación de los términos “dificultad”
y “habilidad”, términos que son los que precisamente
ayudan a construir el discurso sustantivo de los datos.
Este trabajo quiere enfatizar este asunto, mostrando
cómo un modelo estadístico tiene una lectura sustantiva
que puede y debe dialogar con la teoría psicológica y
educacional que hace usos de estos modelos.
Referencias
Cizek, G. (2012). Setting Performance Standards: Foundations,
Methods, and Innovations. Routledge.
Embretson, S. E. & Reise, S. P. (2000). Item Response
Theory for Psycholigists. New Jersey: Lawrence Erlbaum
Associates, Publishers.
102 San Martín
Actualidades en Psicología, 29(119), 2015, 91-102
102
Koopmans, T. J. & Reiersol, O. (1950). The
identification of structural characteristics. The
Annals of Mathematical Statistics, 21, 165-181.
Laplace, P.S. (1774). Mémoire sur la probabilité des cause
par les événements. Paris: Académie Royal des Sciences
de Paris.
Lazarsfeld, P. F. (1954). A conceptual introduction to
latent structure analysis. In: P. F. Lazarsfeld (Ed.),
Mathematical Thinking in the Social Sciences, pp. 349-
387. New York: Russell & Russell.
Lord, F. (1952). A Theory of Test Scores. Psychomettric
Monograph No. 7.
Rasch, G. (1960). Probabilistic models for some intelligence and
attainment tests. The Danish Institute for Educational
Research (Expanded Edition, 1980). Chicago: The
University Chicago Press.
San Martín, E. (2015). Identification of Item Response
Theory Models. In: R.K. Hambleton & W. van der
Linden (Eds.), Handbook of Item Response Theory:
Models, Statistical Tools, and Applications, Volumen 2,
Chapter 8. En Imprenta.
San Martín, E. & De Boeck, P. (2015). What do you
mean by a difficult item? On the interpretation of
the difficulty parameter in Rasch models. In: Roger
E. Millsap, Daniel M. Bolt, L. Andries van der Ark,
Wen-Chung Wang (Eds.), Quantitative Psychology
Research, Springer Proceedings in Mathematics &
Statistics, 89, Chapter 1.
San Martín, E., González, J. & Tuerlinckx, F. (2009).
Identified Parameters, Parameters of Interest and
Their Relationships. Measurement: Interdisciplinary
Research & Perspective, 7, 97-105.
San Martín, E., González, J. & Tuerlinckx, F. (2014).
On the unidentifiability of the fixed-effects 3PL
model. Psychometrika, 80, 450-467. DOI: 10.1007/
S11336-014-9404-2.
San Martín, E., Jara, A., Rolin, J.-M. & Mouchart,
M. (2011). On the Bayesian nonparametric
generalization of IRT-type models. Psychometrika,
76, 385-409.
San Martín, E. & Rolin, J. –M. (2007). Identifiability
and Estimability of Parametric Rasch-Type Models.
Discussion Paper 0702, Institut de Statistique,
Université catholique de Louvain, Belgium.
Disponible en http://sites.uclouvain.be/IAP-Stat-
Phase-V-VI/ISBApub/dp2007/DP0702.pdf.
San Martín, E. & Rolin, J. –M. (2013). Identification of
parametric Rasch-type models. Journal of Statistical
Planning and Inference, 143, 116-130.
San Martín, E., Rolin, J.-M. & Castro, M. (2013).
Identification of the 1PL model with guessing
parameter: parametric and semi-parametric results.
Psychometrika, 78, 341-379.
Recibido: 23 de abril de 2015
Aceptado: 18 de setiembre de 2015