Análisis de la confiabilidad de los resultados de la Prueba
de Diagnóstico Matemática en la Universidad Nacional
de Costa Rica utilizando el modelo de Rasch
Resumen. El objetivo del presente estudio es evidenciar cómo la implementación de la teoría de respuesta a los ítems, en
particular el modelo de Rasch, ha logrado mejorar los índices de confiabilidad de la prueba de diagnóstico matemático en la
Universidad Nacional de Costa Rica, pasando de un alfa de .51 en el 2010 a uno de .78 en el 2012. El análisis psicométrico
permitió brindar recomendación acerca de la construcción de la prueba que redundaron en mejores indicadores y elaboración
de ítems para medir los diferentes niveles de habilidad que es el propósito fundamental de una prueba diagnóstica.
Palabras clave. Confiabilidad, Análisis de Rasch, Matemática, Diagnóstico.
Summary. The goal of this study is to show how the implementation of the theory of item response, particularly the Rasch
model has improved the reliability indices math test diagnosis at the National University of Costa Rica, from an alpha of 0.51 in
2010 to one of 0, 78 in 2012. The psychometric analysis allowed providing recommendation regarding the construction of the
test which resulted in better indicators and preparation of items to measure the different levels of skill that is the fundamental
purpose of a diagnostic test.
Keywords. Reliability, Rasch Analysis, Mathematics, Diagnosis.
Actualidades en Psicología, 29(119), 2015, 153-165
http://revistas.ucr.ac.cr/index.php/actualidades
1José Andrey Zamora Araya. Escuela de Matemática de la Universidad Nacional de Costa Rica y Escuela de Estadística de la Universidad de
Costa Rica. Dirección Postal: 86-3000, Universidad Nacional de Costa Rica. E-mail: andreyzamora@gmail.com
José Andrey Zamora Araya1
Universidad Nacional, Costa Rica
Reliability Analysis Diagnostic Mathematics Test at
the National University of Costa Rica
ISSN 2215-3535
DOI: http://dx.doi.org/10.15517/ap.v29i119.18693
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
154 Zamora-Araya
Actualidades en Psicología, 29(119), 2015, 153-165
Introducción
La prueba de diagnóstico en matemática (PDM)
en la Universidad Nacional Autónoma de Costa
Rica (UNA), surge como una necesidad de obtener
información ante los bajos resultados obtenidos por
los y las estudiantes en los cursos introductorios de
matemática. Inicialmente la PDM se aplica a todos
aquellos y aquellas estudiantes de primer ingreso que
dentro de su plan de estudios deban llevar al menos
un curso de matemática. En particular la prueba la
realizan los y las estudiantes que cursan las carreras
de economía, ingeniería en sistemas, química,
planificación social, ingeniería en topografía y todas
aquellas carreras que tienen en su malla curricular el
curso de Matemática General. La primera aplicación,
que se tenga registro de pruebas similares en la
UNA se realizó en el año 2009 en la sede central,
no obstante, no se cuenta con ningún informe
técnico acerca de su construcción o resultados.
Posteriormente, en los años 2010, 2011 y 2012, se
aplicó la PDM también en las sedes regionales. Para
dichas pruebas se cuentan con informes que dan
detalle sobre el tipo de ítem evaluado, porcentaje
de aprobación por pregunta y algunas estadísticas
descriptivas; como lo muestra la tabla 1. La prueba
se ha seguido aplicando hasta el año 2015, sin
embargo, a partir del 2013 no se cuenta con registros
referentes al análisis psicométrico de la PDM.
Hasta el año 2011, la construcción de la prueba
se ha realizado de manera empírica, y se ha tomado
como referencia ítems de similares características a los
que presentan las pruebas nacionales de bachillerato
en las áreas de álgebra, números reales, funciones y
trigonometría; pero sin un análisis psicométrico que
permita determinar la validez y confiabilidad de sus
resultados. Por tanto, se requiere que la PDM sea
elaborada y analizada con criterios técnicos, para de
esta manera realizar un diagnóstico de fortalezas y
debilidades, en cuanto a conocimientos y habilidades
matemáticas de los y las estudiantes de primer ingreso
en la UNA.
¿La PDM aplicada en la UNA es confiable?, basados
en los resultados de la PDM, ¿es posible brindar
recomendaciones a los y las estudiantes para mejorar
su rendimiento académico en matemática?
Para responder estás preguntas, se propone utilizar los
modelos de Rasch para realizar el análisis psicométrico
de la PDM para los años 2010, 2011 y 2012. De esta
forma se pudo evaluar la confiabilidad de los ítems que
conforman la PDM y brindar recomendaciones a cerca
de los resultados obtenidos con el fin de mejorar los
indicadores de confiabilidad de la PDM en la UNA.
Pruebas de Diagnóstico
Para referirse a las pruebas de diagnóstico, es necesario
en primera instancia tratar el tema de dominio educativo.
El dominio educativo, por lo general, no se refiere a un
verdadero dominio (desempeño sobresaliente) sino a
un desempeño satisfactorio a cerca de los contenidos
propuestos (Nunnaly & Berstein, 1995). El dominio
educativo suele ser muy amplio, por lo general referido
a una materia o disciplina (Matemáticas, Lenguaje) en
función de los objetivos de un período educativo o de
las dimensiones de las mismas (Álgebra, Geometría,
Comprensión de Lectura). Además, los límites del
dominio no siempre son claros, por una parte debido
a la dificultad de la definición del dominio como tal
Tabla 1
Estadísticas descriptivas de las calificaciones obtenidas en la PDM
durante los años 2010, 2011 y 2012.
Estadístico Año 2010 Año 2011 Año 2012
Total de estudiantes 1194 1051 1279
Mínimo 5 2.5 0
Máximo 92.5 82.5 90
Rango 87.5 80 90
Media 31.7 30.7 33.94
Mediana 30 29.3 31.67
Moda 27.5 27.5 30
Desviación estándar 11.4 10.4 12.71
Percentil 25 25 23.9 25
Percentil 50 30 29.3 31.67
Percentil 75 37.5 35.6 38.33
Nota. La escala utilizada en la PDM es de 0 a 100. Fuente:
Escuela de Matemática Universidad Nacional
Análisis de la con abilidad PDM-UNA
Actualidades en Psicología, 29(119), 2015, 153-165
155
y por otra, porque las pruebas por lo general tienen
la finalidad de evaluar a una gran cantidad de sujetos
de una población provenientes de diferentes modelos
didácticos y curriculares ( Jornet & Suárez, 1996).
En Costa Rica, las pruebas de diagnóstico en el
área de matemática a nivel universitario las realizan las
principales universidades, siendo la que posee mayor
experiencia la Universidad de Costa Rica ( UCR ), que
año tras año, administra una prueba de diagnóstico de
conocimientos y destrezas en matemática, conocida
como DiMa, que es una prueba que aplica la Escuela
de Matemática de la UCR, a estudiantes de primer
ingreso, cuyo plan de estudio incluye uno de los
siguientes cursos de Matemática: MA0230, MA1001 o
MA1210, que son cursos de cálculo diferencial para las
carreras de las áreas de: economía, ciencias básicas e
ingenierías, ciencias de la salud y agroalimentarias. A
partir del 2006, también la realizaron estudiantes de las
carreras de computación, matemáticas e informática
empresarial, cuyos primeros cursos de matemática
son: MA0129, MA0150 y MA0320, respectivamente
(Jiménez, 2010).
Las estadísticas de promoción muestran que el nivel
de repitencia en estos cursos ronda el 30%. Ante este
panorama, la Escuela de Matemática crea la prueba
diagnóstico con el fin de alertar al estudiante de sus
posibles deficiencias y ofrecerle, a la vez, opciones para
remediarlas. Entre las recomendaciones se consideran
los talleres de nivelación ( se ofrecen en febrero, son
intensivos y gratuitos. Se encuentran a cargo de los
Centros de Asesoría Estudiantil, CASE ) y el curso
MA0110 Matemática Básica. El DiMA se aplica con el
objetivo de conocer el grado de dominio de los temas
de matemática con el que los y las estudiantes ingresan
a la Universidad ( UCR, 2011).
Por su parte, el Instituto Tecnológico de Costa Rica
( ITCR ) motivado por los resultados en los cursos de
Matemática General, Matemática Básica y Fundamentos
de Matemática I, donde el promedio de aprobación es
de un 44.43%, 42.44% y un 51.32% en los períodos
2003-2009, 2000 al 2009 y 2005-2009 respectivamente,
decide implementar una prueba de conocimientos en
matemática que permita obtener con certeza, la cantidad
y calidad de la información con el que ingresan los y las
estudiantes matriculados/as en los cursos de matemática.
El objetivo de la prueba es el de convertirse en un
instrumento de predicción del rendimiento académico
en los cursos de Matemática General, Matemática Básica
para Administración y Fundamentos de Matemática I
(Ramírez & Barquero, 2011).
La prueba del ITCR tiene la característica de que está
conformada por ítems de desarrollo en su totalidad y
se realiza para conocer las fortalezas y debilidades de
las y los estudiantes admitidos. La idea es prevenir
la reprobación, la repetición consecutiva de cursos,
la deserción, y por ende, incrementar los índices de
graduación; además se pretende que la información
de la prueba sea utilizada para tomar medidas a favor
de los y las estudiantes como planes o programas de
apoyo en el área psicoeducativa, cursos de nivelación,
métodos de estudios, tutorías, entre otros (Ramírez &
Barquero, 2011).
En el caso de la Universidad Estatal a Distancia
(UNED), desde el tercer cuatrimestre del año 2010
realiza exámenes diagnósticos de manera virtual,
apoyado por el proyecto Rendimiento Académico
en Matemáticas (RAMA) del Consejo Nacional de
Rectores (CONARE), con el propósito de conocer
las debilidades y fortalezas de los universitarios que
llevan alguna materia de matemáticas en sus carreras
profesionales. Por la modalidad educativa que tiene la
UNED, se decidió que los exámenes tendrían que ser
en línea, apoyados en la plataforma MOODLE. La
iniciativa está enfocada en la orientación del estudiante y
es por eso que se crearon módulos de aprendizaje. Para
ello, se diseñó el sitio web http://euclides.uned.ac.cr/
rama/ donde el universitario realiza sus pruebas previo
a la matrícula o días después de ella. Posteriormente,
de acuerdo con la evaluación, la Universidad guiará
al estudiante a mejorar su rendimiento académico,
fortaleciendo esas áreas en que mayor dificultad
presenta (Kcuno, 2010).
La Universidad Nacional a partir del año 2010 inicia
con la aplicación masiva de la PDM como resultado
de los malos resultados de los y las estudiantes en
los cursos introductorios en especial en el curso de
156 Zamora-Araya
Actualidades en Psicología, 29(119), 2015, 153-165
Matemática General, el principal curso de servicio
ofrecido por la Escuela, Entiéndase curso de servicio
aquel que brinda la Escuela de Matemática a carreras
deferentes al Bachillerato y Licenciatura en Enseñanza
de la Matemática. Al iniciar la aplicación de las pruebas
de diagnóstico, paralelamente surge la iniciativa de
realizar un análisis psicométrico apropiado para
este tipo de evaluación y particularmente en el caso
de la UNA se decide aplicar los modelos de Rasch,
perteneciente a los modelos de la teoría de respuesta
a los ítems.
Análisis de confiabilidad. La confiabilidad de una
prueba o instrumento se refiere a la consistencia de
las calificaciones obtenidas por los mismos individuos
en diferentes ocasiones o con distintos conjuntos de
reactivos equivalentes (Arginay, 2006). Para Muñiz et
al. (1997), la confiabilidad indica el grado con el que
las diferencias individuales en las calificaciones de las
pruebas, se atribuyen a errores aleatorios de la medición
y el grado con el que se asignan a diferencias reales de
las características o dominio en consideración.
También se utilizan como sinónimo de confiabilidad
el de estabilidad de la medida y el de consistencia interna.
La estabilidad de la medida tiene que ver con el hecho de
que el atributo psicológico medido con un determinado
instrumento, será confiable siempre y cuando al evaluar
a los mismos sujetos con el mismo instrumento, las
medidas obtenidas en la segunda aplicación sean
muy parecidas a las primeras, es decir, son estables a
través del tiempo, lo que significa que los errores de
medición son mínimos y en consecuencia se tendría
una razonable medida de confiabilidad, atribuyéndose
las diferencias encontradas entre una medición y otra a
los errores aleatorios asociados al proceso de medición
y no al instrumento (Muñiz, 1992).
La consistencia interna de un instrumento se refiere
al hecho de que los reactivos que lo constituyen son
consistentes entre sí, es decir, midan lo mismo o evalúen
el mismo atributo psicológico propuesto. Esto significa
que los sujetos de manera individual puntearán alto en
aquellos reactivos que tienden a medir dicho atributo y
puntearán bajo en aquellos que no lo miden, siendo así
consistentes los reactivos entre sí en la evaluación del
atributo por evaluar (Aragón, 2004).
Una de las formas de aproximarse a la confiabilidad,
en la teoría clásica de los test, es por medio del llamado
coeficiente alfa propuesto por Cronbach en 1951, que
es un índice usado para medir la consistencia interna de
una escala, es decir, evalúa la magnitud en que los ítems
de un instrumento están correlacionados. También se
puede interpretar este coeficiente como la medida en
la cual un constructo o rasgo latente está presente en
cada ítem (Celina & Campo, 2005).
En este estudio se ha decidido adoptar los modelos
de Rasch, perteneciente a los modelos de la teoría de
respuesta a los ítems (TRI), para evaluar el grado de
confiabilidad de la PDM aplicada en la UNA.
Confiabilidad desde la teoría de respuesta a los ítems
La TRI constituye un enfoque para la medición
psicológica y educativa que ha dado lugar a
un significativo avance en la tecnología para la
construcción y análisis de los test. Como parte de sus
características y conceptos se pueden citar las funciones
de información de los ítems y del test, errores típicos de
medida distintos para cada nivel de la variable medida
o el establecimiento de bancos de ítem con parámetros
estrictamente definidos. Una de las grandes ventajas
es que estos últimos posibilitan la construcción de
test adaptados al nivel del examinado, permitiendo así
exploraciones exhaustivas y rigurosas en función de las
características de los sujetos. Un modelo TRI, se puede
definir como:
Un modelo TRI es una conceptualización, que
partiendo de ciertos conceptos básicos de medición
y usando las herramientas de la estadística y la
matemática, busca encontrar un descripción teórica
para explicar el comportamiento de datos empíricos
derivados de la aplicación de un instrumento
psicométrico. Los parámetros estimados por el
modelo permiten entonces evaluar la calidad
técnica de cada uno de los ítems por separado y
del instrumento como un todo y a la vez estimar el
nivel que cada examinado presenta en el constructo
(o habilidad) de interés. En un modelo de TRI se
asume que hay una variable latente o constructo θ,
no observable directamente y que se desea estimar
Análisis de la con abilidad PDM-UNA
Actualidades en Psicología, 29(119), 2015, 153-165
157
para cada examinado a partir de las respuestas
suministradas por este en el instrumento de
medición. Además, se asume que para cada ítem o
pregunta el comportamiento de las respuestas dadas
por los examinados puede ser modelado mediante
una función matemática que se denomina curva
característica del ítem o CCI. Otros conceptos
fundamentales en TRI son la función de información
del test y el error estándar de medición (Montero,
2000, p. 220).
Uno de los supuestos de los modelos TRI formula
la existencia de una relación funcional entre los valores
de la variable que miden los ítems y la probabilidad
de dar una respuesta correcta, dicha función se conoce
como Curva Característica del Ítem (CCI). La variable
por medir suele ser un rasgo que no es directamente
observable, como puede ser el nivel de habilidad o
aptitud. En los modelos más simples de la TRI este
rasgo latente se considera unidimensional, es decir,
se representa como una variable que toma valores
en la recta real, los cuales determinan totalmente
la probabilidad de elegir cada una de las posibles
respuestas para el ítem. Por ejemplo, para un ítem
que mide algún tipo de habilidad, la probabilidad de
respuesta correcta de dos sujetos será la misma si y solo
si dichos sujetos son igualmente hábiles (Nunnally &
Bernstein, 1995).
Existen varios modelos para medir un rasgo latente,
que se fundamentan en la TRI como son: El modelo
logístico de un parámetro (conocido como Modelo de
Rasch), el modelo de dos parámetros y el modelo de tres
parámetros. Cada uno de ellos tiene sus características,
ventajas y desventajas. Por su simplicidad y aplicabilidad
en el ámbito educativo para la elaboración de los análisis
del estudio se elige trabajar con el modelo de Rasch.
Modelo de Rasch
El modelo de Rasch, fue propuesto por el
matemático Georg Rasch y es solamente uno de una
familia completa de modelos descrita por Rasch en su
texto de 1960. El modelo de medida permite solventar
muchas de las deficiencias de la teoría clásica de los test
(TCT) y construir pruebas más adecuadas y eficientes,
por lo que es muy apropiado su uso en el ámbito de la
evaluación psicológica y educativa. El modelo es una
formulación matemática que enlaza la probabilidad del
resultado a las características de la persona y el ítem,
cuando un solo individuo intenta resolver un ítem.
Rasch es uno de los modelos de la familia de rasgo
latente para la medición de logro y se puede decir que
es uno de los más simples de esta familia (Choppin,
1983). Puede ser escrito de la siguiente forma:

1V
vi
vi
PX b
 (1)
Donde:
P(Xv i = 1) es la probabilidad de que la persona v
responda correctamente al ítem i, y el valor sería cero
en cualquier otro caso
θv: Es un parámetro que describe la habilidad de la
persona v
bi: Es un parámetro que describe la dificultad del
ítem i.
Según Wright y Stone (1998) en esta formulación θ y
b pueden variar de cero a más infinito, pero usualmente
se realiza una transformación para simplificar el análisis
matemático de la función. En la transformación
más usada se hace un ajuste con la constante e, que
es la base de los logaritmos naturales (e =2.72) y en
su formulación más conocida el modelo describe la
predicción de la probabilidad de una respuesta al ítem
(resolverlo correctamente, estar de acuerdo, etc.) a
partir de la diferencia en el atributo entre el nivel de la
persona (θv) y el nivel del ítem (bi), cuya representación
matemática está dada por la fórmula:



vi
vi
b
vi b
e
P
1 e
(2)
Donde θ y b pueden tomar cualquier valor real y la
medición de la habilidad de la persona y la dificultad del
ítem están en la misma escala llamada logit. La expresión
(θv - bi) indica el resultado probable de la interacción
persona – ítem. Precisamente son estas características
158 Zamora-Araya
Actualidades en Psicología, 29(119), 2015, 153-165
las que hacen del modelo de Rasch una metodología de
análisis para ítems de pruebas educativas muy valiosa
y relativamente fácil de interpretar en los contextos
escolares, razón por la cual se adoptó para fines de la
presente investigación.
Método
Participantes
Los participantes del estudio son aquellos y aquellas
estudiantes de nuevo ingreso a la UNA que realizaron
la PDM durante los años 2010, 2011 y 2012 que
fueron un total de 1194, 1050 y 1279 respectivamente.
Las bases de datos fueron suministradas por el
departamento de registro de la UNA, sin embargo,
a excepción de la información referente a 2010; los
archivos sólo contienen la boleta de identificación y
las respuestas de los y las estudiantes a los reactivos,
por lo que no se cuenta con información referente a
otras variables como sexo, zona de residencia o colegio
de procedencia. Los datos referentes al año 2010 se
presentan en la tabla 2, cabe resaltar que el total de
estudiantes que aplicaron la prueba ese año fue de
1194, pero la información relacionada con las variables
sociodemográficas de 51 de ellos no se encontraban en
la base de datos.
Instrumentos
El instrumento aplicado fue la PDM para los años
en análisis. Dicha prueba es elaborada por la Escuela de
Matemática de la UNA y consta de preguntas relativas
a contenidos abarcados en la educación secundaria
en los tópicos de aritmética, números reales, álgebra,
funciones y trigonometría. La PDM se construye con
el propósito de obtener información acerca del nivel de
habilidades y conocimientos matemáticos que posee el
estudiante de nuevo ingreso a la UNA.
Cabe resaltar está es la primera experiencia que tiene
la Escuela de Matemática de la UNA en la elaboración
de pruebas diagnósticas y por tanto no se contaba con
ningún banco de ítems que ayudara a la elaboración de
la PDM y tampoco se contó con una aplicación piloto.
Para el ensamblaje de la prueba solo se tomaron como
criterios que el ítem fuera de una redacción similar a
la de una prueba de bachillerato y que abarcaran los
contenidos de números reales, aritmética, álgebra,
funciones y trigonometría, luego los miembros de la
comisión resuelven y discuten los ítems para su posible
incorporación a la prueba.
Una comisión de académicos quienes redactan y
revisan los ítems de la prueba son los encargados de
llevar a cabo el proceso de elaboración y aplicación
de las pruebas en colaboración con el proyecto éxito
académico. La PDM se aplica a inicios del mes de
febrero de cada año, una vez que se ha culminado con
el proceso de matrícula de los y las estudiantes de nuevo
ingreso y en coordinación con el departamento de
orientación y el proyecto éxito académico se convoca a
la población estudiantil para la aplicación de la prueba.
Procedimientos y estrategia de análisis
Se verificaran los principales supuestos del análisis
Tabla 2
Principales variables sociodemográficas de los y las estudiantes de
primer ingreso que efectuaron la PDM en la UNA para el año
2010.
Variables
Sexo
Hombre 605 52.9%
Mujer 538 47.1%
Total 1143 100.0%
Zona
Urbano 730 63.9%
Rural 413 36.1%
Total 1143 100.0%
Colegio de
procedencia
Público 929 81.4%
Privado 156 13.7%
Subvencionado 56 4.9%
Sin ubicar 2 0.17%
Total 1143 100.0%
Análisis de la con abilidad PDM-UNA
Actualidades en Psicología, 29(119), 2015, 153-165
159
de Rasch como lo son la independencia local de los
ítems y la unidimensionalidad de la prueba. En el caso
del primero supuesto, los ítems fueron construidos de
manera tal que no tuvieran dependencia entre sí y se
aplicaron protocolos de cuido de exámenes a la hora
de aplicar la prueba para minimizar la posibilidad de
copia entre los y las estudiantes. Estos protocolos se
estandarizaron para aplicarlos en todas las sedes de la
UNA donde se realiza la PDM.
En el caso de la unidimensionalidad de la prueba
se aplicó un análisis de componentes principales para
determinar el porcentaje de varianza total explicada
por el primer componente y de esta manera tener
una medida relacionada con la unidimensionalidad
de los datos. No obstante, como lo señala Muñiz
(1997) la unidimensionalidad perfecta es rara y “la
unidimensionalidad se convierte en una cuestión de
grado, cuanta más varianza explique el primer factor
más unidimensionalidad existirá” (p.26).
Por otra parte, los estadísticos de ajuste para la
calibración de ítems más usados en el modelo de
Rasch son los valores MNSQ de INFIT y OUTFIT.
El INFIT MNSQ es un estadístico de ajuste calculado
a partir de las medias cuadráticas sin estandarizar, cuyo
valor esperado es 1. De acuerdo con Smith, Schumaker
y Bush, 1995 (como se citó en Prieto & Delgado, 2003)
se considera que los valores superiores a 1,3 o inferiores
a 0,7 indican desajuste en muestras con menos de 500
casos, 1,2 en muestras de tamaño medio (entre 500 y
1000 casos) y 1,1 en muestras con más de 1000 casos
para tipos de pruebas de escogencia única.
El estadístico OUTFIT es el promedio de los
residuales estandarizados derivados tanto de los
examinados como de los ítems. Su valor se interpreta
como una media cuadrática no ponderada sensible
a los comportamientos extremos no esperados en
los patrones de respuesta. Este estadístico de ajuste
es sensible a valores extremos y a comportamientos
no esperados que afectan respuestas a ítems que se
encuentran lejos del nivel de habilidad del sustentante.
Debe notarse que ambos INFIT y OUTFIT se
obtienen de la suma de cuadrados de la diferencia
entre la expectativa del modelo y los residuales (o
diferencias observadas) para cada ítem y para cada
examinado (Bond & Fox, 2001). El valor esperado de
estos estadísticos es 1 y se considera que los valores
superiores a 1.5 para personas y superiores a 1.3 para
ítems indican un desajuste moderadamente alto (Wright
& Linacre, 1998 citado en Prieto et al., 2007). Por su
parte, el OUTFIT es un indicador muy sensible a los
valores extremos (basta una respuesta muy inesperada
para que adopte un valor muy elevado), en cambio el
INFIT es más robusto: los valores altos se deben a
patrones de respuesta aberrantes, por ello en el análisis
se usará el criterio de INFIT mayor a 1.3 tanto para
ítems y 1.5 para personas. (Wright y Linacre, 1998
citado en Prieto et al., 2007).
Un valor MNSQ de 1 + x explica 100 x % más
variación entre los datos observados y los patrones
de respuesta esperados si el modelo y los datos
observados fueran compatibles. Por lo tanto, valores
superiores a 1.30 indican 30% más de variación entre
lo que el modelo predice y los patrones de respuesta
observados de hecho, por ello no se recomiendan
valores superiores a 1.3. Igualmente valores menores
a 1.00, como pueden ser 0.80 indican 20% menos de
variación que la esperada bajo el modelo. (Bond &
Fox, 2001).
Resultados
Para la verificación del supuesto de
unidimensionalidad se ejecutó un análisis de
componentes principales a los tres conjuntos de datos
PDM 2010, PDM 2011 y PDM 2012 y los porcentajes
de varianza explicada para el primer factor fueron
respectivamente 7.41% ; 7.9% y 9.4%. A pesar de que
dichos valores son relativamente bajos, como lo señala
Muñiz (1997) la unidimensionalidad es una cuestión de
grado, por lo que no podemos descartar la presencia de
unidimensionalidad en la prueba.
La figura 1 presenta el gráfico de sedimentación para
la PDM de 2010. Entre los criterios para determinar
el número de factores se encuentra el Catell, (como se
citó en Cea D’Ancona, 2002) sugiere que se consideren
todos aquellos factores situados antes del punto en el
160 Zamora-Araya
Actualidades en Psicología, 29(119), 2015, 153-165
que se presenta un cambio importante en la trayectoria
de caída de la pendiente, en este caso, el gráfico sugiere
la existencia de un componente predominante que
agrupa los ítems, aunque no permite garantizar la
unidimensionalidad de la prueba.
En cuanto al análisis de los estadísticos de ajuste
tanto para el caso de los ítems como para el de personas
los valores de INFIT y OUTFIT se encuentran dentro
de los valores considerados aceptables, por lo que no
existe necesidad de eliminar reactivos o sujetos, como
puede apreciarse en las tablas 3 y 4.
Como se mencionó anteriormente, aunque se
Figura 1. Grá co de sedimentación para la PDM 2010
Tabla 3
UNA: Valores de INFIT y OUTFIT para ítems de la PDM período 2010-2012.
Año
INFIT ítems
2010
Número
de ítems
Porcentaje
2011
Número
de ítems
Porcentaje
2012
Número
de ítems
Porcentaje
Menores a 0.70 0 0.0% 0 0.0% 0 0.0%
Entre 0.70 y 0.90 0 0.0% 1 2.5% 6 10.0%
Entre 0.9 y 0.99 19 47.5% 18 45.0% 23 38.3%
Entre 1 y 1.3 21 52.5% 21 52.5% 31 51.7%
Total 40 100.0% 40 100.0% 60 100.0%
OUTFIT ítems
Menores a 0.70 0 0.0% 0 0.0% 0 0.0%
Entre 0.70 y 0.90 1 2.5% 3 7.5% 7 11.7%
Entre 0.9 y 0.99 16 40.0% 18 45.0% 21 35.0%
Entre 1 y 1.3 23 57.5% 19 47.5% 32 53.3%
Total 40 100.0% 40 100.0% 60 100.0%
Autovalor
Número de componente
Análisis de la con abilidad PDM-UNA
Actualidades en Psicología, 29(119), 2015, 153-165
161
presentan los estadísticos de ajuste INFIT y OUTFIT
se tomará como referencia los valores de INFIT. En
todos los períodos analizados los valores presentan una
magnitud apropiada y no superan el valor de 1.3 para el
caso de los ítems y de 1.5 para el caso de las personas.
En cuanto a los índices de confiabilidad, para el caso de los
reactivos se ha mantenido constante a lo largo del período
de análisis (0.99) evidenciando una gran consistencia en las
estimaciones del parámetro de dificultad. Contrariamente,
en el caso de la confiabilidad de las personas el índice
presenta un comportamiento irregular con valores bajos
para los años 2010 y 2011, teniendo un repunte para el año
2012 como se muestra en la tabla 5.
Es necesario recordar que para la aplicación de las
primeras pruebas 2010 y 2011 la Escuela de Matemática
de la UNA no contaba con una metodología de análisis
para la PDM, pues fue precisamente en el año 2011
donde se inició con el análisis psicométrico de Rasch
para las pruebas ya aplicadas. Como resultado de los
análisis para estos dos primeros años se brindaron
recomendaciones como aumentar la cantidad de ítems
y de esta forma incluir reactivos de temáticas más afines
a los temas evaluados en la educación secundaria como
lo son preguntas referidas a la aritmética. Este cambio
también se vio motivado, pues al analizar la PDM 2010
y la PDM 2011 se observa que el grado de dificultad
de la prueba es muy alto para el nivel de habilidad que
poseen los sujetos.
Por ejemplo, para el caso de la PDM 2010 se puede
observar en la figura 2 como el nivel promedio de
habilidad de los y las estudiantes está a poco menos
de dos desviaciones estándar del nivel de dificultad
Tabla 4
UNA: Valores de INFIT y OUTFIT para personas de la PDM período 2010-2012.
Año 2010
Número de
personas
Porcentaje
2011
Número de
personas
Porcentaje
2012
Número de
personas
Porcentaje
INFIT personas 0 0.0% 0 0,0% 0 0,0%
Menores a 0.70 0 0.0% 0 0.0% 0 0.0%
Entre 0.70 y 0.90 205 17.2% 195 18.6% 125 9.8%
Entre 0.9 y 0.99 415 34.8% 347 33.0% 524 41.0%
Entre 1 y 1.5 574 48.1% 509 48.4% 630 49.3%
Total 1194 100.0% 1051 100.0% 1279 100.0%
OUTFIT personas
Menores a 0.70 21 1.7% 12 1.1% 2 0.1%
Entre 0.70 y 0.90 291 24.4% 294 28.0% 320 25.1%
Entre 0.9 y 0.99 311 26.0% 275 26.2% 406 31.7%
Entre 1 y 1.5 559 46.8% 455 43.3% 532 41.6%
más de 1.5 12 1.0% 15 1.4% 19 1.5%
Total 1194 100.0% 1051 100.0% 1279 100.0%
Tabla 5
UNA: Valores de los índices de confiabilidad para la PDM período
2010-2012, según los resultados arrojados por el modelo de Rasch.
Índice
Año
2010 2011 2012
Confiabilidad
Personas
0.51 0.61 0.78
Confiabilidad ítems 0.99 0.99 0.99
162 Zamora-Araya
Actualidades en Psicología, 29(119), 2015, 153-165
promedio de la prueba y para la PDM 2011 la diferencia
es cercana 1.5 desviaciones estándar como se puede
apreciar en la figura 3. El alto nivel de dificultad en
comparación con el nivel de habilidad podría explicar
en parte, el bajo nivel de confiabilidad que arrojan las
pruebas para los años 2010 y 2012, pues no existen
suficientes ítems para evaluar con exactitud los niveles
bajos de habilidad.
Por ejemplo en la figura 2 se puede apreciar que
los ítems con mayor probabilidad de ser contestados
correctamente por la población que realizó la prueba
son el R14 y R8 y R15, en contrasta los que tienen
menor probabilidad de contestarse correctamente son
el R4, R12 y R33. La mayoría de las personas presentan
niveles de habilidad menores en comparación con el
nivel de dificultad de los ítems (en los mapas de las
figuras 2 y 3 el símbolo # representa una cantidad de
10 personas y el • un conjunto de personas entre 1 y 9).
Algo similar ocurre en la figura 3 donde los ítems con
menor probabilidad de acierto son I6, I20 y I21 y los que
poseen mayor probabilidad de ser acertados son el I24,
I1 y I16. Para ambos años, los ítems que presentaron
mayores problemas en su resolución se asocian a las
áreas de trigonometría y funciones, en contraste, ítems
referentes a números reales y ecuaciones algebraicas
fueron los que presentaron mayores niveles de acierto.
Nótese como tanto en la figura 2 como en la 3,
existen muchos individuos en niveles bajos de la escala,
pero pocos ítems que permitan evaluar su desempeño,
contrariamente, en la parte alta de la escala existen
muchos ítems, pero pocas personas con una alta
probabilidad de contestarlos correctamente.
Por ello, una de las principales recomendaciones
para la PDM 2012 fue la inclusión de más ítems que
permitieran medir con mayor precisión los niveles bajos
de habilidad lo que significó un aumento en el número
Figura 2. Mapa de personas versus ítems para la PDM 2010 Figura 3. Mapa de personas versus ítems para la PDM 2011
Análisis de la con abilidad PDM-UNA
Actualidades en Psicología, 29(119), 2015, 153-165
163
de preguntas con respecto a las versiones anteriores
de la prueba. Como se muestra en la tabla 5, dicha
sugerencia permitió elevar el nivel de confiabilidad
de las personas a un valor cercano al 80%, lo cual es
deseable si los resultados de la PDM se toman como
base para la toma de decisiones tendientes a mejorar
el rendimiento académico de los y las estudiantes de
primer ingreso.
Discusión
El modelo de Rasch, en el caso de la PDM de la
UNA, ha mostrado ser una herramienta útil en el
análisis de las propiedades psicométricas de los ítems
que la componen. Iniciando con los supuestos básicos
del modelo como lo son la unidimensionalidad de la
prueba y la independencia local de los ítems, ambos
se cumplen satisfactoriamente, a pesar del relativo bajo
porcentaje de varianza explicada, la unidimensionalidad
es cuestión de grado, por lo que el porcentaje no
necesariamente indica ausencia de unidimensionalidad
(Muñiz, 1997).
A pesar de lo anterior, al aplicar el modelo de Rasch
se muestra un buen ajuste de los datos al modelo, pues
tanto los ítems como los sujetos mostraron valores
dentro de los rangos esperables en el INFIT para
todos los años. En cuanto a los índices de confiabilidad
arrojados por el modelo, la confiabilidad de los ítems
fue alta 0.99 en todos los casos; no obstante, el índice
para el caso de las personas fue muy bajo al inicio (0.51
en el 2010), pero conforme se fueron tomando en
cuenta las recomendaciones sugeridas por el análisis de
la información como elaborar más reactivos tendientes
a medir niveles de habilidad más bajos el índice de
confiabilidad mejoró notablemente hasta alcanzar un
valor de 0.78 para el año 2012.
Precisamente los resultados de las pruebas del 2010
y 2011, en particular la del 2010, evidenciaron que los
inconvenientes de la PDM no se debían a la elaboración
de los ítems, sino, por una parte al nivel de dificultad de
dicha prueba que resultó muy elevado para la población
estudiantil que responde la prueba y por otra a la baja
confiabilidad de la prueba. Una posible explicación
para los bajos niveles de confiabilidad de los primeros
años es la falta de preguntas que permitieran medir con
mayor grado de exactitud los niveles de habilidad bajos,
donde se encuentra buena parte del estudiantado que
rinde la prueba, contrario a los reactivos que miden
niveles altos de la prueba que son más abundantes,
pero donde muy pocos estudiantes se ubican.
Ahora bien, en una prueba de diagnóstico lo
ideal es contar con ítems en todos los niveles de la
habilidad, para poder tener una precisión adecuada
en niveles bajos, intermedios y altos del constructo y
de esta manera medir con mayor certeza el nivel de
conocimiento matemático de los estudiantes, para
posteriormente brindar recomendaciones.
El modelo de Rasch resulta de gran utilidad a
este propósito al poder situar en una misma escala
el nivel de habilidad de las personas y el nivel de
dificultad de los ítems, permite realizar este tipo
de comparaciones. Gracias a ello se propuso a la
comisión que elabora la PDM la inclusión de más
ítems que midieran niveles bajos de habilidad y la
implementación de este tipo de medidas dio como
resultado mejores indicadores de confiabilidad.
Por otra parte, el hecho de contar con ítems
concentrados en niveles altos de habilidad, permitió
determinar aquellas temáticas que presetan una mayor
dificultad para los y las estudiantes, además de brindar
una idea de cuáles serían los tópicos más apropiados
para incluir los reactivos necesarios para medir los
niveles bajos. Es así que se tomó la decisión, a partir
de la prueba del 2012 de aumentar el número de
ítems de 40 a 60 e incorporar preguntas relacionadas
con aritmética más propias de niveles como sétimo
y octavo año de secundaria, pues tradicionalmente la
comisión prestaba más atención a la elaboración de
preguntas similares a las pruebas de bachillerato cuyos
contenidos se abarcan en los niveles superiores del
colegio, principalmente décimo y undécimo año.
Hasta el momento y pese a los esfuerzos realizados
por las autoridades de la Escuela de Matemática, la
PDM no se ha utilizado como criterio sustantivo para
tomar decisiones respecto del rendimiento académico
de los y las estudiantes; sin embargo, se pretende que la
164 Zamora-Araya
Actualidades en Psicología, 29(119), 2015, 153-165
prueba sea un parámetro para brindar recomendaciones
en cuanto a la necesidad de asistencia a tutorías, talleres,
grupos de estudio y cursos de reforzamiento para la
población estudiantil que evidencie un bajo nivel de
conocimientos matemáticos y para aquellos y aquellas
que muestren un alto desempeño en la prueba, la
posibilidad de rendir pruebas de suficiencia.
Otro posible uso es la construcción de una escala de
niveles de desempeño, en la que puedan identificarse
para cada nivel las áreas de conocimiento que muestran
un bajo dominio y a partir de esa información brindar
ayuda al estudiantado en las áreas que más lo requieran.
Finalmente, aunque son muchos los factores que
intervienen en la debida construcción de una prueba
diagnóstica más allá del cuidado en la selección
y redacción de los reactivos que la componen, la
oportunidad de contar con metodologías apropiadas
para el análisis de la información de pruebas como lo
es el modelo de Rasch o los modelos de dos o tres
parámetros, donde además de la dificultad de los ítems
se incorporan el parámetro de discriminación y acierto
al azar, respectivamente. No obstante, el modelo de
Rasch tiene la ventaja que es más fácil de interpretar
y permite mejorar con el paso del tiempo la calidad
técnica de las pruebas en beneficio de la UNA y del
estudiantado en general.
Referencias
Aragón, L.E. Fundamentos psicométricos en la
evaluación psicológica. Revista Electrónica de Psicología
Iztacala, 7(4), 23-43. Recuperado de http://www.
ojs.unam.mx/index.php/repi/article/view/21668
Arginay, J. C. (2006). Técnicas psicométricas.
Cuestiones de validez y confiabilidad. Subjetividad y
Procesos Cognitivos, 8. Recuperado de http://dspace.
uces.edu.ar:8180/dspace/handle/123456789/765
Bond, T:G., & Fox, C.M. (2001). Applying the Rasch model:
Fundamental measurement in the human sciences. New Jersey,
USA: Lawrence Erlbaum Associates, Publisher.
Cea D. Ancona, M. (2002). Análisis multivariable. Madrid:
Editorial Síntesis, S.A.
Celina, H., & Campo, A. (2005). Aproximación al uso
del coeficiente alfa de Cronbach. Revista colombiana
de psiquiatría, 34(4). Recuperado de http://redalyc.
uaemex.mx/pdf/806/80634409.pdf
Choppin, B. (1983). The Rasch model for item analysis.
Recuperado de http://www.cse.ucla.edu/products/
reports/r219.pdf
Jiménez, K. (2010). Validación de la prueba de diagnóstico
de conocimientos y destrezas en matemáticas del estudiante al
ingresar a la universidad de la escuela de matemática de la
UCR. Tesis de maestría en Estadística, Universidad
de Costa Rica.
Jornet, J.M., & Suárez, J.M. (1996). Pruebas
estandarizadas y evaluación del rendimiento: Usos
y características métricas. Revista de Investigación
Educativa, 14(2), 141-163. Recuperado de http://
www.uv.es/gem/archivos/RIE14.PDF
Kcuno, R. (2010). Examen de diagnóstico en matemática
pretende mejorar rendimiento académico. Acontecer.
Recuperado de http://web.uned.ac.cr/acontecer/
index.php/a-diario/tecnologia/104-examen-
diagnostico-de-matematicas-pretendemejorar-
rendimiento-academico.html.
Montero, E. (2000). La teoría de respuesta a los ítems:
una moderna alternativa para el análisis psicométrico
de instrumentos de medición. Revista de Matemática:
Teoría y Aplicaciones, 7(1-2). Recuperado de http://
revista.emate.ucr.ac.cr/index.php/revista/article/
viewFile/101/92
Muñiz, J., Paz, M.D., Prieto,G., Delgado, A., Barbero,
M., Arce, C.,…, Maydeu, A.(1997). Psicometrí a.
Madrid, Españ a: Universitas.
Muñiz, J., & Hambleton, R. (1992). Medio siglo
de teoría de respuesta a los ítems. Anuario de
Psicología, 52. 41-66. Recuperado de http://www.
raco.cat/index.php/AnuarioPsicologia/article/
view/64681/88708
Nunnally, J., & Bernstein, I. (1995). Teoría psicométrica.
México, D.F: McGraW-Hill.
Prieto G., & Delgado A. R. (2003). Análisis de un test
Análisis de la con abilidad PDM-UNA
Actualidades en Psicología, 29(119), 2015, 153-165
165
mediante el modelo de Rasch. Psicothema, 15(1). 94-
100. Recuperado de http://www.psicothema.com/
pdf/1029.pdf
Prieto, G., Velasco, A.D., Arias, R., Anido, M., Nuñez,
A. N., & Có, P. (2007). Análisis de la dificultad de
un banco de ítems de visualización espacial. Ciencias
Psicológicas, 1(1), 71-79. Recuperado de http://pepsic.
bvsalud.org/pdf/cpsi/v1n1/v1n1a07.pdf
Ramírez, G., & Barquero, J.A. (2011). Análisis de
las pruebas de diagnóstico en matemática del
instituto tecnológico de Costa Rica. Revista
digital Matemática, Educación e Internet, 11(2), 1-10
Recuperado de http://www.tec-digital.itcr.ac.cr/
revistamatematica/ARTICULOS_V11_N2_2011/
GRAMIREZJBARQUERO_V11N2_2011/GR_
JB__V11N2_2011.pdf
Universidad de Costa Rica (2011). Examen de diagnóstico.
Recuperado de http://diagnostico.emate.ucr.ac.cr
Wright, B.D., & Stone, M.H. (1998). Diseño de mejores pruebas
utilizando la técnica de Rasch. México: CENEVAL.
Recibido: 20 de mayo de 2015
Aceptado: 16 de setiembre de 2015