Invarianza por Sexo en la Escala de Detección del
Trastorno de Ansiedad Generalizada (EDTAG)
Resumen. En el presente trabajo se muestra la forma en la que se evalúa la invarianza utilizando los modelos de
análisis factorial confirmatorio para medias y covarianzas (AFC-MACS) para datos categóricos y los modelos de Teoría de
Respuesta al Ítem (TRI). Se ejemplifica el análisis de la invarianza en el estudio de la Escala de Detección del Trastorno de
Ansiedad Generalizada (EDTAG) comparando hombres y mujeres. La EDTAG es una escala ampliamente utilizada en
las instituciones de salud y por sus características (escala breve de 12 ítems dicotómicos) cualquier error de medida puede
tener un impacto importante. En los resultados se muestra que la escala tiene la misma configuración, sin embargo, el ítem 9
muestra funcionamiento diferencial siendo los hombres quienes mayor probabilidad tienen de responder de manera afirmativa
comparado con mujeres del mismo nivel de rasgo. Se discute la necesidad de éste tipo de análisis en las escalas.
Palabras clave. Invarianza, Análisis Factorial Confirmatorio, Teoría de la Respuesta al ítem, Funcionamiento Diferencial
del ítem, Trastorno de ansiedad generalizada.
Abstract. The present paper shows how to evaluated invariance using confirmatory factor analysis models for means and
covariances (CFA-MACS) for categorical data and models of Item Response Theory (IRT). Invariance analysis in the study of
Detection Scale Generalized Anxiety Disorder comparing men and women is exemplified. The scale is widely used in health
institutions and by its nature (a brief scale of 12 dichotomous items) any measurement error can have a major impact. Results
have shown that the scale has the same configuration, but the item 9 shows differential item functioning, being males more
likely to respond affirmatively compared to women in the same trait level. The need for this type of analysis on the scales is
discussed.
Keywords. Invariance, Confirmatory Factor Analysis, Item Response Theory, Differential Item Functioning, Generalized
Anxiety Disorder.
Actualidades en Psicología, 29(119), 2015, 141-151
http://revistas.ucr.ac.cr/index.php/actualidades
1Fabiola Gonzalez-Betanzos. Departamento Metodología y Psicometría, Universidad Michoacana de San Nicolás de Hidalgo, Mé-
xico. Dirección Postal: Universidad Michoacana de San Nicolás de Hidalgo. Gral. Francisco Villa #450. Edificio A, México. Email:
fabiolagonzalezbetanzos@hotmail.com
2María Elena Rivera-Heredia. Facultad de Psicología, Universidad Michoacana de San Nicolás de Hidalgo, México. Email:
maelenarivera@gmail.com
3Ferrán Padrós-Blázquez. Facultad de Psicología, Universidad Michoacana de San Nicolás de Hidalgo, México. Email: fpadros@uoc.com
Fabiola Gonzalez-Betanzos1
María Elena Rivera-Heredia2
Ferrán Padrós-Blázquez3
Universidad Michoacana de San Nicolás de Hidalgo, México
Gender Invariance of the Screening Scale for
Generalized Anxiety Disorder (EDTAG)
ISSN 2215-3535
DOI: http://dx.doi.org/10.15517/ap.v29i119.18774
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
142 González-Betanzos, Rivera-Heredia y Padrós-Blázquez
Actualidades en Psicología, 29(119), 2015, 141-151
Introducción
Los resultados de la evaluación a través de los
test pueden tener consecuencias adversas en la vida
cotidiana de las personas. Basta pensar en un contexto
clínico en el que una persona puede recibir tratamiento
de una institución de salud en base a los resultados
de una prueba. Estas circunstancias comprometen
a los científicos a realizar estudios que garanticen la
equidad en la medición y la validez de las inferencias
que se hacen a partir de las puntuaciones en los test
(Borsboom, Romeijn & Wicherts, 2008). Es difícil
defender un test que resulte sesgado contra un grupo
en función de su sexo, etnia, cultura u otra característica
sociodemográfica. El término sesgado, en este
contexto, implica que las puntuaciones tienen distinto
significado para miembros de diferentes grupos. Así,
en su desarrollo, los test deben pasar por procesos de
análisis del sesgo para evitar la discriminación a las
minorías étnicas (afroamericanos, hispanos, asiáticos)
o entre sexos, por poner un ejemplo (González-
Betanzos, 2011).
Una aproximación básica al estudio del sesgo
es el estudio de la invarianza en la medida, la falta
de invarianza se produce cuando el ítem (o el test)
tiende a proporcionar puntuaciones distintas para
personas que pertenecen a diferentes grupos y que,
sin embargo, tienen el mismo nivel de rasgo (Shealy
& Stout, 1993; Fidalgo, 1996). El término impacto
se reserva para las diferencias reales entre los grupos
(Camilli & Shepard, 1994).
En el presente trabajo esta propuesta teórica se aplica al
problema psicométrico de análisis de la Escala de Detección
del Trastorno de Ansiedad Generalizada –EDTAG (Carroll
& Davidson, 2000). Este instrumento se ha propuesto
como una prueba de cribado, una determinada puntuación
en la EDTAG es uno de los criterios para determinar
que la persona padece el trastorno, esta puntuación se ha
determinado sin atender al sexo. Al mismo tiempo, se han
encontrado puntuaciones mayores en las mujeres que en
los hombres en dicho test. Por ello, el objetivo del presente
trabajo es identificar si existe invarianza en la medida y/o
si las diferencias entre hombres y mujeres son reales (i.e.
existe impacto).
La EDTAG es un instrumento corto conformado
por 12 ítems dicotómicos que detecta la presencia o
ausencia de sintomatología del trastorno de ansiedad
generalizado (TAG) según se observa en el DSM-IV.
El instrumento se divide en 4 criterios: el criterio A
que se refiere a la expectación aprensiva (ítems 1 y 2), el
criterio B a la falta de control en la preocupación (ítems
1 y 2), el criterio C a los Síntomas fisiológicos (ítems
del 5 al 10) y finalmente en el último criterio se recoge
el aspecto temporal y su afectación en la vida cotidiana
(ítems 11 y 12) que se relacionan con el criterio E.
La EDTAG fue adaptada al español por Bobes,
García-Calvo, García-García y Rico-Villademoros
(2006) en un estudio prospectivo multicéntrico, en una
comparación entre pacientes y grupos sanos, la escala
muestra una confiabilidad de 0.85, las pruebas señalan
que una puntuación de 6 o más es indicativa de la
presencia del TAG (sensibilidad = 84%, especificidad
= 83%). Según estos autores se requiere en mínimo
de una respuesta SI en los criterios A, B y E y tres
respuestas afirmativas en el criterio C. En la aplicación
se observó que las mujeres presentan puntuaciones
significativamente mayores a los hombres, según los
autores este hallazgo se corresponde con la prevalencia
del trastorno en la población.
En el DSM-V (APA, 2013) se señala una prevalencia
anual entre el 0.4 y el 3.6%, y una prevalencia a lo
largo de la vida del 9% observándose el doble de casos
en mujeres respecto a los hombres en los países que
participan en la evaluación epidemiológica. En México,
se ha estimado que el trastorno está presente alguna vez
en la vida de la persona entre un 0.7%, y un 1,2% en los
últimos 12 meses de la población general, observándose
también una razón de 2 mujeres: 1 Hombre (Medina-
Mora et al., 2003).Asegurar la invarianza en la medida
en la EDTAG tiene especial relevancia pues sus
resultados están siendo utilizados como criterio de
referencia para diagnóstico, el tratamiento, la evaluación
de intervenciones, para estudios epidemiológicos
y como medidas de observación para introducir y
mejorar políticas sanitarias (AERA, APA, NCME,
1999). Por ello, en el presente trabajo realizaremos dos
tipos de análisis, en el primero se utilizarán modelos
Invarianza por Sexo EDTAG
Actualidades en Psicología, 29(119), 2015, 141-151
143
de ecuaciones estructurales (MACS) y en el segundo se
propone un análisis basado en los modelos de respuesta
al ítem (TRI).
Método
Participantes
Participaron 1431 personas (véase características
sociodemográficas en Tabla 1). La muestra estuvo
formada por participantes de la población general,
se buscó que la proporción entre rango de edades
fuera similar. Los rangos de edad iban de 20 a 70
años con una media de 44.43 años y una desviación
típica de 15.97.
Instrumentos
EDTAG: Escala de Detección del Trastorno de Ansiedad
Generalizada de Carroll y Davidson (2000). Diseñada para
detectar el trastorno de ansiedad generalizada consta
de 12 ítems dicotómicos (“si” o “no” respecto a la
presencia de criterios del DSM IV) que sirven para
determinar la presencia o ausencia de sintomatología
del TAG de acuerdo con el DMS-IV. En esta
investigación se utilizó la adaptación en español de
Bobes et al. (2006).
GADI (Generalized Anxiety Disorder Inventory, de
Argyropoulos et al., 2007). Es un instrumento autoaplicado
que consta de 18 ítems escala tipo Likert de 5 puntos
(entre 0 “en absoluto” a 5 “el síntoma está presente
en grado extremo”) útil para la evaluar la presencia o
ausencia del trastorno por ansiedad generalizada así
como su intensidad. La confiabilidad evaluada mediante
el alfa fue de 0.948 para la subescala cognitiva, 0.84
para la subescala que evalúa los trastornos de sueño y
0.89 para la subescala de síntomas somáticos.
BAI (Beck Anxiety Inventory). Consta de 21 ítems que
se contestan en una escala de 4 puntos (de 0 a 3). Se
utilizó la versión mexicana adaptada por Robles, Varela,
Jurado y Páez (2001). Presentó una consistencia interna
con valores de alfa de Cronbach de .84 en estudiantes
universitarios y de .83 en población general.
Procedimiento
En el presente estudio se aplicó la traducción
española disponible Bobes et al. (2006) esta versión
fue revisada por tres jueces con experiencia en el
ámbito de la psicometría y con conocimientos sobre
el trastorno de ansiedad generalizada, ninguno de
los jueces consideró pertinente la modificación de
los ítems. Los datos fueron recogidos en población
general a través de la solicitud de participación
anónima y voluntaria a transeúntes.
Metodologías para el análisis
La invarianza en la medida (IM) significa que las
propiedades de medida del test o de los ítems de un test
deberían ser independientes de las características de las
personas, excepto por la característica específica que se
está midiendo con el test. Formalmente se considera
que la distribución de las puntuaciones observadas en
las respuestas a un test debería depender únicamente
del espacio de la dimensión latente que se evalúa
(Mellenbergh, 1989; Meredith, 1993). A saber,
Tabla 1
Características sociodemográficas de la muestra.
(Población general)
n
Sexo
1431
Femenino 841 (58.8%)
Masculino 590 (41.2%)
Edad
Media 44.43
Desviación estándar 15.97
Rango 20-70
Años de escolaridad
Media 10.30
Desviación estándar 5.12
Rango 0-29
Estado civil
Soltero 441 (30.8%)
Casado/unión libre 829 (57.9%)
Separado/divorcio 80 (5.6%)
Viudo 77 (5.4%)
144 González-Betanzos, Rivera-Heredia y Padrós-Blázquez
Actualidades en Psicología, 29(119), 2015, 141-151
(|,) (|)fgf

XX
(1)
Donde:
f() es la función de distribución de probabilidad de
la variable observada
h es el vector d- dimensional de puntuaciones
factoriales
g es la variable de agrupación
Según la ecuación 1 los valores de las variables
observables (que son las respuestas a los ítems) deben
depender únicamente de los valores de las variables
latentes (también llamados factores o dimensiones),
lo que significaría que existe una independencia entre
X y g. Para estudiar la IM es necesario especificar una
relación funcional entre las variables observables y la
dimensión que representan, dicha relación puede ser
lineal o no-lineal. El primer caso corresponde al análisis
factorial confirmatorio definido a partir de los modelos
de ecuaciones estructurales de medias y covarianzas
(AFC-MACS), el segundo se relaciona con los modelos
de teoría de la respuesta al ítem (TRI, Elosua, 2005).
El Análisis Factorial Confirmatorio (AFC) para datos
categóricos y la Invarianza.
El Modelo de AFC es un modelo de regresión
lineal en el cual un número de variables observadas, las
respuestas a los ítems, se explica a partir de un número
de variables latentes subyacentes llamadas factores.
El modelo lineal parte de la ecuación que define la
puntuación observada (o vector de puntuaciones - X,
a través de un modelo de regresión en el que la variable
independiente se define como:
X
(2)
Donde:
x Es el valor de la variable aleatoria n-dimensional X
Es el vector n-dimensional de interceptos
Es la matriz nxd de pesos factoriales de los d
factores
Es el vector d-dimensional de puntuaciones
factoriales
Es el vector de residuos n-dimensionales de la
regresión de X sobre η
Este modelo asume que las variables observadas
son continuas y tienen una distribución normal,
la existencia de una relación lineal entre variables
observadas y latentes, que los residuos se distribuyen
de manera normal, que son independientes entre ellos
y que son independientes de las variables latentes
(Jöreskog, 1971).
Sin embargo, se sabe que la mayoría de las medidas
obtenidas en los ítems que componen las escalas o los
cuestionarios en la investigación en las ciencias sociales
no dan como resultado valores continuos en escala de
razón, sino más bien valores discretos, en el caso de la
EDTAG la variable observada es dicotómica.
Si se trata a estas variables como variables continuas en
el AFC se viola el supuesto de normalidad multivariada
y, en el contexto del análisis multigrupo, se podría
distorsionar la estructura factorial de los diferentes
grupos, haciendo problemática la investigación sobre
equivalencia (Lubke & Muthén, 2004). Para evitar este
problema, Millsap y Yun-Tein (2004) han propuesto
recientemente el empleo de un modelo de factor común
multigrupo para medidas categóricas. Los autores
señalan que éste modelo ha recibido poca atención en la
investigación de la invarianza.
La definición de invarianza propuesta por
Mellenbergh (1989) se aplica también al modelo
para variables categóricas, en el caso de los modelos
unidimensionales (unifactoriales), y para una adecuada
comparación con modelos de TRI, se realizan contrastes
estadísticos sobre la igualdad de pesos factoriales
(invarianza métrica) e interceptos (invarianza escalar)
a través de los grupos. Pero se añade una restricción
sobre los umbrales latentes que hacen que la variable
latente continua se torne discreta en las respuestas
observadas.
En nuestro caso para la comparación por sexo,
llamaremos grupo de referencia a las mujeres y grupo
focal a los hombres. En el análisis se especifica primero
un modelo de línea base compacto donde, en cada caso,
los pesos y los interceptos se restringen a ser iguales en
Invarianza por Sexo EDTAG
Actualidades en Psicología, 29(119), 2015, 141-151
145
los dos grupos (se iguala r = f y r=f donde r =
grupo de referencia y f = grupo focal, ver ecuación 3).
El siguiente paso se especifica un modelo aumentado
en el que se liberan los parámetros del ítem que se
prueba para saber si es invariante (ver ecuación 4).
i) Modelo compacto -modelo de línea base
,,
ir ir ir if ir if


(3)
ii) Modelo aumentado
,,
ir ir ir if ir if


(4)
Donde i es el ítem que se prueba para invarianza
Donde
ig es el umbral de la variable latente en el
ítem i para el grupo g (ya sea r = referencia o f = focal).
Una vez que se han estimado tanto el modelo
compacto como el modelo aumentado se obtiene el
estadístico de bondad de ajuste Chi-cuadrado, debido a
que el modelo compacto está anidado en el aumentado,
se puede comparar el cambio en el Chi-cuadrado con
grados de libertad igual a la diferencia de los grados
de libertad de los modelos respectivos. En cada
comparación un resultado significativo es evidencia
de que se viola la equivalencia entre los parámetros y
que por lo tanto no hay Invarianza en la medida, a esta
prueba se le conoce como Razón de verosimilitudes.
La Teoría de la Respuesta al Ítem (TRI) y la Invarianza.
Tanto los modelos de AFC como los de TRI
relacionan la respuesta en un ítem con el nivel de
rasgo de un examinado. Sin embargo, mientras que
los primeros representan una relación lineal, en la
TRI el modelo de respuesta al ítem es una función
matemática logística, denominada curva característica
del ítem (CCI). En esta función se incluyen dos tipos
de parámetros, el de los sujetos y los de los ítems. El
parámetro de los sujetos se denomina nivel del rasgo
(θ). Los parámetros de los ítems dependen del modelo.
En el caso del modelo logístico de 2 parámetros
(2PL) los parámetros para los ítems son el parámetro
de discriminación (a) que representa la pendiente de
la función y el parámetro de dificultad (b), que indica
el valor de θ correspondiente al punto de máxima
pendiente de la CCI. El Modelo 2PL se escribe como:
1
(1|)
1 exp( 1.7 * ( ))


ij j
ij i
PX ab
(5)
Donde
(1|)
ij j
PX
significa que la probabilidad de
responder 1= Si (Xi j = 1) a un ítem en el EDTAG
depende del nivel del rasgo que se evalúa, en nuestro
caso es el Trastorno de ansiedad generalizado, esta
probabilidad se explica mediante una función logística
con dos parámetros y el nivel de rasgo de la persona.
En el marco de la TRI se llama Funcionamiento
Diferencial del Ítem (DIF) a la Invarianza en la
medida (IM) y dice que existe DIF cuando las curvas
características de los ítems (CCI) son diferentes para
los grupos focal y de referencia; es decir cuando para
el mismo nivel de rasgo los grupos no tienen la misma
probabilidad de elegir la opción de un ítem.
Existen dos tipos básicos de DIF, el DIF uniforme y
el DIF no-uniforme. En el primero, uno de los grupos,
casi siempre el de referencia, tiene mayor probabilidad
de dar una respuesta en todos los niveles del rasgo
(ver figura 1 -izquierda) mientras que en el DIF no-
uniforme la probabilidad de emitir una respuesta es
mayor en el grupo de referencia en algunos niveles del
rasgo, mientras que en otros niveles la probabilidad es
mayor para el grupo focal (ver figura 1-derecha) (Finch
& French, 2007; Martínez-Arias, Hernández-Lloreda &
Hernández-Lloreda, 2006).
Por lo tanto, se considera que existe invarianza (o que
no existe DIF) si los parámetros del ítem permanecen
invariantes a través de los grupos. Existen diversos
procedimientos basados en TRI para detectar DIF:
chi-cuadrado, la medida del área, la prueba de razón de
verosimilitud (LR). Entre ellas, esta última se considera
la más general. En esta prueba, descrita por Thissen,
Steinberg y Wainer (1993), se compara el ajuste de los
modelos anidados, estimados mediante procedimientos
de máxima verosimilitud marginal. Este procedimiento
146 González-Betanzos, Rivera-Heredia y Padrós-Blázquez
Actualidades en Psicología, 29(119), 2015, 141-151
es muy similar al que se emplea en MACS. Para ello
se ajusta un modelo en el que se asume la igualdad de
los parámetros estimados a través de los grupos de
referencia y focal (modelo compacto); posteriormente,
este modelo se compara con un modelo donde los
parámetros del ítem estudiado se liberan (modelo
aumentado),
i) Modelo compacto
air=aif , bir=bif (6)
ii) Modelo aumentado
,
ir if ir if
aabb
(7)
donde i es el ítem que se prueba para DIF
y se aplica la prueba de razón de verosimilitud (LR) que
se define como:
i
c
i
A
L
LR L (8)
Donde Lc= probabilidad de los datos según los
parámetros del modelo compacto y LA = probabilidad
de los datos según los parámetros del modelo
aumentado. La transformación del logaritmo natural
de esta función se toma como una prueba estadística
distribuida como c2 bajo la hipótesis nula:
c2 (M)= -2ln(LR) = -2 ln Lc + 2ln LAi (9)
Para la Ecuación 9, M es el número de grados de
libertad y es igual a la diferencia en el número de
parámetros estimados en el modelo compacto respecto
del modelo aumentado por lo que, en caso de un
modelo de dicotómico de dos parámetros, dado que
se liberan los parámetros ai y bi , el estadístico sigue una
distribución chi-cuadrado con 2 grados de libertad. Si el
contraste toma un valor estadísticamente significativo,
esto indica que el modelo compacto se ajusta peor que
el modelo aumentado.
Para usar la prueba de LR, un valor de chi-
cuadrado se calcula para cada ítem en el test.
Aquellos ítems con valor significativo de c2 se dice
que presentan DIF. En la tradición de TRI, si esto
ocurre, se calculan dos test adicionales. En el primero
se permite variar el parámetro de discriminación
y, posteriormente, se hace una prueba sobre el
parámetro de dificultad, por lo que se puede saber
si existe DIF uniforme o no uniforme.
Tanto el modelo lineal AFC-MACS como el
modelo no lineal de TRI se utilizarán para analizar
la IM de los datos del EDTAG. En el primer caso se
utiliza el programa MPLUS 7.0 (Muthen & Muthen,
2012) que permite trabajar con variables categóricas y
en el segundo caso el análisis se hace con el programa
llamado IRTLRDIF v. 2 de Thissen (2001).
Para evaluar el ajuste (Akaike, 1974) de los modelos
se utilizará el valor de Chi-cuadrado (c2 ), así como la
información de otros indicadores de bondad de ajuste
(Bollen y Long, 1993, Elosua, 2005). Entre ellos se
utiliza el índice de ajuste general (GFI; Jöreskog &
Sorbom, 1993), la raíz media cuadrática del error
de aproximación (RMSEA; Hu & Bentler, 1999),
el criterio de información de Akaike (AIC; Akaike,
1974) y el índice de ajuste comparativo (CFI; Bentler,
1990). Además se utiizará el criterio de Cheung y
Resnvold (2002), para ello se observará la diferencia
entre los valores del índice comparativo de Bentler
(CFI); si el valor de la diferencia entre dos modelos
anidados es superior a .01 en favor del modelo con
menos restricciones, deberá rechazarse el modelo con
más restricciones.
Resultados
Las medias aritméticas y las desviaciones típicas
obtenidas con la versión original de la EDTAG son
4.66 (DT= 3.55) para las mujeres y 4.01 (DT= 3.37)
para los hombres. La diferencia de medias entre
ambas muestras es estadísticamente significativa [t
= 2.80, p < .05]. El coeficiente alfa de Cronbach
es de .85.
Invarianza factorial con AFC-MACS
La invarianza factorial con AFC-MACS requiere
una seria de pasos que inician con la determinación
del modelo de línea base que se establece para cada
Invarianza por Sexo EDTAG
Actualidades en Psicología, 29(119), 2015, 141-151
147
grupo de manera separada. Este modelo representa
el mejor ajuste a los datos dado que no se impone
ninguna restricción en la estimación de los parámetros.
La estimación progresiva de la invarianza comienza
con el modelo de invarianza configural (Tabla 2). Los
índices de ajuste obtenidos (Tabla 3) permiten aceptar
la equivalencia de la configuración entre hombres
y mujeres aunque el valor de Chi-cuadrado excede
el criterio para aceptar la hipótesis de invarianza, el
resto de los índices contradicen dicha conclusión. El
índice de ajuste (GFI = .95) y la raíz media cuadrática
(RMSEA = .06) nos permiten aceptar que ambos
grupos comparten la misma configuración.
Cuando añadimos las restricciones sobre los pesos
factoriales se prueba el modelo de invarianza métrica.
Los valores de la Tabla 3 señalan una pérdida significativa
en el ajuste del modelo. El índice de ajuste general
(GFI = .1) y la raíz media cuadrática (RMSEA = .074).
Si hacemos uso del criterio anidado, la diferencia
entre CFI´s entre el modelo de configuración y el
de invarianza métrica (ΔCFI = .018) nos conduce a
señalar una posible falta de invarianza métrica entre
los grupos.
Para evaluar el (los) pesos específicos que podrían
causar una falta en la invarianza métrica se compara
el modelo compacto y se van liberando uno a uno los
pesos factoriales de los ítems, en la Tabla 3 se muestran
los resultados para la comparación. En negritas (ver
tablas 2 y 3) se muestra el único ítem en el que se
encuentra un ajuste significativamente mejor entre el
modelo en el que se estiman los pesos para cada grupo
respecto del modelo en el que los pesos son los mismos
para hombres y mujeres (Δc2 = 8.32 y un incremento
en CFI = .015).
Tabla 2
Estructura factorial de la Escala de Detección del Trastorno de Ansiedad Generalizado (EDTAG) , pesos factoriales para las mujeres, hombres
y el modelo invariante
Item mujeres hombres invarianza estricta

1.La mayoría de los días me siento nervioso/a .89 .82 .86 .453
2.La mayoría de los días me preocupo por muchas
cosas .74 .76 .75 .121
3.La mayoría de los días no puedo parar de
preocuparme .84 .82 .83 .672
4.La mayoría de los días me resulta difícil controlar
mis preocupaciones .77 .85 .80 .733
5.Me siento inquieto/a, intranquilo/a, o con los
nervios de punta .82 .81 .81 .555
6.Me siento cansado/a fácilmente .54 .65 .59 .188
7.Tengo problemas para concentrarme .51 .50 .50 .243
8.Me enfado o irrito fácilmente .65 .64 .64 .263
9.Mis músculos están tensos y agarrotados .69 .52 .62 .549
10.Tengo problemas de sueño .58 .49 .54 .339
11.Las cosas que ha señalado anteriormente,
¿afectaron a su vida diaria...? .86 .83 .85 .452
12.¿fueron suficiente molestas como para que
pensara en buscar ayuda? .68 .77 .72 .727
148 González-Betanzos, Rivera-Heredia y Padrós-Blázquez
Actualidades en Psicología, 29(119), 2015, 141-151
Tabla 3
Índices de bondad de ajuste para los modelos de invarianza para el AFC-MACS
c2GFI RMSEA CFI Δ c2pΔCFI
Configuración 443.47 0.95 0.060 0.940
Métrica 621.45 0.91 0.07 0.925
Restringido 237.80 0.97 0.070 0.951 0.00 1.000 .001
Item_1 236.05 0.97 0.073 0.951 1.75 0.186 .0001
Item_2 235.54 0.97 0.074 0.949 2.26 0.133 .002
Item_3 236.04 0.97 0.072 0.952 1.76 0.185 .001
Item_4 234.25 0.97 0.073 0.951 3.55 0.060 .0001
Item_5 235.25 0.97 0.074 0.950 2.55 0.110 .001
Item_6 235.06 0.97 0.073 0.951 2.74 0.098 .0001
Item_7 237.20 0.97 0.074 0.948 0.60 0.439 .003
Item_8 235.98 0.97 0.074 0.949 1.82 0.177 .002
Item_9 229.48 0.97 0.071 0.954 8.32 0.004 .015
Item_10 236.10 0.97 0.074 0.949 1.70 0.192 .002
Item_11 236.46 0.97 0.073 0.951 1.34 0.248 .0001
Item_12 235.65 0.97 0.073 0.951 2.15 0.142 .0001
Figura 1. Representa las CCI de los grupos de referencia y focal para el caso en el que existe DIF uniforme (izquierda) o DIF
no uniforme (derecha)
Invarianza por Sexo EDTAG
Actualidades en Psicología, 29(119), 2015, 141-151
149
Invarianza factorial con modelos de TRI
La Tabla 4 presenta los resultados del análisis FDI
con el método LR-DIF (loglikelihood –Differential
Item Functioning, o prueba de Razón de similitudes
para el funcionamiento diferencial del Ítem). Se
presenta el estadístico G2 que se distribuye como
Chi-cuadrado con grados de libertad igual al número
de parámetros que se restringen en el modelo. Dado
que trabajamos con un modelo de dos parámetros los
grados de libertad son 2. Un valor de G2 de 3.84 es
indicativo de que el ítem no es invariante.
En el análisis el ítem 9 tiene un valor de G2 = 6.1 lo
que significa que este ítem presenta funcionamiento
diferencial. En la figura 2 se presentan los valores
de los parámetros para cada grupo, como puede
observarse, en el ítem 9 los hombres tienen mayor
probabilidad de responder que “Tienen los músculos
agarrotados” que las mujeres, aun cuando tengan el
mismo nivel de ansiedad.
Figura 2. Representa las CCI del ítem 9 para los hombres y las mujeres
Tabla 4
Estadísticos para el análisis con el método de TRI
G2 gl a b
Item_1 0 2 2.91 .48
Item_2 0 2 1.67 .35
Item_3 2.7 2 2.03 .86
Item_4 0 2 1.56 .88
Item_5 0 2 2.18 .6
Item_6 0 2 0.96 .74
Item_7 0 2 0.82 .82
Item_8 0 2 1.22 .64
Item_9 6.1 2 1.41 .73
Item_10 0 2 0.93 .65
Item_11 0 2 2.57 .44
Item_12 1.7 2 1.68 .85
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00 Hombre Mujer
Probabilidad
Nivel de θ
1.. 41 0.730 0.87 1.40
150 González-Betanzos, Rivera-Heredia y Padrós-Blázquez
Actualidades en Psicología, 29(119), 2015, 141-151
En los resultados tanto el análisis con los modelos
de ecuaciones estructurales para el análisis factorial
confirmatorio con modelos de medias y covarianzas
(AFC-MACS) como con los análisis de la Teoría de la
Respuesta al Ítem (TRI) coinciden en señalar que el
ítem 9 no es invariante entre los grupos. Mientras
que en la puntuación observada la diferencia entre las
medias es de 0.66 en el análisis con la variable latente la
diferencia de medias es de 0.28 mayor para las mujeres
que para los hombres.
Discusión
El objetivo del presente estudio fue realizar un
análisis de invarianza entre hombres y mujeres en
la Escala de Detección del Trastorno de Ansiedad
Generalizado (EDTAG) partiendo de dos tipos
de relaciones funcionales entre el espacio latente y
las variables observadas: i) Un modelo lineal y un
modelo logarítmico.
En el modelo lineal se ha mostrado la evaluación
progresiva de la invarianza estableciendo primero
que en ambos sexos el test se comporta de manera
unidimensional, es decir todos los ítems representan
la medida del Trastorno de Ansiedad Generalizado
(TAG) como variable latente (invarianza configural).
Sin embargo, el análisis señala que no existe invarianza
métrica en la medida a nivel global, para conocer
específicamente en donde se produce la falta de
equivalencia se llevaron a cabo análisis por ítem en
el que se probó la equivalencia en los parámetros
del modelo: i.e. los pesos factoriales y los umbrales,
mediante un procedimiento que descubre la falta de
ajuste en modelos anidados denominada prueba de
Razón de verosimilitudes. Este análisis mostró que
el ítem 9 no representa a la variable latente de igual
forma en ambos grupos.
Como señalan diversos autores, el estudio de la
invarianza desde la perspectiva lineal se acerca a la
evaluación del funcionamiento diferencial del ítem que
describe la relación de manera logística entre los ítems
y las dimensiones latentes del rasgo.
Estos análisis han sido diseñados para su uso en
escalas unidimensionales. El presente estudio pone en
evidencia la necesidad de realizar análisis de invarianza
en las escalas de medición, especialmente en aquellas
escalas cortas donde una diferencia de un punto podría
significar un falso positivo.
Sin embargo, estos resultados no proveen respuestas
por si solos, se sabe que un segundo paso en el
análisis, se relaciona con la revisión e interpretación
de contenidos que permitan conocer porque existe un
comportamiento diferencial entre hombres y mujeres
en estos ítems. Además es importante tener en cuenta
a las variables que pueden estar influyendo y para ello
es necesario profundizar en el estudio sobre sesgo en el
marco de la validez de constructo.
El presente estudio demuestra que en el EDTAG
el ítem 9 que señala “Mis músculos están tensos y
agarrotados” se comporta distinto para hombres que
tiene mayor probabilidad de responder afirmativamente,
esto puede indicar que la sintomatología en hombres y
en mujeres es diferente en los procesos ansiosos.
Referencias
AERA-APA-NCME. (1999). Standards for educational
and psychological testing. Washington, DC.: American
Psychological Association.
Akaike, H. (1974). A new look at statistical model
identification. Transactios on Automatic Control. AC-
19.
American Psychiatric Association. (2013). Diagnostic
and statistical manual of mental disorders (5th ed. ed.).
Washington, DC: Author.
Argyropoulos, S., Ploubidis, G., Wright, T., Palm,
M., Hood, S., Nash, J., . . . Potokar, J. (2007).
Development and validation of the generalized
anxiety disorder inventory (GADI). Journal of
Psycholpharmacology, 21, 145-152.
Bobes, J., García-Calvo, C., García-García, M.,
& Rico-Villademoros, F. (2006). Propiedades
psicométricas de la versión española de la
Escala de Detección del Trastorno de Ansiedad
Generalizada según DSM-IV de Carroll y
DAvidson. Actas Españolas de Psiquiatría, 34, 83-93.
Invarianza por Sexo EDTAG
Actualidades en Psicología, 29(119), 2015, 141-151
151
Bollen, K., & Long, J. (1993). Introduction. En K. Bollen,
& J. Long, Testing structural equation models (págs. 1-9).
Newbury Park, CA.: SAGE.
Borsboom, D., Romeijn, J., & Wicherts, J. (2008).
Measurement invariance versus selection invariance: Is
fair selection possible? Psychological Methods, 13, 75-97.
Camilli, G., & Shepard, L. A. (1994). Methods for identigying
biased test items. Thousand Oaks, CA: Sage publications.
Carroll, B. J., & Davidson, J. R. (2000). Screening Scale for
DSM-IV GAD. Copyright.
Cheung, G., & Rensvold, R. (2002). Evaluating goodness-
of-fit indexes for testing measurement invariance.
Structural Equation Modeling, 9, 233-255.
Elosua, P. (2005). Evaluación progresiva de la invarianza
factorial entre las versiones original y adaptada de una
escala de autoconcepto. Psicothema, 17(2), 356-362.
Fidalgo, A. (1996). Funcionamiento diferencial de los
ítems. En J. Muñiz, Psicometría (p. 370-455). Madrid:
Universitas.
Finch, W., & French, B. (2007). Detection of Crossing
Differential Item Functioning: a comparison of four
methods. Educational and psychological Measurement,
67(4), 565-582.
Gonzalez-Betanzos, F. (2011). Funcionamiento Diferencial
del Ítem en Test Adaptativos Informatizados. Tesis del
doctorado. Madrid: Universidad Autónoma de
Madrid.
Hu, L., & Bentler, P. (1999). Cutoff criteria for fit indexes
in covariance structure analysis: conventional criteria
versus new alternatives. Structural Equation Modeling,
6, 1-55.
Jöreskog, K. (1971). Simultaneous factor analysis en
several populations. Psychometrika, 36, 409-426.
Jöreskog, K., & Sörbom, D. (1993). LISREL 8: user´s
guide. Chicago: Scientific Software International.
Lubke, G., & Muthen, B. (2004). Applying multigroup
confirmatory factor models for continuos outcomes
to Likert scale data complicates meaninful group
comparison. Structural Equation Modeling, 11, 514-534.
Martínez-Arias, R., Hernández-Lloreda, M., &
Hernández-Lloreda, M. (2006). Psicometría. Madrid:
Alianza Editorial.
Medina-Mora, M. E., Borges, G., Lara-Muñoz, C., Benjet,
C., Blanco-Jaimes, J., Bautista, C., . . . Aguilar-Gaxiola,
S. (2003). Prevalencia de trastornos mentales y uso
de servicios: Resultado de la encuesta nacional de
epidemiología psiquíatrica en México. Salud Mental,
26(4), 1-16.
Mellenbergh, G. (1989). Item bias and item response
theory. International Journal of Mathematical and
Statistical Psychology, 24, 49-82.
Meredith, W. (1993). Measurement invariance, factor
analysis and factorial invariance. Psychometrika, 58(4),
525-543.
Millsap, R., & Yun-Tein, J. (2004). Assessing Factorial
Invariance in Ordered-Categorical Measures. Applied
Psychological Measurement, 39(3), 479-515.
Muthen, L., & Muthen, B. (2012). Mplus user´s guide. Los
Angeles, CA.: Muthen & Muthen.
Robles, R., Varela, R., Jurado, S., & Páez, C. (2001).
Versión mexicana del Inventario de Ansiedad de
Beck: Propiedades psicométricas. Revista Mexicana de
Psicología, 18 (2), 211-218.
Shealy, R., & Stout, W. F. (1993). A model-based
standardization approach that separates true bias/
DIF from group ability differences and detects test
bias/DTF as well as item bias/DIF. Psychometrika, 58,
159-194.
Thissen, D. (2001). IRTLRTDIF (version 2.02b). Chapel
Hill, NC: L.L. Thustone Psychometric Laboratory.
Recibido: 13 de abril de 2015
Aceptado: 18 de setiembre de 2015