Las evaluaciones internas del sistema nacional de investigadores de México a través de un análisis clúster

The internal evaluations of the national system of researchers of Mexico through a cluster analysis

 

 

 

Volumen 18, Número 1

Enero-Abril

1-32

 

 

Este número se publica el de enero de 2018

DOI: https://doi.org/10.15517/aie.v18i1.31408

 

 

Gerardo Reyes Ruiz

 

 

Revista indizada en REDALYC, SCIELO

 

 

 

Revista distribuida en las bases de datos:

 

 

LATINDEX, DOAJ, REDIB, IRESIE, CLASE, DIALNET, SHERPA/ROMEO,

QUALIS-CAPES, MIAR

 

 

Revista registrada en los directorios:

 

ULRICH’S, REDIE, RINACE, OEI, MAESTROTECA, PREAL, CLACSO

 



 

Las evaluaciones internas del sistema nacional de investigadores de México a través de un análisis clúster

The internal evaluations of the national system of researchers of Mexico through a cluster analysis

 

Gerardo Reyes Ruiz1

 

Resumen: El Sistema Nacional de Investigadores de México (SNI) evalúa, selecciona y reconoce, mediante un estímulo económico, el capital humano nacional que realiza investigación de calidad. Esta logística puede ser considerada como una selección de proyectos, la cual conlleva, obligatoriamente, a la elección de capital humano especializado. En este artículo se utiliza la técnica de análisis y agrupamiento de datos conocida como clustering (k Means) para profundizar sobre los criterios seguidos por el SNI en cuanto a dicha elección de investigadores. Una vez que se conoce el perfil productivo de cada nombramiento definido por el SNI, y a través de la distancia de Hamming, se realiza un análisis comparativo entre los datos estimados y reales asociados a cada nombramiento. Las estimaciones permitieron concluir que no se justifica la actual clasificación en cuatro agrupaciones (nombramientos), tal vez ello se deba a que los evaluadores del SNI utilizan información no recolectada en las variables reportadas por las solicitudes. Además, se demuestra la necesidad de mejorar la información estadística utilizada como base de datos para la evaluación; se señalan las diferencias en las clasificaciones estimadas para las siete áreas del conocimiento definidas por el SNI y se recomiendan algunos de los resultados para complementar las evaluaciones por pares, realizadas actualmente, siempre que se mejore la cantidad y calidad de la información disponible. Sin duda, ello debe de servir para hacer más eficiente la futura selección de proyectos de investigación y desarrollo concernientes a un programa de la política pública de investigación en México.

 

Palabras clave: método de evaluación, estadísticas científicas; análisis comparativo, investigador

 

Abstract: The National System of Researchers of Mexico (SNI) evaluates, selects, and recognized by an economic stimulus to national human capital that makes quality research. This logistics can be considered as a selection of projects, which leads, inevitably, to the choice of specialized human capital. This article uses the technique of analysis and clustering of data known as clustering (k Means) to deepen on the criteria followed by the NSR with regard to the choice of researchers. Once the productive profile of each appointment defined by SNI, and through the Hamming distance is known, is a comparison between the actual and estimated data associated with each appointment. Estimates allowed to conclude that it is not justified the current classification into four groups (appointments), perhaps this is due to that the evaluators of the SNI used information not collected on variables reported by requests. In addition, demonstrates the need for improved statistical information used as the database for the evaluation; the differences that exist in the ratings for the seven knowledge areas defined by the SNI and recommended some of the results to supplement assessments by peers today, provided that improvements are designated the quantity and quality of available information. Certainly, this should serve to streamline the future selection of projects of research and development concerning a programme of public policy research in Mexico.

 

Keywords: evaluation methods, scientific statistics; comparative analysis, research workers

 



1 Investigador en la Universidad Autónoma del Estado de México (UAEM), México.

 

Dirección electrónica: greyesru@uaemex.mx

 

Artículo recibido: 2 de mayo, 2017

Enviado a corrección: 31 de agosto, 2017

Aprobado: 13 de noviembre, 2017


1. Introducción[2]

Los modernos métodos automatizados de medición, recolección, recopilación y análisis de datos en todos los ámbitos de la ciencia, la industria y la economía proporcionan más y más datos con un aumento gradual en la complejidad de su estructura (Washio y Motoda, 2003). Esta creciente complejidad se justifica en gran medida por la necesidad de una rica y cada vez más precisa descripción de los fenómenos del mundo real y también debido al rápido progreso de la medición y el análisis de técnicas versátiles que facilitan la exploración de dichos fenómenos (Blum y Mitchell, 1998; Dietterich, Lathrop y Lozano-Perez, 1997; Gärtner, Flach, Kowalczyk y Smola, 2002; Goethals, Hoekx y Van den Bussche, 2005; Kailing, Kriegel, Pryakhin y Schubert, 2004). Por ello, y con el fin de gestionar el enorme volumen de datos tan complejos, se emplean sistemas de bases de datos (Kriegel et al, 2007). Con el arribo de la experimentación de alto rendimiento y tecnologías de conexión a internet cada vez más veloces, la generación y transmisión de grandes volúmenes de datos han visto enormes cambios de automatización en las últimas décadas. Como resultado, la ciencia, la industria e incluso los individuos tienen que afrontar el reto de hacer frente a enormes conjuntos de datos que en ciertas ocasiones son demasiado grandes para el análisis manual (Kriegel et al, 2007).

El Data Mining (DM) o Minería de Datos (MD), a menudo también denominada Descubrimiento del Conocimiento en Bases de Datos[3] (Knowledge Discovery in Databases-KDD), es una subdisciplina relativamente joven de la informática, con miras a la interpretación automática de grandes conjuntos de datos (Han y Kamber, 2006). Esta nueva rama de la ciencia considera varias técnicas de análisis como el aprendizaje de ordenadores, el reconocimiento de patrones, los sistemas de bases de datos, la inteligencia artificial y la estadística, por mencionar tan solo algunos, y entre sus múltiples objetivos se encuentra el análisis de grandes volúmenes de datos (Fayyad, Piatetsky-Shapiro y Smyth, 1996; Han y Kamber, 2006; Shian-Chang, En-Chi y Hsin-Hung, 2009; Tan, Steinbach y Kumar, 2006). Actualmente existen múltiples algoritmos de MD que son adaptados a diversos campos de aplicación para realizar diferentes tareas sobre el análisis de datos (Kittler, Hatef, Duin y Matas, 1998; Kriegel, Kröger, Pryakhin, y Schubert, 2004; Kriegel, Pryakhin y Schubert, 2005; Weidmann, Eibe y Bernhard, 2003; Wu et al, 2008). La MD suele abordar ciertos enfoques para algunos subtipos de datos, es el tema fijado para las cadenas de datos especializadas o listas de valores posibles (Yarowsky, 1995). Muchos enfoques de clasificación o agrupamiento necesitan tan solo de datos numéricos -algoritmo K-means-, mientras que otros lo hacen exclusivamente para datos categóricos -algoritmo k-modes- pero, a menudo, los distintos enfoques se combinan para obtener resultados más apropiados -algoritmo k Prototypes, algoritmo Harmony K-means. (Huang, 1998; Mahdavi y Abolhassani, 2009).

Se podría pensar que trabajar únicamente con cualquiera de estas dos categorías de datos limita las técnicas comunes de agrupamiento, y en consecuencia, se prohíbe la agrupación de datos del mundo real (Huang, 1998). No obstante, es de suma importancia mencionar que encontrar un modelo adecuado para representar el fenómeno de estudio, incluso en un corto periodo de tiempo, no es un asunto trivial; alcanzar con facilidad el uso, e inclusive, reducir la parametrización es un objetivo de mayor importancia, incluso si los datos de entrada no son muy complejos.

En la actualidad, la selección de proyectos es una de las principales estrategias para cualquier organización, principalmente porque en su evaluación se hacen cada vez más enfáticos los factores medioambientales y sociales que, aunados a otros factores (de mercado, técnicos y financieros), hacen que la viabilidad del proyecto se oriente principalmente hacia los productos o servicios de la vida cotidiana. Todos estos factores requieren del manejo de una gran cantidad de información y de hacer suposiciones inteligentes para realizar la mejor selección de proyectos (Prasanta, 2006). Por otra parte, y como bien se comenta en Kan y Zhou (2007), una selección de inversiones necesariamente implicará la toma de las decisiones acerca de qué proyectos deberá apoyar una organización dentro de sus márgenes de capital y de que estén lo más apegados a la contribución de su objetivo general: maximizar el valor actual neto de la empresa o la riqueza de los accionistas. En la práctica, este objetivo se basa en un determinado número de métodos y criterios de selección cuyo uso depende, en primera instancia, del entorno de decisión y, posteriormente, de las características directas para las inversiones consideradas.

En México, y más aún en el Sistema Nacional de Investigadores (SNI), se realiza año tras año precisamente la selección de capital humano especializado. Esta selección se hace tomando en cuenta, principalmente, la producción científica realizada por un investigador, al menos durante sus últimos tres años (CONACYT, 2017). El SNI (inversor) finalmente decidirá, mediante la valoración de pares, cuáles solicitudes aceptará (portafolio) para con ello apoyarlas económicamente (inversión) durante cierto periodo de tiempo, el cual al concluir dará pauta a valorar la permanencia de dicho investigador, si este así lo desea, tomando en cuenta nuevamente su última producción científica (rendimiento). Desde esta perspectiva, la selección de un proyecto de investigación (en nuestro caso será la solicitud presentada por un investigador mexicano al SNI) bien puede verse como una inversión (asumiendo que dicho proyecto de investigación sea aprobado por el SNI), y la elección simultánea de varios de ellos como la integración de un portafolio de inversión (por supuesto, dicho portafolio será integrado por todas las solicitudes aprobadas por el SNI en un determinado año). De esta manera, y como bien se desprende de Reguia (2014), las organizaciones innovan para mantener su composición competitiva y, con ello, hacerse de ventajas competitivas cada vez más innovadoras.

En este sentido, la selección de proyectos conlleva obligatoriamente a la selección de recursos humanos. Es cierto que un buen proyecto no necesariamente implica un buen capital humano. Sin embargo, es más probable que un buen capital humano implique un buen proyecto, el cual se espera propicie un impacto considerable en el desarrollo y el crecimiento económico de una determinada región. En este contexto Khurram, Kirsten y Phanindra (2007) demostraron que aquellos países que han destinado considerables inversiones económicas para el desarrollo humano lograron una producción más eficiente y, como resultado, mantuvieron tasas de crecimiento más altas. En relación con la creación y transferencia de nueva ciencia y tecnología la inversión en estos investigadores mexicanos está más que justificada, ya que como mencionan Schultz (1961) y Krueger y Ruttan (1989) estas no serían posibles si un país no posee un nivel de capital humano intelectual adecuado para derivar todo el beneficio del que es capaz. En contraparte, el riesgo de la inversión podría ser que el investigador no renueve su solicitud y con ello se pierda dicha inversión tanto en conocimiento como en lo económico.

La logística que asume el SNI anualmente para la selección de proyectos y/o capital humano intelectual conlleva una gran inversión de tiempo y de recursos tanto humanos como económicos. No obstante, y al contar con un soporte o apoyo técnico para llevar a cabo las mencionadas evaluaciones, se podrían optimizar todos esos recursos y hacer más eficiente su logística. En esta, la selección de una solicitud por parte del SNI indudablemente dependerá del factor humano. Por ello, se justifica la existencia de una Comisión Evaluadora en cada una de las siete áreas del conocimiento definidas por dicho sistema de investigación. Sin embargo, ¿cómo ha sido esta selección de solicitudes? Es decir, ¿existe en realidad una correspondencia entre la información presentada al SNI por cada investigador aprobado y el nombramiento que le otorga dicho sistema de investigación? Y ¿los resultados (outputs de investigación) justifican las resoluciones adoptadas por dicho sistema de investigación? El presente trabajo pretende avanzar en este conocimiento con base en una técnica de análisis de datos conocida como clustering.

Tras esta introducción, el presente artículo se divide en cinco apartados: en el primero se comenta el objetivo de este estudio; en el segundo se describe la metodología así como los datos utilizados. En el tercero se presenta brevemente el SNI; en el cuarto, los resultados obtenidos y, por último, se muestran unos comentarios a modo de conclusiones.

 

2. Objetivo

El objetivo que persigue este artículo es mostrar que una técnica de análisis y agrupamiento de datos sirve como apoyo y soporte técnico para hacer más eficiente la selección de recursos humanos especializados que integran un programa concerniente a la política pública de investigación en México.

Al conocer la correspondencia que existe entre el nombramiento asignado a los investigadores aprobados por el SNI y su producción científica, mediante una técnica de agrupamiento de datos (k Means), se pueden detectar las características predominantes del SNI. Es decir, se puede apreciar el potencial intelectual y productivo de los investigadores mexicanos seleccionados por las siete Comisiones Evaluadoras definidas por este sistema. Este análisis definitivamente permitirá valorar si la asignación realizada por el SNI se basa en la producción científica reportada por cada investigador mexicano aceptado durante el periodo de 1996 a 2003.

Además, a través de este trabajo de investigación se manifiestan implícitamente, aunque con una perspectiva más de mediano plazo, las bases para automatizar la logística de la convocatoria emitida anualmente por el SNI. Es decir, se cimientan las bases para justificar el nombramiento asignado a cada investigador en relación con su producción científica reportada al SNI desde el punto de vista cuantitativo. Todo ello, con miras a servir de apoyo a los evaluadores del SNI y hacer sus valoraciones más representativas.

 

3. Metodología

El proceso de clustering consiste en dividir los datos en grupos de objetos similares (Bao, Han y Wu, 2006). Entonces esta técnica se puede usar para investigar la cercanía entre objetos y obtener la validación de una clasificación. En los métodos tradicionales de cluster, la función objetivo está basada en algoritmos de agrupamiento. Dicha función se hizo más popular al convertirse en un problema de optimización (Fisher, 1936). Es decir, el análisis de clusters es un problema focalizado en dividir un conjunto de datos , de algún espacio X, en una colección de grupos disjuntos pero similares entre ellos (MacQueen, 1967). En este contexto, el algoritmo k means surge como un método para la clasificación, y actualmente es considerado como un algoritmo exclusivo de agrupamiento no jerárquico; si un específico conjunto de datos pertenece a un grupo definido entonces no puede pertenecer a otro grupo simultáneamente. No obstante, uno de los principales problemas de este método es seleccionar el mejor valor de k, es decir, el número de clases o grupos. Por su parte, Kuo, Ho y Hu (2002) señalan que para estos métodos no jerárquicos se puede tener mayor precisión si el punto de partida y el número de las agrupaciones son preestablecidos. Es decir, k means es un algoritmo de aprendizaje no supervisado que resuelve eficientemente el problema de agrupamiento. Por tanto, la idea es definir los centroides k, uno para cada cluster. En otras palabras, estos centroides cambian su ubicación paso a paso (iteraciones) hasta que no se realicen más cambios, es entonces cuando se constituyen dichos centroides. En este sentido, y siguiendo el trabajo de Soto, Flores, y Vigo (2004), el algoritmo denominado k means proporciona k clusters  cuando se minimiza la siguiente función objetivo:

Donde  es una distancia, previamente seleccionada, entre un conjunto de puntos  y el centroide  del correspondiente cluster. Toda vez que el número de iteraciones ha concluido, un elemento pertenece tan solo a un cluster y no a varios simultáneamente[4]. En este trabajo se utiliza la herramienta para el análisis de datos conocida como k Means (Anderberg, 1973; Bock, 2008; MacQueen, 1967). Se considera este algoritmo de datos porque permite detectar tanto el nivel de asociación como la importancia de las variables involucradas. Además, este algoritmo está considerado entre los mejores diez algoritmos para la clasificación de datos (Wu et al, 2008). El insumo para esta técnica de análisis de datos es, en gran medida, la producción científica[5] reportada al SNI por cada investigador que solicitó el ingreso/permanencia a dicho sistema de investigación mexicano durante el periodo 1996-2003. Por otra parte, para detectar el total de artículos por investigador en el ISI[6], y reportados al SNI de 1996 a 2003, se utilizaron las bases de datos denominadas Science Citation Index (SCI) y Social Science Citation Index (SSCI), ambas ubicadas en el apartado ISI Web of Knowledge. Es decir, se hace uso de la información presentada por cada investigador al SNI para ser aceptado en dicho sistema, así como de la información del Institute for Scientific Information (ISI), la cual hace referencia a las publicaciones realizadas por al menos un investigador mexicano. Estas tres fuentes de información son consideradas con una periodicidad anual y para el periodo comprendido por los años de 1996 a 2003. A pesar de que la información del SNI estuvo acotada por el año 2003, y debido a que las estimaciones no involucran una variable cuantitativa temporal, es decir, que haga énfasis al tiempo o periodo alguno, los resultados de las estimaciones no se limitan a un periodo de estudio determinado. En consecuencia, y para los fines de este capítulo, se puede suponer que dicho periodo de estudio hace referencia a los últimos ocho años del SNI[7].

Con el algoritmo k means se pretende, sumado al factor humano, obtener unos dictámenes más robustos y eficientes por parte del SNI. Este análisis tiene sentido, ya que gran parte de las variables utilizadas por esta técnica de agrupamiento y análisis de datos son cuantitativas (Huang, 1998). Es decir, a través de esta técnica de agrupamiento de datos, se detectan las características predominantes de los investigadores mexicanos aceptados por el SNI, de 1996 a 2003. Este análisis muestra, por una parte, la correspondencia que existe entre las evaluaciones internas realizadas en el SNI y los diferentes perfiles de los investigadores aprobados por este sistema de investigación. Por otra parte, dicho análisis sirve para detectar el potencial de dichos investigadores que formaron parte del SNI durante algún periodo de tiempo. Toda vez que se estimaron los respectivos clusters, la información obtenida para los promedios reales mediante el algoritmo de k means y los promedios estimados de una solicitud aprobada por el SNI, de 1996 a 2003, permitió llevar a cabo un comparativo mediante la distancia de Hamming (Hamming, 1950). Se utilizó la distancia de Hamming porque los reactivos involucrados en el análisis bien pueden ser considerados como atributos de un perfil deseado. Con ello, se muestran finalmente los potenciales nombramientos que definieron, a su vez, a cada una de las áreas definidas por el SNI durante el periodo de 1996 a 2003.

Como consecuencia, y mediante estas técnicas de análisis y agrupamiento de datos, en la medida de que se disponga de mayor pero sobre todo mejor información por parte del SNI, entonces se obtendrán evaluaciones más robustas, las cuales conllevarán a tener un panorama más claro del potencial de los investigadores mexicanos que integran al SNI. Desde el punto de vista de la automatización, y en términos de una estimación (Greene, 2008), lo que se pretende es, para cada dato pronosticado, llevar el nivel subjetivo humano a niveles poco significativos. Es decir, obtener las estimaciones más robustas que finalmente serán ratificadas por los evaluadores que conforman las Comisiones Evaluadoras del SNI. Por lo tanto, en la medida que aumente la calidad de la información recabada por el SNI mejor será el soporte técnico proporcionado a dichos evaluadores para la asignación de un nombramiento.

Como ya se mencionó con anterioridad, resaltar que tan solo se contó con la producción científica de aquellos investigadores mexicanos aprobados por el SNI durante el periodo de 1996 a 2003. Además, se desconoció la producción científica de las solicitudes no aprobadas por dicho sistema de investigación. Consecuentemente, se orientó el análisis a conocer si el SIN, en realidad, ha llevado a cabo una buena selección de solicitudes. No obstante, la experiencia de la información integrada para los investigadores aprobados por el SNI permitió responder el interrogante de cómo se han llevado a cabo las evaluaciones en dicho sistema. No se ha podido considerar un período temporal más amplio debido a que el SNI solo proporcionó la información hasta el año 2003. Este hecho, sin duda, es una limitación pero se entiende que no anula el interés del artículo, puesto que permite ver igualmente las potencialidades de la técnica aplicada y, además, permite valorar la racionalidad de los criterios de evaluación[8] aplicados por el SNI, similares a los utilizados, incluso, en un periodo más reciente.

 

4. El Sistema Nacional de Investigadores (SNI)

Es un subprograma del Programa de Fomento a la Investigación Científica, establecido por el Gobierno Federal, cuya conducción y operación, así como el establecimiento de sus objetivos y funciones, organización y reglamentación interna, están a cargo del Consejo Nacional de Ciencia y Tecnología (CONACyT). El SNI de México, tiene por objeto promover y fortalecer, a través de una evaluación, la calidad de la investigación científica y tecnológica y la innovación que se produce en el país (CONACyT, 2017).

 

Figura 1. Total de investigadores vigentes en el SNI por año y por género, 1996-2003.

 

Fuente: Elaboración propia con información del SNI, 2012.

 

El ingreso al SNI es voluntario y gratuito para el solicitante. Una vez analizada su solicitud por la correspondiente Comisión Evaluadora, en alguna de las siete áreas del conocimiento definidas por este sistema de investigación mexicano, al solicitante se le comunica su valoración positiva o negativa y, en el primer caso, un nombramiento (véase Figura 2) como miembro del SNI con la adscripción a un nivel (Candidato a Investigador, Investigador Nacional Nivel I, Investigador Nacional Nivel II o Investigador Nacional Nivel III), que además tiene asociada una compensación económica variable. Actualmente, pertenecer a dicho sistema de investigación supone un reconocimiento a la calidad y prestigio académico del investigador, resultado de una producción científica de considerable trascendencia a nivel nacional y, en algunos casos, en el ámbito internacional.

 

Figura 2. Promedio[9] de investigadores vigentes por categoría del SNI, 1996-2003.

Fuente: Elaboración propia con información del SNI, 2012.

 

 

La distribución por género (véase Figura 1), para el periodo de 1996 a 2003, de los investigadores vigentes mostró una tendencia creciente tanto para los hombres (5446 en promedio) como para las mujeres (2193 en promedio) en el SNI. Sin embargo, la razón promedio entre hombre-mujer para este periodo fue de 2.5 a 1. De esta manera, el promedio de los investigadores vigentes por cada área del conocimiento definida por el SNI y género se muestra en la Tabla 1.

Tabla 1. Promedio de investigadores vigentes por área del conocimiento del SNI, 1996-2003.

 

Área

Promedio 1996-2003

%

Total

Hombres

Mujeres

Total

Area I: Físico-Matemáticas y Ciencias de la Tierra

1,304

242

1,546

20.2

Area II: Biología y Química

994

544

1,538

20.1

Area III: Medicina y Ciencias de la Salud

494

292

786

10.3

Area IV: Humanidades y Ciencias de la Conducta

696

623

1,318

17.3

Area V: Sociales

589

258

848

11.1

Area VI: Biotecnología y Ciencias Agropecuarias

575

131

706

9.2

Area VII: Ingeniería y Tecnología

794

103

898

11.7

Promedio de todas las áreas

5,446

2,193

7,639

100.0

Fuente: Elaboración propia con información del SNI, 2012.

 

En relación con el total de solicitudes recibidas por este sistema de investigación, se puede mencionar que el índice de solicitudes aprobadas pasó del 72.2% en 1996 al 77.6% en el año 2003. Estos resultados implican que el índice de solicitudes no aprobadas pasó del 27.8% al 22.4% de 1996 a 2003 respectivamente. Sin duda, y durante el periodo de estudio, este sistema de investigación favoreció el ingreso/permanencia de los investigadores mexicanos. Otro resultado de suma importancia es la participación de los investigadores que pertenecen al SNI con respecto a los investigadores mexicanos que no tienen dicho registro, definidos estos últimos como de tiempo completo (véase Figura 3). Es interesante apreciar que durante cada año, de 1996 a 2003, la participación del SNI, en relación con los investigadores mexicanos de tiempo completo, fue de una tercera parte.

 

 

Figura 3. Participación del SNI respecto al total de investigadores mexicanos en equivalente de tiempo completo, 1996-2003.

Fuente: Elaboración propia con información del SNI, 2012.

OECD: Main Science and Technology Indicators, 2005-2.

RICYT: Principales Indicadores de Ciencia y Tecnología, 2004.

5. Resultados y su análisis

En este apartado se asume lo siguiente: 1) los dictámenes emitidos por cada una de las siete Comisiones Evaluadoras del SNI son dados, es decir, congruentes o no, son irrepetibles y, 2) las resoluciones, correctas o no, son perfectibles. Es por ello que existen Subcomisiones Evaluadoras, que tienen por objetivo evaluar las solicitudes de inconformidad, y pueden emitir un dictamen diferente al de la Comisión Evaluadora correspondiente. Asimismo, la información involucrada para este análisis clustering fue la mostrada en la Tabla 2. El número total de clusters definidos para este algoritmo fueron cuatro (C1, C2, C3 y C4)[10], a semejanza y/o similitud de los nombramientos del SNI. Con esta relación se pretende establecer una correspondencia entre los nombramientos otorgados por dicho sistema de investigación y los grupos pronosticados mediante la técnica de agrupamiento k means. La similitud entre cada grupo pronosticado y el correspondiente nombramiento del SNI estará en función de la producción científica reportada para dicho sistema por cada uno de estos cuatro nombramientos internos.

 

 

 

Tabla 2. Descripción de las variables de agrupamiento para realizar el clustering.

1

SEXO (sexo del solicitante). Hombre=1 y Mujer=0

2

EDAD (edad del investigador al momento de presentar su solicitud al SNI).

3

GRADO (último grado académico reportado al SNI por el solicitante). Doctorado=3; Maestría=2; Especialidad=1 y Licenciatura=0

4

NA (nivel anterior del investigador, únicamente para reingresos vigentes). Nivel III=3; Nivel II=2; Nivel I=1 y Candidato=0

5

NIVEL (nivel asignado por el SNI al momento de ingreso). Nivel III=3; Nivel II=2; Nivel I=1 y Candidato=0

6

AREA (área de conocimiento definida por el SNI). Físico-Matemáticas y ciencias de la tierra=1; Biología y Química=2; Medicina y ciencias de la salud=3; Humanidades y Ciencias de la conducta=4; Sociales=5; Biotecnología y ciencias Agropecuarias=6; Ingeniería y Tecnología=7.

7

DISC_SNI (disciplina asociada al área de conocimiento definida por el SNI). Clave del SNI asignada a cada disciplina del conocimiento.

8

SIT (situación del solicitante; Reingreso Vigente, Nuevo Ingreso, Reingreso No Vigente). Reingreso Vigente=2; Nuevo Ingreso=1 y Reingreso No Vigente=0

9

INST (institución de adscripción en México del solicitante). Clave del SNI asignada a cada institución de adscripción.

10

UBIC_MEX (ubicación geográfica en México de la institución de adscripción del solicitante). Aguascalientes=1;…..Distrito Federal=9;……:Zacatecas=31 y NE=0

11

ART_SNI (artículos reportados al SNI por el solicitante ya sean estos publicados, aceptados ó enviados). Número de artículos=0,1,2,…..n

12

CAP_LIB (capítulos de libros reportados por el solicitante). Número de capítulos de libros=0,1,2,…..n

13

CITAS (citas recibidas a los trabajos del solicitante). Total de citas=0,1,2,…..n

14

DES_TEC (desarrollos tecnológicos realizados por el solicitante). Número de desarrollos tecnológicos=0,1,2,…..n

15

DISTIN (distinciones recibidas por el solicitante). Número de distinciones=0,1,2,…..n

16

DOCENCIA (total de cursos académicos impartidos por el solicitante). Número de cursos impartidos=0,1,2,…..n

17

EST_INV (estancias de investigación realizadas por el solicitante). Número de estancias de investigación=0,1,2,…..n

18

POSDOC (posdoctorados realizados por el solicitante). Número de posdoctorados=0,1,2,…..n

19

GRU_INV (grupos de investigación a los que pertenece el solicitante). Número de grupos de investigación=0,1,2,…..n

20

INVITA (invitaciones a congresos nacionales o internacionales). Número de congresos=0,1,2,…..n

21

LIBROS (libros reportados por el solicitante). Número de libros=0,1,2,…..n

22

LIBEDIT (libros editados reportados por el solicitante). Número de libros editados=0,1,2,…..n

23

LIB_TRAD (libros traducidos reportados por el solicitante). Numero de libros traducidos=0,1,2,…..n

24

MEMORIAS (memorias de congresos reportados por el solicitante). Número de memorias=0,1,2,…..n

25

PATENTES (patentes registradas reportadas por el solicitante). Número de patentes=0,1,2,…..n

26

RESENAS (reseñas reportadas por el solicitante). Número de reseñas=0,1,2,…..n

27

TESIS (tesis dirigidas reportadas por el solicitante). Número de tesis=0,1,2,…..n

28

PUBIC_ISI (total de publicaciones del investigador con registro SNI en el ISI). Número de publicaciones en el ISI=0,1,2,…..n

Fuente: Elaboración propia con información del SNI y el ISI, 2012.

 

Los promedios reales[11] para una solicitud aprobada por el SNI, de 1996 a 2003, por nivel y concepto se muestran en la Tabla 3, mientras que los promedios estimados se presentan en la Tabla 4. Como resultado de aplicar el algoritmo k means, el 87.1% del total de observaciones fueron clasificadas en el conglomerado C2 de la Tabla 4. Este conglomerado captó el mayor número de solicitudes aprobadas durante dicho periodo (véase Figura 4), ya que para los investigadores con un nombramiento de Candidato, el 91.7% fue clasificado en el mencionado conglomerado C2; para los investigadores Nivel I esta clasificación fue del 90.3%; para los investigadores Nivel II fue del 77.2% y para los investigadores Nivel III fue del 66.7%. Mencionar que el 3.5% del total de solicitudes aprobadas por el SNI no fueron clasificadas en ningún conglomerado.

 

Tabla 3. Promedios reales para una solicitud aprobada en el SNI, por concepto y nivel 1996-2003.

 

Concepto

 

Candidato

Investigador Nacional

Nivel I

Nivel II

Nivel III

Artículos

3.7

8.8

15.6

23.0

Publicaciones en el ISI

0.3

0.7

1.4

2.5

Capítulos de libros

0.6

1.8

3.2

5.3

Citas realizadas

2.1

14.1

46.0

84.6

Desarrollos tecnológicos

0.2

0.5

0.5

0.9

Distinciones recibidas

1.9

2.9

4.6

6.1

Cursos académicos impartidos

0.2

0.2

0.1

0.7

Estancias de investigación

0.2

0.1

0.1

0.1

Estancias posdoctorales

0.4

0.6

1.0

1.1

Grupos de investigación

0.2

0.6

1.0

1.2

Invitaciones a congresos

5.7

9.9

13.2

20.5

Libros

0.3

0.8

1.3

1.8

Libros editados

0.1

0.2

0.5

0.9

Libros traducidos

0.0

0.1

0.1

0.2

Memorias en congresos

1.6

3.0

4.2

5.4

Patentes

0.0

0.1

0.2

0.3

Reseñas

0.1

0.3

0.5

0.7

Tesis dirigidas

1.9

5.2

8.1

9.8

Fuente: Elaboración propia con información histórica del SNI, 2012.

 

 

Tabla 4. Promedios estimados[12] para una solicitud aprobada en el SNI por concepto, 1996-2003.

 

Concepto

Conglomerado

C1

C2

C3

C4

Artículos

63.6

8.0

24.3

40.2

Publicaciones en el ISI

4.4

0.7

2.2

3.3

Capítulos de libros

6.7

1.8

3.6

5.8

Citas realizadas

825.4

6.2

109.1

344.5

Desarrollos tecnológicos

0.1

0.5

0.7

0.5

Distinciones recibidas

11.2

2.9

6.0

8.5

Cursos académicos impartidos

0.3

0.2

0.3

0.4

Estancias de investigación

0.2

0.1

0.1

0.1

Estancias posdoctorales

1.5

0.6

1.3

1.8

Grupos de investigación

1.0

0.6

1.0

1.2

Invitaciones a congresos

40.1

9.2

19.0

30.0

Libros

1.9

0.8

1.1

1.3

Libros editados

0.9

0.3

0.5

0.6

Libros traducidos

1.2

0.1

0.1

0.1

Memorias en congresos

7.0

2.7

5.9

9.0

Patentes

0.1

0.1

0.3

0.3

Reseñas

0.2

0.3

0.3

0.9

Tesis dirigidas

15.1

4.9

10.0

11.7

Fuente: Elaboración propia con información histórica del SNI, 2012.

 

Por su parte, de la figura 4 se desprenden tres importantes comentarios: 1) los nombramientos asignados por el SNI, de 1996 a 2003, convergen hacia un solo conglomerado, y en particular al cluster C2 de este análisis; 2) los niveles del SNI denominados Candidato y Nivel I presentan una ubicación más cercana hacia el mencionado cluster C2 y, 3) los niveles superiores del SNI (Nivel II y Nivel III) lo hacen también, pero con una ubicación más lejana.

 

Figura 4. Distribución de los nombramientos del SNI en los conglomerados obtenidos mediante el algoritmo k means, 1996-2003.

 4

Fuente: Elaboración propia con información histórica del SNI, 2012.

 

En este contexto, y a partir de la Figura 4, no se aprecia otro agrupamiento, además del cluster C2, que muestre una participación significativa. De estos últimos resultados se puede deducir que la producción científica reportada al SNI, por todos los investigadores mexicanos aprobados, no justifica la existencia de cuatro niveles, sino que solo se justifica uno o como máximo dos (en primera instancia tan solo un conglomerado definido por los Candidatos o bien, como segunda instancia, un primer conglomerado que agrupe a los investigadores con los nombramientos Candidato-Nivel I y otro agrupamiento que contenga a los investigadores con los nombramientos Nivel II-Nivel III).

La información obtenida para los promedios reales, mediante el algoritmo de k means (Tabla 3) y los promedios estimados (Tabla 4) de una solicitud aprobada por el SNI, de 1996 a 2003, permite realizar un comparativo mediante la distancia de Hamming[13]. Esta distancia se define de la siguiente manera:


Donde:

(x) es el vector de los promedios reales en cada nivel del SNI

(y) es el vector de los promedios estimados en cada nivel del SNI

 define todos los atributos del conjunto (x)

 define todos los atributos del conjunto (y)

xk es el k-ésimo atributo del conjunto (x)

yk es el k-ésimo atributo del conjunto (y)

n es el total de atributos

 

Se utiliza esta distancia para detectar la similitud que existe entre los vectores reales de la producción asociada a cada nivel del SNI y los vectores estimados mediante el algoritmo de k means (véase Tabla 5). Es decir, si no existiera el criterio subjetivo en el proceso de evaluación del SNI, entonces los nombramientos definitivamente tendrían una distribución muy diferente a la observada en el periodo de estudio.

 

Tabla 5. Matriz de distancias Hamming para los promedios reales y los promedios estimados mediante el algoritmo k means.

Nivel / Cluster

C1

C2

C3

C4

Candidato

53.4

1.1

9.3

24.5

Nivel I

51.8

0.6

7.6

22.8

Nivel II

49.0

3.4

4.7

19.9

Nivel III

45.6

7.0

1.8

16.6

Fuente: Elaboración propia con información histórica del SNI, 2012.

 

 

Los resultados de la Tabla 5 permiten deducir lo siguiente: a) el total de solicitudes aprobadas por el SNI, durante el periodo de estudio, presentó un claro agrupamiento hacia dos conglomerados (C2 y C3); b) tres de los cuatro nombramientos definidos en el SNI (Candidato, Nivel I y II) mostraron una clara convergencia hacia un solo conglomerado, a decir, el cluster C2; c) los investigadores Nivel III convergen hacia el clúster C3 y; d) el clúster C2 presentó bastante similitud (menor distancia de Hamming) con el vector real referente a un investigador Nivel I. Este último resultado implica que casi un 90% de los investigadores mexicanos aprobados por el SNI, de 1996 a 2003, tuvieron el perfil productivo de un investigador Nivel I. Para validar la coherencia de los resultados obtenidos en la Tabla 5, se calculó la matriz de distancias Hamming para los promedios reales de los criterios evaluados a los investigadores aprobados por el SNI de 1996 a 2003 (véase Tabla 6). Destacar que de la Tabla 6 se desprende un resultado de suma importancia: en la realidad del SNI el perfil productivo de un Candidato es muy similar al perfil productivo de un Nivel I.

 

Tabla 6. Matriz de distancias Hamming para los promedios reales de los criterios evaluados en el SNI, por nivel 1996-2003.

Nivel del SNI

Candidato

Nivel I

Nivel II

Nivel III

Candidato

0.0

1.7

4.6

8.1

Nivel I

1.7

0.0

2.9

6.4

Nivel II

4.6

2.9

0.0

3.5

Nivel III

8.1

6.4

3.5

0.0

Fuente: Elaboración propia con información histórica del SNI, 2012.

 

Estos últimos resultados obtenidos para el total de solicitudes aprobadas por el SNI, de 1996 a 2003, se obtuvieron también para la gran mayoría de las áreas del conocimiento definidas por dicho sistema de investigación (véase Tabla 7). Más aún, para el Área I se encontró que tres nombramientos del SNI pueden ser clasificados en uno solo (Candidato, Nivel I y Nivel II), mientras que los investigadores con más experiencia (Nivel III) definitivamente pueden ser considerados por separado. En el Área II se definieron dos conglomerados de investigadores; por una parte, los dos niveles inferiores del SNI (Candidato y Nivel I) y por otra parte, los dos niveles superiores (Nivel II y Nivel III). Así, en el Área III también se definieron 2 conglomerados, uno de ellos integra a los investigadores con un nombramiento de Candidato y Niveles I y el otro conglomerado a los dos niveles superiores del SNI (Nivel II y Nivel III). Para el Área IV se conformaron dos agrupamientos, en el primero de ellos se definieron a los niveles Candidato - Nivel I - Nivel II y en el otro clúster a los investigadores mexicanos del SNI con un nombramiento de Nivel III.

En el Área V se identificaron dos grupos de investigadores, aquellos con un nombramiento de Candidato - Nivel I - Nivel II y los investigadores con el nivel superior del SNI (Nivel III). De la misma manera, en el Área VII se identificaron dos conglomerados, el primero de ellos agrupó a los investigadores con un nombramiento de Candidato - Nivel I - Nivel II y el segundo agrupó a aquellos investigadores con un nombramiento de Nivel III. Finalmente, en el Área VII tan solo se detectó un conglomerado. Estos resultados muestran que en seis de las siete áreas del SNI se identificaron, a lo más, dos conglomerados (también se pueden apreciar los dendogramas generados en la Figura 5 que enfatizan este resultado) en donde se concentraron una gran proporción de dichas solicitudes aprobadas, de 1996 a 2003.

Otro resultado que se deduce de la Tabla 7 es que, en todas las áreas definidas por el SNI, se utilizaron criterios internos de evaluación diferentes, ya que al diferir el conglomerado para cada nivel, entonces bien, se puede decir que cada área valoró criterios científicos diferentes al aprobar una solicitud durante el periodo de estudio. Además, sobresale el hecho de que en la gran mayoría de estas áreas de conocimiento el nivel superior del SNI (Investigador Nacional Nivel III) se diferencia claramente de los otros nombramientos. Ello implica que la información integrada por el SNI para definir a estos últimos investigadores debería ser diferente pero, sobre todo, debería primar la calidad de sus investigaciones (por ejemplo, artículos con calidad JCR, citas en revistas de alto impacto, desarrollos internacionales, etc.).

 

Tabla 7. Matriz de distancias Hamming para los promedios reales y los promedios estimados mediante k means, por área de conocimiento del SNI.

Área

Nivel/Clúster

C1

C2

C3

C4

AREA I: Físico-Matemáticas y Ciencias de la Tierra

Candidato

1.2

81.0

11.1

33.8

Nivel I

0.4

79.5

9.6

32.3

Nivel II

3.9

76.4

6.0

28.8

Nivel III

7.6

73.4

2.4

25.0

AREA II: Biología y Química.

Candidato

50.7

1.0

8.7

23.3

Nivel I

48.7

1.1

6.7

21.2

Nivel II

44.7

5.1

2.6

17.2

Nivel III

39.5

10.4

2.7

12.1

AREA III: Medicina y Ciencias de la Salud.

Candidato

49.0

9.5

24.1

1.1

Nivel I

46.2

6.7

21.3

1.7

Nivel II

40.4

0.9

15.5

7.6

Nivel III

35.9

3.9

11.1

12.3

AREA IV: Humanidades y Ciencias de la conducta.

Candidato

6.2

0.5

35.6

15.7

Nivel I

5.1

0.7

35.0

14.6

Nivel II

4.1

1.7

34.7

13.6

Nivel III

2.8

3.6

34.1

11.7

AREA V: Sociales.

Candidato

7.1

21.0

7.9

0.71

Nivel I

5.7

19.6

6.5

0.68

Nivel II

4.8

18.1

5.0

2.2

Nivel III

4.6

15.8

3.2

4.5

AREA VI: Biotecnología y Ciencias Agropecuarias.

Candidato

42.9

0.8

21.1

7.9

Nivel I

41.4

0.9

19.4

6.2

Nivel II

39.5

2.9

17.4

4.2

Nivel III

39.7

7.6

12.8

2.0

AREA VII: Ingeniería y Tecnología.

Candidato

52.2

27.1

9.4

1.1

Nivel I

50.7

25.6

7.9

0.4

Nivel II

47.2

22.0

4.4

3.9

Nivel III

19.9

2.5

6.1

2.0

Fuente: Elaboración propia con información histórica del SNI, 2012.

Al continuar con el análisis de los resultados, en la Figura 5 se presentan los dendogramas, por área del conocimiento del SNI, correspondientes a los conglomerados (niveles) estimados y reales con base en los outputs de investigación, considerados por dicho sistema de investigación de 1996 a 2003. Los casos se representan en las filas y las etapas de la fusión en las columnas. A través de estos dendogramas, sin lugar a dudas, se pueden visualizar gráficamente los comentarios vertidos durante este apartado. Es decir, los mencionados dendogramas describen y caracterizan visualmente el hecho de que los criterios definidos en cada una de las áreas definidas por el SNI, durante el periodo de 1996 a 2003, fueron diametralmente distintos y que el número de nombramientos debería de analizarse con más detalle, inclusive por área del conocimiento del SNI. En este contexto, y considerando que los conglomerados estimados no son los mismos o no deberían de ser los mismos en cada una de las áreas de conocimiento del SNI, entonces no puede hacerse un análisis respecto al conglomerado más representativo de todas las áreas.

 

 

Figura 5. Dendogramas por área del conocimiento definida en el SNI, correspondientes a los conglomerados (niveles) estimados y reales.

 

 

AREA I: Físico-Matemáticas y Ciencias de la Tierra.

 

Promedios estimados                                                                       Promedios reales

 

                                                                                                                                                                                                                     

                                     

 

AREA II: Biología y Química.

 

Promedios estimados                                                                       Promedios reales

                                     

                                                                                                                                                                                                     

 

 

AREA III: Medicina y Ciencias de la Salud.

 

Promedios estimados                                                                       Promedios reales

 

                                                                                                                                                                      

                                                                          

     

             

 

AREA IV: Humanidades y Ciencias de la Salud.

 

Promedios estimados                                                                       Promedios reales