Archivo

Virgen de Loreto

Patrona de la Aviación

Este espacio está reservado para los artículos ya publicados

 

ver artículo agosto 2008

ver artículo julio 2008

ver artículo junio 2008

ver artículo mayo 2008

ver artículo abril 2008

ver artículo marzo 2008

ver artículo febrero 2008

ver artículo enero 2008

ver artículo diciembre 2007

ver artículo noviembre 2007

ver artículo octubre 2007

ver artículo septiembre 2007

ver artículo agosto 2007

ver artículo julio 2007

ver artículo junio 2007

ver artículo mayo 2007

ver artículo abril 2007

ver artículo marzo 2007

ver artículo febrero 2007

ver artículo enero 2007

ver artículo diciembre 2006

ver artículo noviembre 2006

ver artículo octubre 2006

ver artículo septiembre 2006

ver artículo agosto 2006

ver artículo julio 2006

ver artículo junio 2006

ver artículo mayo 2006

ver artículo abril 2006

ver artículo marzo 2006

ver artículo febrero 2006

ver artículo enero 2006

ver artículo diciembre 2005

ver artículo noviembre 2005

ver artículo octubre 2005

ver artículo septiembre 2005

ver artículo agosto 2005

ver artículo julio 2005

ver artículo junio 2005

ver artículo mayo 2005

ver artículo abril 2005

ver artículo marzo 2005

ver artículo febrero 2005

ver artículo enero 2005

ver artículo diciembre 2004

ver artículo noviembre 2004

ver artículo octubre 2004

ver artículo septiembre 2004

ver artículo agosto 2004

ver artículo julio 2004

ver artículo junio 2004

ver artículo mayo 2004

ver artículo abril 2004

ver artículo marzo 2004

ver artículo febrero 2004

ver artículo enero 2004

ver artículo diciembre 2003

ver artículo noviembre 2003

ver artículo octubre 2003

ver artículo septiembre 2003

ver artículo agosto 2003

ver artículo julio 2003

ver artículo junio 2003

ver artículo mayo 2003

ver artículo abril 2003

ver artículo marzo 2003

ver artículo febrero 2003

ver artículo enero 2003

ver artículo diciembre 2002

ver artículo noviembre 2002

ver artículo octubre 2002

ver artículo septiembre 2002

ver artículo agosto 2002

ver artículo julio 2002

ver artículo junio 2002

ver artículo mayo 2002

ver artículo abril 2002

ver artículo marzo 2002

ver artículo febrero 2002

ver artículo enero 2002

ver artículo diciembre 2001

ver artículo noviembre 2001

ver artículo octubre 2001

ver artículo septiembre 2001

ver artículo agosto 2001

ver artículo julio 2001

ver articulo junio 2001

ver articulo mayo 2001

ver articulo abril 2001

ver articulo marzo 2001


subir índice

Artículo Agosto 2008

COMO ELABORAR ESCALAS TECNICAS DE GUTTMAN

 

    Introduccion.

    Desde los primeros trabajos de Guttman, la escala monodimensional ha sido ampliamente usada por sociólogos y psicólogos sociales. Su utilidad se revela no solamente por el número de científicos sociales que la han empleado sino por el número de mediciones diferentes para las que se ha adaptado. Aunque desde su aparición han transcurrido ya medio siglo, que ha servido para evaluar exactamente su contribución a la sociología y a la psicología social.

    Es verdad que la técnica de Guttman permite el tratamiento de datos cualitativos sin hacer la discutible conversión a datos cuantitativos como se hace en algunas otras técnicas de elaboración de escalas. De esta manera, los investigadores han reducido al mínimo las interpretaciones erróneas, al evitar suposiciones de medida equivocadas. Pero lo más importante para el desarrollo de la ciencia conductual es que el modelo de Guttman contenga cierto mecanismo intrínseco (el coeficiente de reproductibilidad) por el cual uno se ve obligado a examinar la consistencia interna de los reactivos que componen la escala.

    Este mecanismo compele la atención hacia lo que realmente se está midiendo. Aunque en ocasiones se han obtenido medidas "estériles", no obstante las pruebas de consistencia interna, generalmente los requerimientos de reproductibilidad han favorecido la mayor claridad conceptual. Es, indudablemente, difícil examinar la consistencia interna de un conjunto de reactivos sin ocuparnos de lo que realmente se está midiendo o, por lo menos, de lo que se está haciendo variar en los reactivos, para explicar la variación de las frecuencias de respuesta, de tos reactivos. Es asimismo inevitable la obtención de mayor claridad conceptual sobre el requerimiento de que, cada vez que se use una escala, su consistencia interna haya de ser reexaminada. Así, cuando con un conjunto de reactivos puede hacerse una escala para un grupo pero no para otro, o suceda lo anterior con un grupo particular en el tiempo 1 pero no en el tiempo 2, es preciso explicar el porqué. La técnica de Guttman ha suministrado además un modelo para la organización de datos colectivos y otros no actitudinales (Rifey y colaboradores, 1954). Ha habido y han sido estimulados los considerables esfuerzos por mejorar el procedimiento original, de Guttman, para elaborar escalas.

    La mayoría de las mejoras al método de Guttman para construir escalas, desde los últimos años de la década del 40, se han concentrado en las técnicas para evaluar una escala (es decir, las técnicas para determinar con más precisión el grado en que un conjunto de reactivos se convierte en una escala eficaz) y en la mecánica de la elaboración de escalas cuando se utiliza equipo electrónico de procesamiento de datos.

    Aunque parece que existe mayor interés en los criterios del reconocimiento de errores que en los criterios de prevención de los mismos, en la construcción de escalas ha habido notables aportaciones. Entre ellas se han seleccionado para su estudio:

 

    La mecánica de Guttman de elaboración de Escalas

    La noción básica de la escala de Guttman o acumulativa es que entre los reactivos que forman la escala existe una relación interna tal, que una persona que ratifica o concuerda con un reactivo que ocupa una posición escalar dada, ratificará todos los reactivos que estén por debajo de ella en la escala. Si se sabe que una persona ratificó tres reactivos de una escala compuesta de cuatro, se sabe también cuáles fueron los tres reactivos que ella ratificó. Por otra parte, todos los individuos que ratifiquen solamente tres reactivos, ratificarán los mismos tres. De esta manera, es posible ordenar a los individuos en categorías o posiciones relativas definidas por las posiciones de los reactivos ratificados. Es cierto, empero, que estas cualidades de la escala de Guttman se deterioran a medida que disminuye la consistencia interna.

    Se han inventado varias técnicas para elaborar escalas de Guttman. En el trabajo inicial se usó la técnica de tablas de escalograma (Suchman, 1950). En este procedimiento se usaba una tabla compuesta de una serie de tablillas movibles en las que se colocaban marcas que representaban las respuestas de los sujetos a cada reactivo. Las tablillas podían manipularse de tal manera que se podía determinar visualmente la consistencia interna de los reactivos que componían la escala.

    Se han desarrollado otras técnicas, que incluyen la técnica de Cornell (Guttman, 1947), el método de cuadrados mínimos (Guttman, 1941) y la técnica de tabulación transversal (Toby y Toby, 1954), así como varias modificaciones de ellas para usarlas con equipo de procesamiento de datos y computadoras electrónicas.

    En algunas técnicas se emplean valores asignados arbitrariamente, los cuales se suman para obtener una puntuación escalar para cada sujeto; en otras técnicas no se hace así. Pueden usarse valores, pero nada se gana con ello. A Stauffer se le da crédito por el desarrollo de una técnica que no usa un sistema de valores. En esta técnica se determinan puntos de corte con respecto a reactivos de respuesta múltiple tratados en forma dicotómica al tabular transversalmente cada reactivo con todos los demás. Se desarrolló con el fin de usarse en un clasificador electrónico de tarjetas, pero puede adaptarse fácilmente para usarse con computadoras. Debido a su sencillez, este método, algo modificado, se resume más abajo. En esta técnica, como en otras que también se usan para construir escalas de Guttman, debe predecirse el orden jerárquico de los reactivos antes de que los datos sean examinados. Al reactivo más difícil (o el menos favorable) debe asignársele el rango 1, al siguiente más difícil, el rango 2,. . ., y al menos difícil, el rango n.

    De esta manera, la confianza en una escala se incrementa en la medida en que la predicción del orden jerárquico de los reactivos se fundamente en los datos. Para verificar la predicción del orden jerárquico, se determina la frecuencia de respuestas de cada categoría de respuesta con respecto a cada reactivo. Por ejemplo, si cada reactivo tiene cinco opciones de respuesta, de "completamente de acuerdo", "de acuerdo", "en duda", "en desacuerdo" y "completamente en desacuerdo", determínese la distribución de respuestas de cada reactivo y conviértanse en porcentajes acumulativos desde la más positiva hasta la más negativa.

    En el paso siguiente, esta información servirá para seleccionar los puntos de corte de los reactivos de selección múltiple que son tratados dicotómicamente. Cuando los reactivos son verdaderamente dicotómicos, por ejemplo, si-no, de acuerdo-desacuerdo, se pueden determinar directamente los porcentajes acumulativos.

    El paso siguiente es decidir lo que se considerará una ratificación (+) en cada reactivo. Generalmente, en un reactivo con las cinco opciones de respuesta anteriores, marcar ya sea "completamente de acuerdo" o "de acuerdo" se interpretaría como ratificación (+). Marcar cualquiera de las opciones restantes se consideraría como no ratificación (-) del reactivo. Con reactivos verdaderamente dicotómicos esto es muy sencillo; con reactivos de opción múltiple no lo es.

    El punto de corte de un reactivo es el punto dentro de las opciones ordenadas, que separa la ratificación de la no ratificación. En este ejemplo, el punto de corte está entre "de acuerdo" y "en duda". Hay ocasiones en que se desea trasladar el punto de corte. Esto, obviamente, cambia la proporción de sujetos que ratifican el reactivo. Al mover el punto de corte hacia abajo, aumenta el porcentaje de ratificación; al moverlo hacia arriba, disminuye.

    Existen, básicamente, dos razones para cambiar el punto de corte de un reactivo. Primero, porque puede ser conveniente cambiar la distribución marginal de los reactivos. Por ejemplo, la distribución podría ser de 20, 30, 60, 80% de ratificación, con el punto de corte entre "de acuerdo" y "en duda", con respecto a todos los reactivos. Al trasladar el punto de corte al reactivo del 30%, para incluir "en duda" como ratificación, puede convertirse ese reactivo en uno de 40%. Esta es una distribución marginal, preferible por razones que serán descritas más adelante. Segundo, al trasladar el punto de corte de un reactivo a veces es posible convertir un reactivo impropio de la escala en uno adecuado.

    Manteniendo constante, en la medida de lo posible, el punto de corte de respuesta (por ejemplo, entre las respuestas "de acuerdo" y "en duda" en el grupo de opciones anterior), el investigador debe seleccionar los reactivos que hagan máxima la distancia entre los reactivos marginales (la proporción de sujetos que ratifican el reactivo). Por ejemplo, una escala de cuatro reactivos debe contener reactivos marginales de 20, 40, 60 y 80%. Cuanto más separados estén los marginales, tanto menos probable es una inversión del orden de los reactivos del preexamen al estudio final, o en dos aplicaciones cualesquiera de la escala. Deben evitarse asimismo reactivos con marginales extremos. Los reactivos necesariamente tienen reproductibilidades iguales a la respuesta modal (ya sea + o -). Esto quiere decir que reactivos con marginales más grandes del 80% o de menos del 20% pueden infundir excesiva confianza en la factibilidad de hacer una escala del universo de contenido que se esté considerando.

    En el conjunto de reactivos de ensayo seleccionado, cada uno de aquéllos debe contrastar con cada uno de los demás para determinar si los reactivos se ajustan entre sí suficientemente para ser compatibles con el modelo de Guttman. En el caso de una relación perfecta entre dos reactivos, donde uno es más difícil de ratificar que el otro, todos los sujetos que ratifican el reactivo con el marginal más pequeño (el más difícil) deben ratificar también el menos difícil.

    El grado en que los reactivos satisfacen esta relación perfecta se refleja en la "celdilla de error" de cada tabla cuádruple (véase figura 1). Ninguna celdilla de error debe contener más del 10% del número total de sujetos. Y las celdillas de la diagonal principal (+ +) y (- -) de cada tabla deben contener al menos tantos casos como los que se encuentran en la celdilla de error (Toby y Toby, 1954). El error del reactivo es la proporción de sujetos que ratifican el reactivo más difícil pero que fallan en el reactivo más fácil.

    Una vez establecido el punto de corte de cada reactivo y su error, necesitan obtenerse los patrones de respuesta. Esto se logra determinando las respuestas de cada sujeto en todos los reactivos. La sucesión de observaciones comienza con el reactivo menos frecuentemente ratificado y continúa con los demás, en orden descendente de dificultad. Si se usa un clasificador de tarjetas y se tratan los reactivos en forma dicotómica, el primer paso de las tarjetas por la máquina producirá dos grupos de tarjetas: uno representa a los sujetos que ratificaron el reactivo (+) y el otro, a aquéllos que no lo ratificaron (-).

    Cada grupo se corre después al segundo reactivo según su grado de dificultad. Esto puede producir cuatro grupos que representan a quienes: 1. ratificaron el reactivo más difícil y el siguiente más difícil (+ +); 2. ratificaron el reactivo más difícil pero no el siguiente (+ -); 3. no ratificaron el primero pero sí el segundo (- +), y 4. no ratificaron ninguno de los dos (- -). Luego, cada uno de estos grupos se corre al reactivo con la tercera frecuencia más baja de ratificación, lo que podría generar ocho patrones de respuesta: 1. +++, 2. ++-, 3. +-+, 4. +- -, 5. -++, 6. -+-, 7. - -+, y 8. - - -. E I procedimiento se continúa hasta concluir el examen de todos los reactivos que componen la escala. El número de patrones posibles de respuesta es una función del número de reactivos.

    Con respecto a reactivos dicotómicos, el número de patrones de respuesta posibles es 2n, donde n es igual al número de reactivos. Entonces una escala de cuatro reactivos puede producir 16 patrones de respuesta (24) y una escala de ocho reactivos, 256 (28). Sin embargo, del número de patrones de respuesta posibles, solamente n + 1 son tipos perfectos o puros, es decir, patrones de respuesta que indican tal consistencia de respuesta que si se ratifica un reactivo en determinada posición escalar, todos los reactivos por debajo de él también lo serán. Por ejemplo, en una escala de cuatro reactivos, los patrones de respuesta ++++, -+++, --++, - - -+ y - - - - son tipos puros. Los otros patrones donde se advierten fallas en presentar consistencia de respuesta son tipos no escalares o de error.

 

La colocación de los Tipos de Error

 

    Habida cuenta de que, en realidad, la escala perfecta es sólo aproximada, inevitablemente existen algunos patrones de respuesta que no son tipos aptos para una escala y deben asignarse a patrones de respuesta perfectos o puros. Existen varios métodos para clasificar las respuestas no escalares.

    El primer criterio que se usa en este procedimiento es reducir al mínimo el error. En sentido estricto, el sujeto ha cometido error cuando se desvía en su patrón de respuesta del tipo escalar puro. El problema consiste entonces en colocar su patrón de respuesta en uno de los tipos escalares puros, de manera que su desviación produzca la mínima cantidad de error. Por ejemplo, usando este criterio, el patrón -+- - (del más al menos difícil, de izquierda a derecha) puede asignarse solamente al tipo escalar 0 (----). Cualquier otra asignación daría dos o más errores. Si fuera colocado en el grupo escalar 1 (-- -+), se admitirían dos errores asociados a los reactivos 2 y 4. Si se colocara en el tipo escalar 2, contendría tres errores que abarcarían los reactivos 2, 3 y 4.

    El criterio de error mínimo resolverá el problema de clasificar las respuestas no escalares cuando no sea posible más que una asignación. Sin embargo, hay patrones que pueden clasificarse en dos o más tipos escalares empleando este criterio. La respuesta +-++ podría considerarse ya sea como el tipo escalar 2 (--++), con un error asociado al primer reactivo, o como el tipo escalar 4 (++++), donde el segundo reactivo explica un error.

    En aquellos casos en que el criterio de error mínimo asigna un patrón de respuesta a dos o más tipos escalares, se han desarrollado varias soluciones. Cuando hay razón para creer en la presencia de error de respuesta sistemático en los reactivos con los marginales más grande y más pequeño, podría emplearse la técnica del valor medio, la cual confiere mayor valor a los reactivos intermedios. La decisión con respecto a la colocación de respuestas clasificadas ambiguamente, por el criterio de error mínimo, se determina con las respuestas a los reactivos intermedios. Por ejemplo, el patrón +-++ podría colocarse ya sea en el tipo escalar 2, o en el 4, con un error. Si se colocara en el tipo escalar 2, el reactivo 1, un reactivo extremo, explicaría el error. La asignación al tipo escalar 4 colocaría el error en el reactivo 2. Si el análisis de reactivos descrito anteriormente hubiera indicado que el reactivo 1 estaba sujeto a error considerable, suponer una probabilidad de error más grande en el reactivo 1 que en el 2 quedaría justificado. Por consiguiente, se tomaría la decisión, con base en la confiabilidad más grande del reactivo 2, de asignar el patrón de respuesta al tipo escalar 2, dándosele así un valor mayor al reactivo intermedio. (Henry, 1952).

   Una segunda solución de la clasificación ambigua es la técnica de valor extremo. Supuestamente puede usarse cuando se sospecha de los reactivos intermedios. En el ejemplo anterior, la respuesta +-++ se colocaría en el tipo escalar 4 cuando se usara la técnica de valor extremo en virtud de las diferentes suposiciones con respecto a la ubicación del error. (Henry, 1952).

   Una solución alterna, el método de la distribución de tipos escalares perfectos, se ha convertido tal vez en la técnica empleada más frecuentemente para clasificar patrones que se asignan a dos o más tipos escalares por medio de la solución del error mínimo. De este método, se dice que "predice las soluciones de `Distancia Latente Modificada' con mucho mayor eficiencia... (Henry, 1952)" que las técnicas de valor extremo o de valor medio y es mucho menos complejo que la técnica de distancia latente desarrollada por Lazarsfeld.

    La solución de la distribución de tipos escalares perfectos es seleccionar entre ellos los tipos escalares señalados por el criterio de error mínimo, es decir, el tipo escalar con la frecuencia mayor. Se hace el señalamiento por este tipo escalar si la diferencia entre las frecuencias de dos tipos puros es estadísticamente significativa (ji cuadrada, 1 g.l., a nivel de .10) (Henry, 1952).

    En el ejemplo el patrón +-++ podría colocarse en los tipos escalares 2 o 4 con un error. Si el tipo escalar 2 contuviera 98 casos y el tipo escalar 4 fueran 32 casos, el patrón se clasificaría como tipo escalar 2, porque ocurrió con mayor frecuencia. Cuando se usa esta técnica, el tipo no escalar se asigna al tipo puro del que tiene mayor probabilidad de desviarse.

    Otra solución al problema de clasificar los tipos no escalares cuando el criterio de error mínimo es ambiguo, es la técnica de señalamiento de la clase media, sugerida por Borgatta y Hays (1952). Esta técnica coloca un patrón ambiguo de respuesta en medio de las dos clases más extremas determinadas mediante el criterio de error mínimo. Borgatta y Hays señalan el cuidado que debe tenerse con cada una de las técnicas arbitrarias anteriores con respecto a la clasificación de patrones de respuesta no escalares; ellos recomiendan, en lo posible, el análisis de distancia latente más complejo.

 

    Métodos para estimar la Consistencia Interna

    La estimación de la consistencia interna de un conjunto de reactivos viene después de la colocación de los tipos no escalares. Como método para el propósito mencionado, Guttman (1950) propuso el coeficiente de reproductibilidad 1 - (error total de colocación/sujetos sujetos X reactivos) y fijó algo arbitrariamente un mínimo de .90 como necesario para suponer monodimensionalidad. De acuerdo con este estándar, la cantidad de error tolerado no excede al 10%.

    El coeficiente de reproductibilidad ha sido y continúa siendo la estimación más frecuentemente usada de consistencia interna, aunque sus limitaciones sean reconocidas. Como demostraron Menzel (1953) y Borgatta (1955); no se aproxima a cero  en ausencia de consistencia interna. Para entender esta debilidad basta darse cuenta que un sólo reactivo no puede tener más error que su respuesta modal. Por ejemplo, un reactivo ratificado por el 80% de los sujetos puede tener un máximo de 20% de error. De esta manera, un conjunto de reactivos sin consistencia interna tendrá, necesariamente, cierta reproductibilidad, de acuerdo con la estimación de Guttman.

    Considerándose que la reproductibilidad es una función de a) reactivos extremos, b) individuos extremos y c) la adaptabilidad de los reactivos -con respecto a los sujetos- a una escala, Menzel propuso como medida más satisfactoria el coeficiente de adaptabilidad á la escala 1 - (error total de colocación /error máximo ). El error máximo se calcula con base en la diferencia entre el total de respuestas y la suma de las categorías modales ya sea de los reactivos o de los sujetos. La menor de las dos diferencias se usa para estimar el valor máximo, al parecer para evitar la sobreestimación de la consistencia interna. Menzel indica que el límite inferior de un coeficiente satisfactorio de adaptabilidad a la escala se encuentra .60 y .65.

    El coeficiente de adaptabilidad a la escala, de Menzel, es una dudosa mejora sobre el coeficiente de reproductibilidad pues posee las mismas limitaciones. Como demostró Borgatta, el índice de Menzel también fracasa en aproximarse a cero en ausencia de un contenido común en los reactivos.

    Borgatta propuso, como sustituto, la proporción de error: Este índice varía de cero a uno y puede compararse a las proporciones de error de otras escalas. La proporción de error es la "proporción de errores en la escala dividida entre el número máximo de errores en una escala con las mismas frecuencias marginales" (Borgatta, 1955). El número máximo de errores se calcula utilizando la ley de probabilidades independientes para determinar las frecuencias esperadas de cada tipo no escalar, a partir de las marginales de cada reactivo.

    Así, para determinar la frecuencia esperada del tipo escalar 4 (++++), en una escala de cuatro reactivos con marginales de 20, 40, 60 y 80% se multiplican los marginales (.20 X .40 X .60 X .80), para obtener la proporción esperada en el tipo escalar (en este caso .0384), la cual a su vez se multiplica por el número de sujetos, En cuanto a los tipos no escalares, la frecuencia esperada debe multiplicarse por el número de errores de señalamiento, para determinar la suma de estos errores con respecto a la distribución esperada. Esta suma se usa como número máximo de errores.

    Por ejemplo, en una escala de cuatro reactivos con marginales (la proporción de respuestas de +) de 20, 40, 60 y 80% , la frecuencia esperada del patrón de respuesta -+-- se determina multiplicando la proporción de respuesta de - (.80), para el primer reactivo, por la proporción de respuestas de + (.40) para el segundo reactivo, por la proporción de respuestas de - (.40) para el tercer reactivo, por la proporción de respuestas de - (.20) para el cuarto reactivo. Este producto (.026) se multiplica después por el número total de sujetos (N) para determinar el número de éstos de quienes se espera tengan el tipo no escalar -+--. La frecuencia esperada debe multiplicarse después por el número de errores de correlación. En este caso el patrón -+-- puede asignarse al tipo escalar 0 (- - - -) con un error. Por tanto, el número total de errores de colocación esperados con respecto a este patrón de respuesta, suponiendo que N sea 2 000 es:

(.80) (.40) (.20) _ .026
.026 X 2000 = 52
52x1=52

    Este procedimiento se sigue con cada tipo escalar; y la suma de los errores de colocación esperados con respecto a los tipos no escalares se usa como número máximo de errores en la computación de la proporción de error,

número de errores
número máximo de errores

donde el número de errores es la suma de errores de colocación observados. Por tanto, la proporción de error será de 1.00 cuando el número de errores de colocación sea igual al número máximo de errores y será 0.00 cuando no haya errores de colocación.

    Consecuentemente, cuanto menor es la proporción, tanto mayor es la consistencia interna. La proporción de error parece que significa una mejora determinante con respecto al coeficiente de reproductibilidad y al coeficiente de adaptabilidad a la escala. Sin embargo, acaso deba usarse la proporción de error junto con la medida de Guttman, en beneficio de quienes no están familiarizados con el índice de Borgatta.

 

    Pruebas significativas

    Ninguna de las anteriores estimaciones de consistencia interna -el coeficiente de escalabilidad, el coeficiente de reproductibilidad, y la proporción de error- son pruebas de importancia estadística. Los problemas de la estabilidad de los datos o de si los patrones observados son o no resultado del azar, no se han resuelto satisfactoriamente, aunque varios investigadores han dedicado sus energías a buscar una solución. Intentos notables han sido realizados por Sagi (1959), Goodman (1959), Schuessler (1961) y Chilton (1966).

    El problema ha sido atacado de varias maneras, desde el punto de vista de una prueba significativa de ji cuadrada (Schuessler) hasta la demostración, por medio de datos generados por computadoras, de que los coeficientes de reproducibilidad están distribuidos normalmente (Chilton).

    Como lo indicaron Sagi y Chilton, deben hacerse estas pruebas antes de la depuración de una escala, pues primordialmente sirven de instrumentos para determinar qué posibilidad de éxito tendrán los esfuerzos ulteriores para desarrollar una escala a partir de un conjunto de reactivos. Las distribuciones de muestreo de estos índices constituye uno de los aspectos de la elaboración de escalas, de Guttman, que todavía no se ha desarrollado. La clarificación de estas distribuciones de muestreo es indispensable; y una contribución decisiva a nuestro conocimiento de la medición de actitudes será el establecimiento de dichas distribuciones.

subir índice

Artículo Julio 2008

LA TÉCNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD

 

    Análisis de intensidad

    Cómo diferenciar los personas "favorables" de las `desfavorables". En virtud de que la opinión acerca del libro Una Nación de Naciones es suficientemente factible de ser medida, es significativo decir que a un estudiante el libro le parece mejor que a otro. Existe una ordenación jerárquica significativa de los estudiantes de acuerdo con su opinión del libro. Este orden se expresa por las puntuaciones escalares asignadas en el segundo ensayo. Un estudiante con una puntuación más alta que otro expresa las mismas cosas o mejores acerca del libro (dentro del error escalar).

    Existe una pregunta ulterior de sumo interés para el investigador. Dado que los individuos pueden ser ordenados de acuerdo con su grado de favorabilidad ¿hay algún punto de corte en este orden jerárquico, de tal manera que podamos decir que todas las personas a la derecha de ese punto son "favorables" y todas las personas a la izquierda son "desfavorables"? Una persona puede ser más favorable que otra, no obstante que ambas sean favorables. La sola obtención de un orden jerárquico no distingue entre ser favorable o desfavorable; meramente refleja que se es más favorable y menos favorable y no dice si se ha alcanzado un punto después del cual el ser menos favorable significa realmente ser "desfavorable".

    Se da una respuesta objetiva a este problema mediante la función de intensidad.

    La teoría del análisis de intensidad será explicada con todos sus pormenores en la próxima publicación de la División de Investigación. Para nuestros propósitos, todo lo que necesitamos saber es que proporciona una solución al problema tradicional de la "disposición". No importa cómo sean expresadas o "cargadas" las preguntas, el uso de la función de intensidad dará al grupo la misma proporción de favorable y desfavorable. La función de intensidad establece un punto cero invariante para actitudes y opiniones.

 

    Hay varias técnicas para obtener la intensidad de un cuestionario. La primera es la técnica de doblar y la segunda, la de bipartición. La técnica de doblado es teóricamente menos admisible que la de bipartición. Tiene sin embargo, algunas ventajas prácticas en ciertos casos.

 

    La técnica de doblar. La técnica de doblar consiste sencillamente en recalificar el contenido de las preguntas para obtener una puntuación de Intensidad. Esto es muy fácil, a causa de la forma de la pregunta empleada para estudiar las opiniones sobre Una Nación de Naciones. Se asignan los siguientes pesos a la lista de confrontación de respuestas: "Completamente de acuerdo" y "Completamente en desacuerdo" reciben un valor 2; "De acuerdo" y "En desacuerdo" reciben el valor 1; y "En duda" recibe el valor 0. Estos valores pueden escribirse en tiras de papel para poder ponerlos en la tabla 1 y agregarlos allí para obtener así una puntuación de intensidad para cada persona.

    Así, las respuestas aparentemente más intensas reciben valores mayores; y las aparentemente menos intensas reciben valores menores, independientemente de que las respuestas parezcan "favorables" o "desfavorables".

  Valorar así las respuestas significa que, para obtener una puntuación de intensidad, combinamos, de hecho, los extremos opuestos de la lista de confrontación, de modo que no hay sino tres categorías (combinadas) de intensidad por pregunta. La intensidad, obtenida por este medio, no es en general factible de ubicarse en una escala. En vez de ello, forma lo que se llama una "quasi" escala. En una "quasi" escala no hay ninguna relación exacta entre la respuesta de una persona a cada pregunta y su puntuación en todas las demás; en su lugar, hay un gradiente. Cuanto mayor es la puntuación de una persona, tanto más probable es que dé una respuesta altamente valorada en cada reactivo, pero no existe la clara certeza de que así ocurra en el caso de una escala. Tal puede advertirse en nuestro ejemplo. Al arreglar los datos en un escalograma, de acuerdo con la puntuación total de intensidad, obtenemos la configuración que se ofrece en la tabla 4. Cada pregunta tiene ahora tres categorías que representan los tres pasos de intensidad. Hay un gradiente de densidad de las respuestas. No hay líneas definidas en las columnas de las categorías y, no obstante, disminuyen gradualmente las densidades que mezclan una categoría con la siguiente. La combinación de categorías no producirá, sin embargo, un patrón mensurable.

 

    De acuerdo con la teoría básica del análisis de intensidad, ésta debe ser una variable perfectamente mensurable por escala. Las ecuaciones del análisis escalar muestran que, en toda escala de contenido, hay un segundo componente que es una función de las puntuaciones escalares en forma de U o J. Este componente se ha identificado como la función de intensidad de la escala de contenido. Lo que intentamos hacer es obtener esta intensidad por medio de métodos empíricos directos. El hecho de que nuestra intensidad observada no sea perfectamente mensurable por escala muestra que no es la intensidad intrínseca pura lo que estamos buscando. Tampoco se ha encontrado ninguna manera perfecta de obtener la intensidad; pero se logran resultados satisfactorios hasta con técnicas de intensidad imperfectas. En vez de una función perfecta de intensidad, obtendremos una en la que es posible obtener un error considerable en su relación con las puntuaciones de la escala de contenido.

    Trazo de la intensidad en contraste con el contenido. La función empírica de intensidad se obtiene ordenando las puntuaciones de intensidad resultantes en contraste con las puntuaciones de contenido, obtenidas en la sección anterior durante el segundo ensayo de contenido. El diagrama de dispersión se presenta en la tabla 5. La frecuencia, en letras cursivas, en cada columna de la tabla 5, corresponde a la posición de la mediana de intensidad de las columnas respectivas. Si se estuviera midiendo la intensidad intrínseca pura con esta técnica, no habría dispersión alrededor de estas medianas; pero la intensidad sería entonces una función perfecta de las puntuaciones de contenido en forma de U o J. No obstante la presencia de error, la forma aproximada de la función verdadera de intensidad es clara a partir de la forma de la curva que pasa por las medianas de las columnas. La curva desciende desde la derecha, o sea de las puntuaciones más favorables de contenido, alcanza su punto más bajo en el segundo intervalo de la izquierda (puntuaciones de contenido de 3-5) y después vuelve a elevarse en el primer intervalo de la izquierda. En consecuencia, las puntuaciones de contenido 3-5 deben formar el intervalo aproximado que contiene la puntuación 0 de la actitud. Puede decirse que los estudiantes a la izquierda de este intervalo tienen actitudes negativas hacia el libro de texto y los que están a la derecha tienen actitudes positivas hacia él. Los estudiantes en el intervalo 3-5 no pueden dividirse en positivos y negativos sin la ayuda de preguntas adicionales que hagan distinciones más precisas entre sus rangos.

    Con base en la tabla 5 podemos concluir, entonces, que aproximadamente a 8 estudiantes no les gustó el libro de texto, a 35 sí les gustó, mientras que 7 estudiantes mantuvieron una posición intermedia. Esta división de los estudiantes en actitudes favorables y desfavorables no depende de la manera particular como se expresaron las preguntas. La misma curva de intensidad, con la misma proporción a la derecha y a la izquierda del punto cero, se habría obtenido si hubiéramos usado otras preguntas u otra forma de expresarlas, con tal que éstas fueran susceptibles de medición escalar con las preguntas presentes.

    Necesidad de una muestra más grande de personas. Es preciso hacer una advertencia importante. El ejemplo empleado debe considerarse muy afortunado para los fines de esta exposición. Ciertamente es raro encontrar un error tan bajo como el que tenemos en la función de intensidad, lo cual da margen a que aparezcan claramente la curva de intensidad y el punto cero con base en una pequeña muestra de 50 casos. En general, es muy difícil que esto suceda. Para realizar sobre seguro un análisis de intensidad, cuando hay un error sustancial -que es el caso habitual- generalmente se necesitan de uno a tres mil casos para obtener medianas estables. Para realizar el análisis de escalograma es también más seguro utilizar más de 50 casos. Lo deseable es utilizar un mínimo de cien casos en el pre-test, así como una docena de reactivos o poco más o menos, en lugar de los siete de nuestro ejemplo. Si el pre-test ha demostrado que para el universo de reactivos es factible hacer una escala, debe hacerse el estudio final con el número acostumbrado de casos que se emplean en las encuestas de opinión, en caso de que se quieran obtener resultados confiables con respecto a la intensidad. La hipótesis de factibilidad de la escala puede probarse en pre-test con un número relativamente pequeño de personas teniéndose en cuenta su carácter especializado. Sin embargo, las proporciones de la población en un rango dado o a un lado del punto cero están sujetas al error de muestreo ordinario; para llegar a resultados confiables con respecto a ellas, deben usarse muestras más grandes.

 

    Desventajas de la técnica de doblar. La técnica de doblar aplicada ala intensidad tiene dos desventajas teóricas, así como álgunas de orden práctico. Primero, las puntuaciones obtenidas por medio de ella no son independientes, experimentalmente, de las puntuaciones de contenido, pues se sirven de las mismas respuestas con respecto a ambas puntuaciones. Esto puede producir una relación algo espuria entre aquéllas. Segundo, se supone que "Completamente de acuerdo" y "Completamente en desacuerdo" son aproximadamente iguales en intensidad y opuestas en dirección; y lo mismo puede decirse de "De acuerdo" y "En desacuerdo", mientras que se supone que "En duda" está aproximadamente en el punto cero. Dichas suposiciones no necesitan ser ciertas en forma absoluta. De hecho, la falsedad ocasional de estas suposiciones es una contribución al error de las puntuaciones de intensidad obtenidas.

    Si las suposiciones fueran verdaderas, las cosas serían mucho más fáciles para los investigadores. No sería necesario formular una serie de preguntas para obtener un intervalo de cero, porque la categoría "En duda", con respecto a cualquier pregunta, suministraría tal intervalo. Pero claro está que en una serie de preguntas sobre el mismo asunto las personas que están "En duda", sobre una pregunta, pueden estar "De acuerdo" en otra. Únicamente porque no podemos interpretar la inclinación de una pregunta al examinar su contenido, es que una técnica como esa necesita de la función de intensidad.

    No obstante que la técnica de doblar posea dos desventajas teóricas, parece promediar los errores implícitos en la violación de las suposiciones anteriores y suministrar una curva adecuada de forma U o J en muchos casos.

    Se le ha encontrado una desventaja práctica a la técnica de doblar, en las situaciones de entrevistas de personas en la calle, donde las personas evitarían casi en absoluto las categorías "Completamente", de modo que no podría obtenerse mucha diferenciación de intensidad. En tal caso es necesaria una técnica de bipartición. Una ventaja de la técnica de doblar sobre la técnica de bipartición es que requiere menos espacio y tiempo para la aplicación de los cuestionarios.

subir índice

Artículo Junio 2008

LA TECNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD

 

    La representación de la gráfica de barras

    La técnica de Cornell es un procedimiento para probar la hipótesis de que un universo de datos de cualidades es una escala con respecto a determinada población de personas, por el método de escalograma. Extendiéndose su uso a probar la hipótesis de qué los datos forman una "cuasi" escala. De las varias técnicas existentes para análisis de escalograma, la descrita aquí parece ser una de las más sencillas y convenientes para uso general. No requiere equipo especial; se vale de sencillos procedimientos de oficina, que pueden ser realizados cómodamente por personas sin preparación estadística.

   Las diversas técnicas mencionadas realizan el mismo trabajo, puesto que usan la misma teoría del escalograma; difieren solamente en la manera de llevarla a la práctica.

    En una primera técnica se emplearon las complicadas computaciones de los cuadrados mínimos. El procedimiento empleado por la División de Investigación de la Universidad de Pennsylvania involucra el uso de tablas de escalograma, inventadas especialmente por el autor para este propósito; estas tablas son sencillas de calcularse y fáciles de operar. Otro miembro de la División de Investigación ha inventado una técnica de tabulación.  La técnica de Cornell fue inventada por el autor, al principio con fines didácticos, pero posteriormente ha demostrado su utilidad en propósitos generales de investigación.

    Los pasos iniciales son comunes a todas. Se comienza definiendo el universo de contenido que se va a estudiar. En un estudio de actitud u opinión, esto significa decidir el contenido general de las preguntas que se van a formular. Como segundo paso, se define la población de individuos. En una encuesta de actitud u opinión significa la delimitación de la clase de personas que se van a entrevistar.

    Vienen inmediatamente dos tipos de problemas de muestreo. Uno es el problema ordinario del muestreo aleatorio de personas y otro, el muestreo de reactivos. En estos dos problemas es conveniente distinguir entre la etapa de pre-test de un estudio y la encuesta final. Pueden emplearse mucho menos personas en el pre-test que en la encuesta final; pero pueden usarse menos reactivos en ésta y más en el pre-test.

    En el pre-test de una encuesta, alrededor de 100 personas constituyen por lo común una muestra adecuada de la población para probar la hipótesis de factibilidad de la escala. Si se acepta la hipótesis, los reactivos pueden usarse entonces en el estudio final de 3,000 personas generales poco más a menos, para obtener proporciones confiables dentro de cada rango escalar.

    El otro problema de muestreo es de naturaleza completamente diferente; consiste en muestrear el universo de contenido. En una encuesta de actitud u opinión se hace elaborando algunas preguntas que tienen el contenido general requerido. En un pre-test, cerca de una docena de preguntas constituyen generalmente un muestreo adecuado de contenido. Toda vez que las preguntas son elaboradas por los investigadores, no encajan en ningún esquema estándar de muestreo aleatorio y la teoría estándar de este muestreo no se aplica en este caso. En su lugar, la teoría del análisis escalar muestra que casi cualquier muestra de alrededor de una docena de preguntas tomadas del universo es adecuada para probar la hipótesis de que el universo es factible de ser evaluado por escala, con tal que la amplitud de contenido deseada sea cubierta por las preguntas. Si se acepta la hipótesis de que es posible una escala para ese universo, podrán usarse menos preguntas en el estudio final en caso de que se necesiten efectivamente menos rangos para los propósitos de la investigación.

    Habiendo definido el universo de contenido y la población de individuos y habiendo sacado una muestra de cada uno, el quinto paso es observar a cada persona de la muestra en cada reactivo o pregunta de la muestra de estos. En una encuesta de actitud u opinión, en que se usan cuestionarios, lo anterior quiere decir que cada persona da sus respuestas a cada pregunta del cuestionario.

    La hipótesis de factibilidad de lo escala. El problema ahora es probar la hipótesis, con base en los datos de la muestra de prueba, de que el universo entero de reactivos forma una escala con respecto a la población de individuos. Revisemos lo que implica esta hipótesis para entender lo que trata de hacer la técnica de análisis.

    Se dice que el universo es mensurable por escala con respecto a la población si es posible ordenar a las personas de mayor o menor, de manera que a partir del rango de una persona solamente podamos reproducir su respuesta a cada uno de los reactivos de un modo sencillo. Se entiende que en la práctica no se espera encontrar escalas perfectas. Se considera que los datos son suficientemente adaptables a la es-escala si son reproductibles en cerca del 90% y si se satisfacen otras condiciones (que serán explicadas posteriormente). Para mayor claridad, sin embargo, consideremos primero una escala hipotética perfecta.

    Supongamos que una pregunta perteneciente al universo, concerniente a cierto asunto político, es formulada a una población y que las respuestas son las siguientes:

   Si "En desacuerdo" significa una opinión más favorable que "En duda" y "En duda" más favorable que "En desacuerdo", y si el universo es perfectamente adaptable a una escala, lo siguiente debe ser verdadero. El 60% superior de la gente debe estar formado por quienes contestaron "De acuerdo"; el siguiente 10%, por quienes contestaron "En duda"; y el 30% inferior, por quienes contestaron "En desacuerdo". Si se formula otra pregunta de este universo mensurable por escala y las respuestas son un 20% de "Si"' y un 80% de "No", y si "Sí" indica una respuesta más favorable que "No", entonces el 20% superior de las personas debe haber dicho "Si"' y el 80% inferior debe haber contestado "No". Del rango de una persona podemos deducir ahora cuál debe ser su respuesta a cada una de estas dos preguntas. Cualquier persona en el 20% superior de la población debe haber contestado "De acuerdo" a la primera pregunta y "Sí" a la segunda. Cualquier persona por debajo del 20% superior, pero no por debajo del 60% superior, contestó "De acuerdo" a la primera pregunta y "No" a la segunda. Cualquier persona por debajo del 60%° superior pero no del 70 contestó "En duda" a la primera pregunta y "No" a la segunda, y las personas restantes, el 30% inferior, contestaron "En desacuerdo" a la primera pregunta y "No" a la segunda.

   Las diferentes técnicas de análisis de escalograma son procedimientos para encontrar el orden jerárquico de las personas que reproducirán mejor las respuestas de éstas a cada uno de los reactivos. Si el universo fuera una escala perfecta, todas las técnicas requerirían poco trabajo y no habría mucho que escoger entre ellas. Es la presencia de la imperfecta reproductibilidad lo que plantea el problema de la técnica.

   La técnica de Cornell opera por aproximaciones sucesivas. Generalmente sólo son necesarias dos aproximaciones para rechazar o aceptar la hipótesis de factibilidad de la escala. Se establece un primer orden jerárquico de las personas mediante un esquema sencillo de calificación. Con propósitos ilustrativos, desarrollaremos en detalle un caso real. Este ejemplo no debe considerarse un modelo de investigación perfecta, sino tan sólo una ilustración de los pasos que se seguirán.

   Un ejemplo de la técnica de Cornell. Se deseaba saber si los estudiantes de cierta clase sobre relaciones raciales tenían una actitud que pudiera medirse hacia uno de sus libros de texto, Una Nación de Naciones, de Louis Adamic. Se elaboró un cuestionario de siete preguntas y se aplicó al grupo de 50 estudiantes. Tanto el número de preguntas como el de estudiantes fueron menores a los que se emplean ordinariamente en un pre-test; y se usan aquí por la única razón de que estos pequeños números permiten desplegar los datos completos.

    Las siete preguntas fueron las siguientes: Una Nación de Naciones

    Preguntas

    1.- Una nación de Naciones hace un buen análisis de los grupos étnicos de ese país.

    Completamente de acuerdo.- 4. De acuerdo.- 3. En duda.- 2. En desacuerdo.- 1. Completamente en desacuerdo.- 0

    2.- En general, Una Nación de naciones no es tan bueno como la mayoría de los libros de texto universitarios.

    Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en descuerdo.- 4

    3,- Adamic organiza y presenta perfectamente su material.

    Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

    4.- Como tratado de sociología el libro de Adamic no tiene mucho valor.

    Completamente de acuerdo - 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4

    5.- Adamic no estudia ningún grupo con suficiente detalle para que el estudiante pueda lograr una comprensión real de los problemas de las relaciones de los grupos étnicos de ese país.

    Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4

    6.- Al ofrecer un panorama de los diferentes grupos, Una Nación de Naciones da al estudiante una buena perspectiva de las relaciones de !os grupos étnicos de ese país.

    Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

    7.- Una Nación de Naciones es lo bastante bueno para usarse como libro de texto en este curso.

    Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

 

    Análisis del contenido de la escala

    Ahora describiremos, paso a paso, cómo se realiza el análisis de respuestas por medio de la técnica de Cornell:

    1. En el primer ensayo se asignan valores a cada categoría de cada pregunta, empleando los enteros sucesivos a partir de 0. En este ejemplo, como cada conjunto de respuestas tiene cinco categorías, los valores van de 0 a 4. En cada pregunta, se asignan los valores más altos a las categorías que se considera expresan una actitud más favorable. Este juicio sobre (os rangos de las categorías no se considera definitivo. El análisis subsecuente verificará el juicio o bien determinará cómo realizarlo.

    2. Se obtiene la puntuación total de cada persona sumando los pesos de las categorías donde cae. En nuestro ejemplo, ya que el valor máximo para cada persona es 4 y el número total de preguntas es 7, las puntuaciones totales pueden variar de 0 a 28.

    3. Los cuestionarios se colocan en orden jerárquico conforme a las puntuaciones totales. En nuestro ejemplo, los hemos ordenado de mayor a menor.

    4. Se prepara una registro como la tabla 1, con una columna para cada categoría de cada pregunta y un renglón para cada persona. Ya que cada una de las preguntas tiene cinco categorías y existen siete preguntas, tenemos 35 columnas en nuestra tabla. Son 50 estudiantes; así que debemos tener 50 renglones. Las primeras cinco columnas son para las cinco categorías de la primera pregunta, las siguientes cinco columnas para las cinco categorías de la segunda pregunta, etc.

    5. La respuesta de cada persona a cada pregunta se indica en la tabla con una X, en su renglón correspondiente, en la columna de cada categoría en que cae. En nuestro ejemplo, hemos denominado las columnas empleando las preguntas y los valores de las categorías. La primera persona es la que tiene la puntuación más alta, que es 28. Marcó la respuesta con valor 4 en todas las preguntas, así que tiene siete X en su renglón y en las columnas respectivas de las categorías con valor 4. Hubo dos personas con una puntuación de 25. El arreglo de las personas con la misma puntuación es arbitrario. De las dos personas de nuestro ejemplo con una puntuación de 25, la colocada primero dio una respuesta marcada con 4, en las dos primeras preguntas, una respuesta de 3 a la tercera pregunta, una de 4 a la cuarta pregunta, respuestas de 3 a la quinta y sexta pregunta y una de 4 a la séptima pregunta. De manera similar las demás X de la tabla 1 indican las respuestas que las personas restantes dieron a cada pregunta. Cada persona contesta a cada preguntas; de manera que hay siete X en cada renglón. Si en alguna ocasión las personas no contestan cierta pregunta, se agrega otra categoría titulada "Sin respuesta", que será valorada y tratada como cualquiera de las otras categorías de esa misma pregunta.

    La tabla 1 da un registro completo de todos los datos obtenidos en la encuesta.

 

    6. Al final de la tabla 1 están las frecuencias de respuesta de cada categoría. La categoría 4 de la pregunta 1 contiene nueve personas, mientras que la categoría 3 de la misma pregunta contiene 27 personas, etc. La suma de las frecuencias de las cinco categorías de cada pregunta es siempre igual al número total de personas de la muestra, que en este caso es 50.

    7. Ahora pasemos a la prueba de factibilidad de la escala. Si el universo es una escala y si el orden en que hemos colocado a las personas es el orden jerárquico escalar, entonces la estructura de las X en la tabla 1 debe ser particularmente sencilla. Consideremos la primera pregunta de la tabla. Si la respuesta de valor 4 es mayor que la de 3 y si la de 3 es mayor que la de valor 2, y si la de 2 es mayor que la de 1 (la respuesta de 0 no tiene ninguna frecuencia en este caso), entonces las nueve personas de la categoría 4 deben ser las nueve personas superiores. Efectivamente, seis de ellas son superiores y las otras tres están por debajo. De manera similar, las 27 personas de la categoría 3 deben estar debajo de las primeras nueve personas y descienden hasta la trigésima sexta persona (36 = 9 + 27). Pero esto no es completamente cierto para nuestros datos. Un examen semejante con respecto a los demás reactivos muestra que hay un error sustancial de reproductibilidad en su forma actual. En esta etapa no necesita contarse el número aproximado de errores, ya que es, evidentemente, mayor que el 15% del total de 350 respuestas (350 = 7 X 50, el número de preguntas por el número de personas) de la tabla 1.

    8. Rara vez se ha encontrado que un reactivo con cuatro o cinco categorías sea suficientemente reproductible si las categorías se consideran diferentes. Una razón de esto son los hábitos verbales de las personas. Algunas personas contestan "Completamente de acuerdo" donde otras dicen "De acuerdo", pese a que tienen esencialmente la misma posición en el continuo básico aunque difieran en un extraño factor de hábitos verbales. Combinando categorías pueden reducirse al mínimo las variables extrañas de segunda importancia. Al examinar el traslapamiento de las X dentro de las columnas de cada pregunta, puede determinarse la mejor manera de combinar las categorías para reducir al mínimo el error de reproductibilidad de las combinaciones. En la pregunta 2, por ejemplo, las categorías 4 y 3 parecen entrelazarse, de modo que se combinan. Igualmente, y en la misma pregunta, parecen entrelazarse las categorías 1 y 0, por lo que también se combinan. Por otra parte, en la pregunta 4, combinamos las categorías 3, 2 y 1, dejando aparte las categorías 4 y 0. La manera de combinar categorías se determina por separado en cada pregunta. Las combinaciones escogidas en este ejemplo con base en la tabla 1 se dan en la tabla 2.

TABLA 2
Combinaciones de categorías
Pregunta

1

2

3

4

5

6

7

Combinaciones

(4) (3) (2,1,0)

(4,3) (2,1,0)

(4,3,2) (1,0)

(4) (3,2,1) (0)

(4,3,2) (1,0)

(4,3) (2,1,0)

(4) (3) (2,1,0)

    Si se desean conservar muchos tipos escalares, debe hacerse la menor combinación posible. Sin embargo, si no se desean muchos tipos escalares, pueden combinarse las categorías en el grado en que uno desee, aunque esto puede no mejorar la reproductibilidad. No es malo combinar las categorías que de otra manera permanecerían diferentes con respecto al error escalar; todo lo que se pierde con tal combinación es un tipo escalar. Por otra parte, las categorías pueden requerir combinación para reducir el error; deben combinarse de la manera indicada en la tabla 1 y no arbitrariamente.

    9. Un segundo orden jerárquico de las personas puede establecerse ahora con base en las categorías combinadas. Esto se realiza al reasignar valores. La primera pregunta tiene ahora tres categorías (es decir, tres combinaciones), a las que se asignan los valores 0, 1 y 2. La pregunta 2 tiene ahora dos categorías. Podemos asignarle los valores 0 y 1. En el ejemplo presente se usaron, en vez de aquéllos, los valores 0 y 2, ya que mantener relativamente constante la amplitud de los valores, de un reactivo a otro, ayuda a menudo a establecer una ordenación mejor de las personas cuando existe error de reproductibilidad. En una escala perfecta, cualquier conjunto de valores, con tal que tengan el orden de rango apropiado con respecto a las categorías, dará una correcta ordenación de rango de las personas.

    10. A cada persona se da ahora una nueva puntuación que representa su segundo rango de ensayo. Se le asigna al recalificar sus respuestas conforme a los nuevos valores. Esta recalificación se hace fácilmente basándose en la tabla 1. Usando una tira de papel tan ancha como la tabla, pueden escribirse directamente los nuevos valores de las categorías anteriores en la orilla de la tira. Colocando la tira a través del renglón de una persona, se suman los valores según donde caigan las X. En nuestro ejemplo, la tira tendría en sus primeras cinco columnas los valores 2, 1, 0, 0, 0, colocándose el valor 2 en la columna donde estaba la vieja categoría 4, el valor 1 en la columna donde estaba la vieja categoría 3, y los de 0 en las antiguas columnas de 2, 1 y 0 que después se combinaron. En la pregunta 2 la tira tendría en las cinco columnas los valores 2, 0, 0, 0. De manera semejante pueden escribirse los nuevos valores de las otras preguntas que se emplearon en las columnas anteriores de la tabla 1. La persona que era anteriormente la primera en dicha tabla, con una puntuación de 28, tiene ahora una puntuación de 2 + 2 + 2 + 2 +2 + 2 + 2 = 14. La segunda persona de la tabla 1 también obtiene una puntuación de 14. La tercera persona de la tabla 1 tiene ahora una puntuación de 2 + 2 + 2 + 1 + 2 + 2 + 2 = 13; y así sucesivamente con las demás.

    11. Después se ordena a las personas conforme al orden jerárquico de sus nuevas puntuaciones, y se prepara la tabla 3 a partir de los datos combinados, exactamente como se preparó la tabla 1 a partir de los datos originales. La pregunta 1 tiene ahora tres columnas, la pregunta dos tiene dos columnas, etc.

    Los datos de la tabla 1 se modificaron para conformar la tabla 3 según las combinaciones indicadas en la tabla 2. La columnas de la tabla 3 se refieren a las categorías combinadas y las puntuaciones de ésta son las puntuaciones de segundo ensayo obtenidas precisamente en el paso anterior.

    12. El error de reproductibilidad de la tabla 3 parece ser mucho más pequeño que el de la tabla 1, y en seguida contaremos los errores efectivos. Esto se hace estableciendo puntos de corte en el orden jerárquico de las personas, los cuales las separan conforme a las categorías donde caerían si la escala fuera perfecta. En la pregunta 1, que tiene tres categorías, necesitamos tres puntos de corte. El primero parece caer entre la última persona que tiene puntuación 12 y la primera persona que tiene puntuación 11. Todas las personas que están por encima de este punto de corte deberían estar en la categoría 2, y todas las que están por debajo no deberían estar en esa categoría. Pero como hay una persona, en la categoría 2, por debajo de este punto, tenemos un error en aquella. Se necesita un segundo punto de corte para separar la categoría 1 de la categoría 0; no obstante, estas dos categorías se traslapan, por lo que su ubicación exacta no es esencial; así que mover el punto ligeramente hacia arriba o hacia abajo no cambiará la cantidad de error. Debe colocarse de manera que éste se reduzca al mínimo; y tal reducción puede lograrse de varias maneras similares. Una es colocar el punto de corte entre la segunda y la tercera persona con puntuación 4. Por debajo de este punto encontramos tres errores en la categoría 1; y por encima de él, encontramos cinco errores en la categoría 0. El número total de errores en la pregunta 1 es 1 + 3 + 5 = 9. Dado que tenemos 50 respuestas a la pregunta 1, esta cifra significa un error del 18%. Claro que este error podría reducirse combinando las dos últimas columnas y convirtiendo la pregunta 1 en una dicotomía. Habría así únicamente un error en la primera columna. Esta ulterior dicotomización se evita cuando existe un error relativamente pequeño en las otras preguntas, de modo que el error en el total de éstas no resulta muy superior al 10%.

    La pregunta 2 tiene dos categorías en el segundo ensayo; y el punto de corte que reducirá al mínimo el error está entre las dos últimas puntuaciones de 6, lo cual produce dos errores en la primera columna y cuatro en la segunda columna de la pregunta 2. Similarmente, la pregunta 3 tiene un punto de corte entre la última puntuación de 2 y la primera de 1; y suma tres errores en su segunda columna. La pregunta 4 tiene dos puntos de corte; las preguntas 5 y 6, uno; y la 7, dos. El número total de errores en la tabla 3 es de 40, que es el 11% de todas las respuestas. Por tanto, podemos concluir que en vista de que gran parte del error se presenta en la pregunta 1 y de que aquél puede eliminarse combinando dos categorías en esa pregunta, esta área de actitud es factible de medirse por escala. A partir del orden jerárquico de una persona podemos reproducir su respuesta a cada pregunta en términos de categorías combinadas con el 89% de exactitud (o mejor, si combinamos las dos últimas columnas de la pregunta 1).

    13. El porcentaje de reproductibilidad no es suficiente por sí mismo para llevar a la conclusión de que el universo de contenido es mensurable. La frecuencia de respuestas a cada reactivo diferente también debe tenerse en cuenta por una razón muy sencilla. La reproductibilidad puede ser artificialmente alta debido tan sólo a que una categoría de cada reactivo tiene una frecuencia muy alta. Puede demostrarse que la reproductibilidad de un reactivo nunca puede ser menor que la frecuencia más alta de sus categorías, independientemente de si el área es mensurable o no. Por ejemplo, la pregunta 3 de la tabla 3 tiene un tipo de distribución completamente extrema. Cuarenta y tres estudiantes están en una categoría y siete en la otra. Entonces, en ninguna circunstancia eran posibles más de siete errores en este reactivo, pese a que exista o no un patrón escalar. O también la pregunta 4 de la tabla 3 tiene 37 casos en su categoría modal y 13 en las otras dos categorías. Entonces, en ninguna circunstancia el reactivo 4 podía tener más de tres errores. Claro está que cuanto más uniformemente estén distribuidas las frecuencias entre las categorías de un reactivo dado, tanto más difícil será que su reproductibilídad sea espuriamente alta, Las preguntas 5 y 6 de la tabla 3 tienen una alta reproductibilidad, cada una presenta cinco errores; y no es artificialmente alta porque la pregunta 5 solamente tiene 28 casos en su categoría más frecuente y la pregunta 6 tiene 30 casos en su frecuencia modal. El máximo error posible de la pregunta 5 es 22 y de la pregunta 6, 20. El patrón escalar representa una reducción sustancial de este error máximo. La regla empírica que se ha adoptado para juzgar lo espurio de la reproductibilidad escalar es la siguiente: ninguna categoría debe tener más errores que aciertos. Por tanto, la categoría con valor 2 en la pregunta 1 (tabla 3) tiene ocho aciertos y un error; la categoría con valor 1 en esta misma pregunta tiene 24 aciertos y 3 errores; la categoría 0 tiene nueve aciertos y cinco errores. De esta manera, la pregunta 1 satisface la regla. Pero la pregunta 3 está muy cerca de no cumplirla. Mientras que la primera columna de la pregunta 3 (en la tabla 3) no tiene errores, la segunda columna tiene tres, junto con cuatro aciertos. De manera similar, la primera columna de la pregunta 4 tiene un error en comparación con dos aciertos. Y como preguntas distribuidas uniformemente, como la 5 y la 6, tienen pocos errores; y también porque los errores en las otras preguntas, como la 3 y la 4, no se apartan mucho de lo que debería ser, consideramos que esta área se puede medir por escala.

 

    Al construir una muestra de reactivos que se usarán en una prueba de factibilidad de la escala, por lo menos deben elaborarse algunos, si no es posible que todos, para obtener una distribución uniforme de frecuencias. Tales reactivos dan una buena prueba de factibilidad. Sin embargo, es preciso disponer igualmente de reactivos con frecuencias no uniformes para obtener tipos escalares diferenciados; por tal razón deben usarse los dos tipos de reactivos. Cuanto mayor es el número de categorías que se conservan en un reactivo, tanto más severa es la prueba de factibilidad de la escala, porque el error -si realmente lo hay- tiene mayor posibilidades de aparecer cuando mayor número de categorías haya.

subir índice

Artículo Mayo 2008

BASE PARA ELABORAR ESCALAS CON DATOS CUALITATIVOS

 

    La representación de la gráfica de barras

   Otra manera de dibujar la escala dicotómica de la muestra de tres reactivos sería la siguiente: supongamos que el 80% de la población contestó correctamente la primera pregunta, 40% la segunda y 10% la tercera.

   Las distribuciones univariadas de los tres reactivos correspondientes podrían presentarse por medio de la gráfica de barras de la figura 3

Figura 3.

   Las barras muestran las distribuciones de porcentaje de las preguntas respectivas. La distribución multivariada de las tres preguntas, dado que forman una escala de la población, también puede indicarse én la misma gráfica, ya que todos los que se encuentran en el grupo que contestó correctamente una pregunta difícil, de la misma manera se encuentran en el grupo que contestó correctamente una pregunta fácil. Así, podemos dibujar nuevamente la gráfica pero uniendo las barras con líneas interrumpidas como se ve en la figura 4. Aquí podemos apreciar cómo las tres preguntas son funciones sencillas de las puntuaciones. De las frecuencias marginales de los distintos reactivos, junto con el hecho de que los reactivos forman una escala, podemos deducir que el 10% de las personas obtuvieron una puntuación 3. El 10% que contestó correctamente la pregunta más difícil se incluye entre los que contestaron correctamente las preguntas más fáciles. Esto se indica por la línea interrumpida de la derecha, entre las puntuaciones 2 y 3, que delimita al mismo 10% de los individuos (los que tienen una puntuación 3), a través de las tres barras. El 40% que contestó correctamente la segunda pregunta incluye al 10% que acertó en la pregunta más difícil y al 30% que contestó erróneamente la pregunta más difícil; pero todo el 40% acertó en la pregunta más fácil. Esto nos deja con el 30% que acertó sólo en la primera y en la segunda pregunta. Y así sucesivamente. De esta manera podemos imaginar una ordenación de las personas a lo largo de un eje horizontal, y que cada reactivo es un corte sobre dicho eje. Todos los que están a la derecha del punto de corte contestaron correctamente la pregunta y los que están a la izquierda la contestaron erróneamente. Por tanto, hay una correspondencia de uno a uno entre las categorías de un reactivo y los segmentos del eje. O podemos decir que cada atributo es una función sencilla del orden jerárquico en el eje.

 Figura 4.

    El hecho de que todos los reactivos de la muestra pueden expresarse como funciones sencillas de la ordenación de las personas es lo que posibilita que formen una escala. Cada reactivo está perfectamente correlacionado con la ordenación sobre el eje o es reproductible a partir de ella. Sin embargo, las correlaciones de punto entre los reactivos no son de ninguna manera perfectas. Por ejemplo, la tabla cuádruple entre el primero y segundo reactivos es la siguiente:

La correlación de punto entre los dos reactivos es .41. De hecho, la correlación de punto entre dos reactivos dicotómícos puede ser cualquier valor desde prácticamente 0 hasta la unidad y, no obstante, ambas pueden ser funciones perfectas de la misma variable cuantitativa. Esto, de aspecto paradójico, podría explicarse por un inadecuado tratamiento de variables cualitativas en los cursos y textos convencionales de estadística.

    Un coeficiente tetracórico con respecto a la tabla cuádruple anterior sería la unidad, suponiendo una distribución normal bivariada. Sin embargo, esta no es la correlación entre los reactivos, pues no dice si podemos predecir un reactivo a partir del otro. La tetracórica expresa la correlación entre dos variables cuantitativas de las cuales son funciones los reactivos, con tal que sean verdaderas las suposiciones de normalidad. La razón de que en este caso el tetracórico sea la unidad es que las variables cuantitativas, de las cuales son funciones los reactivos, son una sola variable, a saber la variable escalar. Adviértase, sin embargo, que la distribución de la variable escalar conforme al orden jerárquico de ninguna manera es normal. Una de las contribuciones de la teoría de elaboración de escalas es que hace a un lado las hipótesis no probadas e innecesarias sobre distribuciones normales. Es la correlación de punto y no la tetracórica la que interviene en el análisis matemático de la elaboración de escalas.

Un rasgo importante de esta tabla cuádruple es la frecuencia de cero, en la celdilla de la esquina superior derecha. Ninguno de los que contestaron correctamente la tercera pregunta falló en la segunda. Esta celdilla cero debe presentarse siempre en una tabla cuádruple de dos reactivos dicotómicos, los cuales son funciones sencillas de la misma variable cuantitativa.

 

    Otro ejemplo de escala

   Demos ahora un ejemplo de escala más complicada. Supongamos que tenemos interés por saber en qué grado desean los soldados regresar a la escuela cuando la guerra termine. Supongamos que, del universo de atributos que definen este deseo, seleccionamos la siguiente muestra de cuatro preguntas para formar con ellas un cuestionario.

    1. Si le ofrecieran un buen empleo, ¿qué haría usted?

a) Aceptaría el empleo

b) Lo rehusaría si el gobierno me ayudara para poder ir a la escuela

c) Lo rehusaría y regresaría a la escuela sin más.

   2. Si le ofrecieran algún empleo improductivo, ¿qué haría usted?

a) Lo aceptaría

b) Lo rechazaría si el gobierno me brindara ayuda para ir a la escuela

c) Lo rehusaría y regresaría a la escuela sin más.

   3. Si no pudiera conseguir ningún empleo, ¿qué haría usted?

a) No regresaría a la escuela

b) Si el gobierno me brindara ayuda, regresaría a la escuela

c) Regresaría a la escuela aún sin ayuda del gobierno.

   4. Si usted pudiera hacer lo que quisiera al terminar la guerra, ¿regresaría a la escuela?

a) S i

b) No

   Supongamos que las respuestas de los sujetos a estas preguntas toman la forma de una escala como la indicada en la figura 5.

Figura 5.

   Ya sabemos cómo leer esa gráfica. El 10% de los hombres dijeron que rehusarían un buen trabajo para regresar a la escuela; el 20% declaró que rehusarían un buen trabajo solamente si recibieran ayuda gubernamental; el 70% manifestó que aceptaría un buen trabajo; y así sucesivamente. El 10% que dijo que rehusaría un buen trabajo está incluido en el 20% que afirmó que declinaría algún trabajo, y este 20% está incluido en el 25% que manifestó que regresarían a la escuela si no consiguieran ningún trabajo; y este 25% está contenido en el 50% que declaró que le gustaría regresar a la escuela.

    Con respecto a tres preguntas tricotómicas y una dicotómica hay 3 X 3 X 3 X 2 = 54 tipos posibles. Para que formen una escala -puede demostrarse- a lo más deben presentarse ocho tipos. La gráfica presenta los ocho tipos, que se han calificado de 0 a 7. La carta indica las características de cada tipo. Por ejemplo, el tipo con la puntuación 3 incluye a todos los individuos con los siguientes cuatro valores: dicen que preferirían aceptar un buen trabajo que regresar a la escuela; que rehusarían algún trabajo si el gobierno los ayudara para regresar a la escuela; que regresarían a la escuela si el gobierno los ayudara en caso de que no pudieran conseguir ningún trabajo; y que les gustaría regresar a la escuela. Por tanto, leyendo las categorías cruzadas por las líneas interrumpidas que encierran a cada tipo, podemos leer sus características.

   Nótese que cada uno de los cuatro atributos es una función sencilla de las puntuaciones escalares. Por ejemplo, la pregunta de un "buen trabajo" tiene categorías que corresponden a los siguientes tres intervalos de puntuaciones escalares: 0-3, 4-6, 7.

   Podría plantearse la pregunta de qué tan frecuentemente se encuentran escalas en la práctica. ¿No es demasiado esperar que se encuentre en la vida real una estructura siquiera aproximada a la de la gráfica anterior? En respuesta a esto solamente podemos citar hasta ahora la experiencia en la investigación dentro del ejército. Literalmente se han encontrado docenas de escalas suficientemente perfectas en varias áreas de actitud, opinión y conocimiento. El ejemplo anterior, acerca del deseo de ir a la escuela, es una versión ficticia de un conjunto de preguntas similares que han podido ser mensurables en el ejército. Muchas variedades de datos han resultado mensurables y muchas no. Los datos factibles de medirse pudieron relacionarse después muy fácilmente con otras variables. Los que estaban en el caso contrario requirieron un análisis más complejo para manejarlos adecuadamente.

 

    El muestreo del universo de atributos

    Una propiedad importante de un universo mensurable por escala es que la ordenación de las personas, basada en una muestra de reactivos, es de suyo igual a la basada en el universo. Si el universo es una escala, la adición de reactivos solamente dividiría cada tipo dado entre la muestra en tipos diferenciados; pero no intercambiaría el orden de los tipos encontrados en la muestra. Por ejemplo, en la figura 5, el tipo 6 siempre tendría un orden jerárquico más alto que el tipo 5. Las personas del tipo 6 pueden ordenarse, dentro de su tipo, en más subcategorías; las personas que pertenecen al tipo 5 también podrían ordenarse en más subcategorías; pero todas las del tipo 6 tendrían un orden jerárquico más alto que todas las del tipo 5. Esto puede verse a la inversa, por ejemplo, suprimiendo una de las preguntas y haciendo notar que todo lo que sucede es reducir los tipos a un número más pequeño, de manera que dos tipos vecinos puedan hacerse indistinguibles; pero tipos cualesquiera que estén separados dos pasos conservarán el mismo orden entre sí

   Por consiguiente, estamos seguros de que si una persona tiene un rango más alto que otra, en una muestra de reactivos, tendrá también un rango más alto en el universo de reactivos. Esta es una propiedad importante, de las escalas, que consiste en que de una muestra de atributos podemos sacar inferencias sobre el universo al qué pertenecen.

   Uno de los criterios para seleccionar una muestra de reactivos es escoger una muestra con bastantes categorías para proporcionar la cantidad deseada de diferenciación entre los individuos. De esta manera, si deseamos que se diferencien los individuos, por ejemplo, solamente en 10 grupos, deben escogerse reactivos que produzcan 10 tipos. Claro está que no consideramos los problemas de confiabilidad en el aspecto de observaciones repetidas de los mismos atributos. Por conveniencia supondremos tácitamente perfecta la confiabilidad. La forma de distribución de los rangos en una muestra de atributos dependerá, por supuesto, de la muestra. Una muestra de atributos puede dar una forma de distribución, mientras que una segunda puede dar otra diferente. Esto carece de importancia, toda vez que nuestro principal interés se encuentra en la ordenación de las personas, no en la frecuencia relativa de cada posición.

   Sería logico preguntarse cómo podemos saber que el universo forma una escala si todo lo que conocemos es una muestra de él. En la actualidad parece totalmente claro que, en general, la probabilidad de encontrar por azar una muestra de atributos que formen una escala con respecto a una muestra de individuos es ínfima, aunque haya solo tres reactivos dicotómicos en la muestra y aproximadamente cien individuos. Desarrollar la teoría completa de probabilidad requeriría dos cosas: primero, la definición de un proceso de muestreo para seleccionar reactivos; y, segundo, la definición de lo que significa que no existe una escala. La definición del proceso de muestreo es difícil porque los reactivos, por lo común, se desarrollan en forma intuitiva. Establecer una hipótesis de nulidad, de que no existe una escala, conduce a muchas formulaciones analíticas posibles porque pueden imponerse diferentes condiciones limitantes a la distribución multivariada de los reactivos. Por ejemplo, ¿deben considerarse fijas las frecuencias marginales en todas las muestras? ¿Deben considerarse fijas las frecuencias bivariadas? , etc. Estas preguntas pueden esclarecerse a medida que se desarrolle la teoría de elaboración de escalas y mejoren nuestros conceptos de lo que implica la observación de los fenómenos sociales.

   Parece seguro generalizar que, si se selecciona una muestra de atributos sin conocimiento de sus interrelaciones empíricas y se encuentra que forma una escala en cualquier muestra aleatoria de individuos de tamaño comparativamente grande, entonces el universo del cual se seleccionan los atributos es mensurable en toda la amplitud de la población entera de individuos.

 

    Elaboración de escalas y predicción

   Es importante distinguir entre dos asuntos estrechamente relacionados, la elaboración de escalas y la predicción. Descubrir que se puede hacer una escala para un universo de atributos y aplicarla a una población significa que es posible derivar una variable cuantitativa, partiendo de una distribución multivariada tal que cada atributo sea una función sencilla de esa variable. Podríamos expresar esto de otra manera, diciendo que cada atributo es predecible (perfectamente) a partir de la variable cuantitativa.

   Es esto lo contrario del problema ordinario de la predicción. En un problema ordinario de esta especie, existe una variable externa, definida independientemente, que va a predecirse o partir de los atributos. Por ejemplo, cuando se quieren predecir los ingresos de un estudiante, cinco años después que se graduó en la universidad, a partir de su conocimiento actual de matemáticas. Para hacerlo, habría que obtener una muestra experimental en la que se conocieran los salarios de cada persona cinco años después de la universidad y las respuestas a cada reactivo de la prueba de matemáticas. Si se adopta el criterio de mínimos cuadrados, entonces la mejor predicción con base en la muestra sería la regresión múltiple del ingreso sobre los tres reactivos de la muestra. La distribución multivariada de los tres reactivos y la variable externa nos darían los elementos necesarios para computar la regresión, curva o lineal, que sería la mejor para predecir la variable externa. Si deseáramos predecir alguna otra variable externa a partir de los mismos reactivos, tendría que obtenerse una nueva regresión múltiple a partir de la distribución multivariada de los tres reactivos de la nueva variable externa. En general y ordinariamente, se esperaría que la primera de estas regresiones diferiría de la segunda. En absoluto, los pesos que se usan para predecir una variable externa fundándose en un conjunto de atributos difieren de los que se usan para predecir otra variable externa; debe efectuarse una nueva regresión múltiple para cada variable externa.

   Esto subraya una propiedad importante de las escalas. Si los reactivos tienen una distribución multivariada, que sea mensurable por escala, puede verse fácilmente que no importa cuál sea la variable externa; y es posible dar a los reactivos los mismos pesos de predicción. Por tanto, nos hallamos frente a una propiedad notable de la medición por escala, a saber, que proporciona una cuantificación invariante de los atributos con respecto a la predicción de cualquier variable externa. No importa a qué propósito de predicción vayan a servir los atributos, las puntuaciones escalares servirán a dicho propósito.

 

    Acerca del "análisis de reactivos"

    Es muy importante la distinción que acabamos de hacer. Al elaborar una escala, reproducimos los atributos partiendo de una variable cuantitativa. En la predicción, pronosticamos una variable a partir de los atributos. Es una diferencia clara que nos permite evitar gran parte de la confusión que parece prevalecer en la literatura anterior sobre la elaboración de escalas. Parece haberse creído que los reactivos de un universo son solamente escalones para obtener puntuaciones. Se pensaba que era una deficiencia embarazosa carecer de una variable particular para predecir a partir de los reactivos, de modo que, como mal necesario, uno tenía que recurrir a los métodos de consistencia interna para derivar las puntuaciones.

    Esto explica los enfoques corrientes de "análisis de reactivos" en el proceso de elaborar escalas. Se siguen procedimientos que consisten generalmente en lo que sigue: se asigna un conjunto de valores de prueba a las categorías, lo cual da lugar a un conjunto de puntuaciones de ensayo. Posteriormente se examina cada reactivo para determinar qué tan bien puede discriminar por sí sólo estas puntuaciones, es decir, si pueden predecirse las puntuaciones a partir del reactivo. Los reactivos que mejor discriminan individualmente se conservan y los demás se eliminan.

    El carácter confuso de estos procedimientos puede verse en los ejemplos de escalas anteriores. Hemos señalado que las intercorrelaciones entre atributos de una escala pueden estar tan cerca de cero como uno desee. También puede verse cómodamente que la razón de correlación de las puntuaciones de la escala con cualquier reactivo aislado puede estar igualmente tan cerca de cero como uno quiera. La predictibilidad de la variable escalar con fundamento en un atributo no dice si el atributo es o no predecible a partir de la variable escalar.

   El uso de los procedimientos de "análisis de reactivos" en conexión con las escalas parece una carga lamentable en el problema de la predicción ordinaria de una variable externa. En tal problema, los reactivos no son ciertamente sino escalones que permiten hacer predicciones. Se sabe' ' que el análisis de reactivos ofrece una primera aproximación a la correlación múltiple (o a la función discriminante) y que un reactivo interesa solamente en el grado que sirve a la regresión múltiple.

    Nuestra insistencia en la medición por escala es muy diferente. En ésta, nos interesamos en cada uno de los atributos del universo por los propios méritos de estos. Si no fuera así, no trabajaríamos con tal universo. Los atributos son las cosas importantes; y si son mensurables por escala, entonces las puntuaciones serán solamente una estructura compacta para representarlos.

   La estructura compacta que hemos descrito tiene la propiedad adicional e importante de ser un dispositivo eficaz para predecir cualquier variable externa de la mejor manera posible a partir de determinado universo de atributos.

 

    La relatividad de las escalas

   Un problema interesante asociado con las escalas es el de ¿por qué un universo forma una escala con respecto a determinada población? Por ejemplo, tomemos la muestra de tres preguntas de matemáticas dada anteriormente. ¿Por qué pueden incluirse en una escala estas tres preguntas? No hay una razón lógica necesaria para que una persona deba conocer el área de un círculo antes de que conozca lo que es una derivada y, en particular, la derivada de ex. La razón para la existencia de una escala, en este caso, en gran parte parece cultural. Nuestro sistema educativo es de tal tipo que la sucesión en que aprendemos nuestras matemáticas en las preparatorias y universidades es que primero aprendemos cosas como el área del círculo, después el álgebra y posteriormente el cálculo. Y la cantidad de práctica que poseemos de cada una de estas materias probablemente también está en ese orden. Sin embargo, sería muy posible para un marciano llegar a este mundo y estudiar cálculo sin tener que aprender el área de un círculo de modo que no podría ser un tipo escalar, conforme a la escala presentada arriba; o un estudiante podría haber tenido un incidente personal en el cuál, de alguna manera, lo haya impresionado con gran fuerza la derivada de ex; pero en el curso ordinario de las circunstancias la habría olvidado más rápidamente de lo que olvidó el área de un círculo.

   El análisis escalar separará esos tipos desviados o no escalares. Naturalmente que, si estos tipos no escalares son demasiado numerosos, diremos que no existe una escala. En la práctica encontramos escalas, aunque nunca escalas perfectas, porque ha habido suficiente uniformidad de experiencia en la población de individuos, de manera que los atributos significan esencialmente lo mismo a los diferentes individuos. De hecho, un estudio de las desviaciones es un subproducto interesante del análisis escalar. El análisis escalar separa efectivamente a los individuos para hacer estudios de casos.

   Un universo puede formar una escala en una población, en un momento dado, pero no hacerlo en otra ocasión. Por ejemplo, los reactivos de la escala de expresión del deseo de los soldados norteamericanos de regresar a la escuela después de la guerra, posiblemente no resultaran susceptibles de conformarse a una escala si se les preguntara una segunda vez al terminar la guerra.

   Un universo puede formar una escala en una población de individuos, pero no en otra. O los atributos pueden formar escalas, en dos poblaciones, de manera diferente. Por ejemplo, una muestra de reactivos de satisfacción con respecto a la vida en el ejército, que formó una escala con relación a los pertrechos de combate en la Fuerza Aérea, no formó una escala en los individuos de las escuelas técnicas de la misma rama. La estructura de la vida militar de estos dos grupos fue muy diferente en los mismos reactivos, y no tuvo por eso el mismo significado en ambas situaciones.

    Si un universo es mensurable por escala, en una población, pero no en otra, o forma una escala de manera diferente, no podemos comparar las dos poblaciones en cuanto a grado, y decir que una es más alta o más baja en promedio con respecto al universo. Difieren en más de una dimensión o en clase, más que en grado. Solamente si dos grupos o dos individuos caen en la misma escala podemos ordenarlos de mayor a menor. Una consideración similar es válida para las comparaciones de tiempo. Una contribución importante de la teoría presente relativa a la elaboración de escalas es subrayar estas propiedades de relatividad.

 

    Resumen

   1. La distribución de frecuencia multivariada de un universo de atributos con respecto a una población de objetos es una escala cuando es posible derivar de la distribución una variable cuantitativa que caracterice a los objetos, de tal manera que cada atributo sea una función sencilla de la variable cuantitativa.

   2. Tiene un significado inequívoco el orden de las puntuaciones escalares. Un objeto con una puntuación más alta que otro se caracteriza por valores más altos de cada atributo, o por lo menos equivalentes.

   3. Tiene un significado inequívoco el orden de los valores del atributo. Una categoría de un atributo es más alta que otra si caracteriza a los objetos en posiciones más altas en la escala.

   4. Puede demostrarse que si los datos son susceptibles de conformarse a una escala, la ordenación de los objetos y de las categorías es, en general, única (excepto por la dirección). Las dos ordenaciones surgen del análisis de los datos y no de consideraciones a priori.

   5. La predictibilidad de cualquier variable externa a partir de las puntuaciones escalares es igual a la predictibilidad a partir de la distribución multivariada usando los atributos. La correlación de orden cero con la puntuación escalar es equivalente a la correlación múltiple con el universo. Por consiguiente, las puntuaciones escalares proporcionan una cuantificación invariante de los atributos para predecir cualquier variable externa.

    6. Las escalas son relativas con respecto al tiempo y a la población.

   7. En la distribución multivariada de una muestra de atributos con respecto a una muestra de objetos, se pueden hacer inferencias concernientes a la distribución completa del universo con respecto a la población.

   8. Las escalas perfectas no se encuentran en la práctica.

   9. En las escalas imperfectas, el análisis escalar separa los tipos desviados o no escalares para estudio de casos.

subir índice

Artículo Abril 2008

BASE PARA ELABORAR ESCALAS CON DATOS CUALITATIVOS  

    INTRODUCCIÓN

    En gran parte de la investigación que se realiza en el campo de las ciencias sociales y psicológicas, el interés se centra en ciertas clases importantes de observaciones cualitativas. Por ejemplo, la investigación sobre el matrimonio atiende a una clase de conducta cualitativa llamada adaptación matrimonial, que incluye un número indefinidamente grande de interacciones entre marido y mujer. La investigación de la opinión pública se ocupa de importantes clases de conducta que son expresiones de la opinión de los norteamericanos sobre asuntos como la capacidad de lucha de los británicos, por ejemplo. La psicología educativa incluye los tests de aprovechamiento en dichas clases de conducta.

   A menudo, en estos campos se desea, resumir los datos diciendo, por ejemplo, que una pareja matrimonial está mejor ajustada que otra; que esta persona tiene mejor opinión de los británicos que aquélla; o que un estudiante tiene mejor conocimiento de la aritmética que otro. Se ha discutido ampliamente la utilidad de estas ordenaciones de personas; pero no es nuestra intención pasar revista a esas discusiones, sino enfocar el problema sobre una base nueva que parece la adecuada para cuantificar datos cualitativos.

    Este enfoque se usó satisfactoriamente en la investigación de la moral y otros problemas, que llevó a cabo la sección de investigación de la División de Servicios de Moral del Ejército de los Estados Unidos, dentro del propio campo de las fuerzas armadas. Aunque este enfoque de la cuantificación conduce a ciertos cálculos interesantes, no se requieren conocimientos matemáticos especiales para analizar los datos con toda eficacia. Se han establecido rutinas sencillas que no requieren conocimientos de estadística y que llevan menos tiempo que las diversas manipulaciones empleadas actualmente por diferentes investigadores (por ejemplo razones críticas, correlaciones biseriales, análisis factorial, etc.), las cuales proporcionan un cuadro completo de los datos, que por cierto no es ofrecido por esas otras técnicas. La palabra "cuadro" puede interpretarse aquí literalmente, porque los resultados del análisis se presentan y se asimilan fácilmente en la forma de un "escalograma", que ofrece a primera vista la configuración de los datos cualitativos.

 

    Las nociones de variable, función y función sencilla

    Veamos en primer lugar algo sobre el significado de variable, ya sea cualitativa o cuantitativa. Usamos el término en su acepción convencional, lógica o matemática, para denotar un conjunto de valores. Estos valores pueden ser numéricos (cuantitativos) o no numéricos (cualitativos). Usaremos en forma intercambiable los términos "atributo" y "variable cualitativa". Los valores de un atributo (o de una variable cuantitativa, que para el caso es lo mismo) son sus subcategorías o simplemente categorías.

    Un ejemplo de atributo es la religión. Una persona puede tener el valor "católico", "budista", "judío", "mormón", "ateo", o algún otro valor de esta variable. No hay un orden intrínseco particular en estos valores. Otro ejemplo es la expresión de una opinión. Una persona puede decir, "Me gustan los ingleses", "No me gustan los ingleses", o "No sé si me gustan o no los ingleses". Una ilustración más consiste en que se puede observar que una persona sonríe al conocer a otra, o que no lo haga. Las variables cuantitativas se reconocen fácilmente.

    Se dice que una variable y es función de un sólo valor de la variable x si a cada valor de x corresponde un sólo valor de y. Por tanto, si y toma los distintos valores Y1, Y2, ... , Ym, y si X toma los diferentes valores X1, X2, . . . , Xn, donde m y n pueden ser diferentes, decimos que Y es una función monovalente de X, y en tal caso podrá hacerse una tabla de correspondencia semejante a la que sigue:

_____________________________________

x    x1    x2   x3...   xnn

_____________________________________

y   y1   y2   y3...   ym

_____________________________________

    Para cada valor de X hay un valor de Y y solamente uno. (Lo contrario no necesita ser cierto: para un valor de Y puede haber dos o más valores de X). Obviamente, si Y es una función monovalente de X, se deduce que m n.

    En particular, supongamos que Y es un atributo, por ejemplo el atributo anterior sobre la expresión de simpatía por los ingleses. Si m = 3, y podemos expresar con Y1  la afirmación "Me gustan los ingleses"; con Y2, la afirmación, "No me gustan los ingleses"; y por Y3 "No sé si me gustan o no los ingleses"; y si X es una variable cuantitativa que toma más de m valores (n > m), y si podemos dividir los valores de X en m intervalos que se hallen en correspondencia de uno a uno con los valores de Y, entonces decimos que el atributo Y es una función sencilla de X . Por ejemplo, supongamos que X  toma los diez valores 0, 1, 2, 3, 4, 5, 6, 7, 8, 9; la tabla de correspondencia sería entonces como la siguiente:

_____________________________________

X    0  1  2  3 4 5 6 7 8 9

_____________________________________

Y  Y1 Y1 Y1 Y3 Y3 Y2 Y2 Y2 Y2 Y2

_____________________________________

    Asimismo, podríamos representar esto gráficamente dibujando los valores de X en una línea recta que dividiríamos en intervalos: Para variables estadísticas es posible otra representación, consistente en un gráfico de barras de frecuencia

 

    La definición de escala

    Con respecto a determinada población de objetos, la distribución de frecuencia multivariada de un universo de atributos se llamará escala, si es posible derivar de la distribución, una variable cuantitativa para caracterizar los objetos de modo que cada atributo sea una función sencilla de esa variable cuantitativa. Esa variable cuantitativa es la variable escalar.

    No esperamos obtener en la práctica escalas perfectas. La desviación de la perfección se mide por el coeficiente de reproductibilidad, que sencillamente es la frecuencia empírica relativa con que los valores del atributo corresponden a los intervalos adecuados de una variable cuantitativa. En la práctica, se han empleado escalas con un 85% de perfección o aun mejores como aproximaciones eficientes a escalas perfectas.

    Un valor de una variable escalar se llamará una puntuación escalar o simplemente puntuación. La ordenación de los objetos de acuerdo con el orden numérico de sus puntuaciones escalares se llamará su orden escalar.

    Obviamente, cualquier variable cuantitativa, que es una función creciente (o decreciente) de una variable escalar, también es una variable escalar. Por ejemplo, anteriormente se consideró a X como una variable escalar. A cada una de las puntuaciones de X podría restársele o agregársele una constante cualquiera, Y y seguiría siendo una función sencilla de la X  transformada. Así, las puntuaciones 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 podrían reemplazarse por las puntuaciones respectivas -5, -4, -3, -2, -1, 0, 1, 2, 3 y 4. o podrían multiplicarse las puntuaciones de X por cualquier constante, o extraerse sus raíces cuadradas o tomarse sus logaritmos; puede, en fin, hacerse cualquier transformación continua o discontinua en tanto que permanezca perfecta la correlación de orden jerárquico entre la X original y la variable transformada. Todas esas transformaciones producen variables escalares, cada una de las cuales es igualmente eficaz para reproducir los atributos.

    Por consiguiente, el problema de la métrica no es aquí de importancia particular para elaborar escalas. En ciertos problemas, como predecir variables externas a partir del universo de atributos, puede ser conveniente adoptar una métrica particular, por ejemplo, la de cuadrados mínimos, cuyas propiedades resultan convenientes para ayudar a analizar correlaciones múltiples. Sin embargo, debe señalarse que la selección de la métrica es asunto de conveniencia; cualquier métrica predecirá una variable exterior tan exactamente como lo haría cualquier otra.

    En la práctica, se ha usado el orden jerárquico como variable escalar. (De hecho, es una métrica de cuadrados mínimos, aplicable a una distribución rectangular de puntuaciones escalares).

 

    El universo de atributos

    Las palabras población y universo se usan por lo común en forma intercambiable en los estudios estadísticos. En cuanto a las escalas es necesario referirse tanto a un conjunto completo de objetos como a un conjunto completo de atributos; así que será conveniente reservar población para lo primero y universo para lo segundo. En la investigación social, los objetos son por lo común personas, de manera que para ellos es apropiado usar población.

    Un concepto básico en la teoría de las escalas es el de universo de atributos. En la investigación social, un universo es generalmente una clase importante de conducta como la descrita en la introducción. El universo es el concepto cuya factibilidad de medirse por escala se investiga, como el ajuste matrimonial, la opinión sobre la capacidad de lucha de los británicos, el conocimiento de la aritmética, etc. El universo consiste en todos los atributos que define el concepto. Otra manera de describir el universo es expresando que comprende todos los atributos de interés para la investigación y qué tienen un contenido común, de manera que se clasifican bajo un sólo título que indica el contenido.

    Por ser de fácil examen, tomemos un ejemplo de la investigación de opinión, donde se desea observar la población de individuos de manera estandarizada par medio de una lista de confrontación de preguntas. La conducta que interesa en la investigación son las respuestas de los individuos a tales preguntas. Supongamos que el universo de atributos abarca todas las preguntas posibles que podrían contestarse en la lista concerniente a la capacidad de lucha de los británicos. Esas preguntas podrían ser: "¿Piensa usted que el ejército británico es tan poderoso como el alemán? "; "¿Piensa usted que la fuerza aérea británica es superior a la alemana? " Y así sucesivamente. Hay un número indefinidamente grande de tales preguntas que pertenecen al universo; pero en una investigación particular generalmente sólo se usa una muestra de aquél.

    Un atributo pertenece al universo en virtud de su contenido. El investigador indica el contenido de interés por el título que selecciona para el universo; y todos los atributos con ese contenido pertenecen a tal universo. Por de contado, habrá en la práctica casos límites en que será difícil decidir si un reactivo pertenece o no al universo. La evaluación del contenido es así un asunto que puede decidirse por consenso de los peritos o por algún otro medio. Esto se ha reconocido antes, aunque no necesita considerarse como un pecado contra el Espíritu Santo del operacionalismo puro ". Es posible que el análisis formal de factibilidad de una escala ayude a esclarecer las regiones dudosas de contenido. Sin embargo, se ha encontrado que actualmente es más útil valerse de la experiencia informal y del consenso, en su mayor grado, para definir el universo.

    Un aspecto importante de este enfoque es que el criterio para que un atributo pertenezca al universo no es la magnitud de las correlaciones de ese reactivo con otros atributos que se sabe pertenecen al universo. Los atributos del mismo tipo de contenido pueden tener intercorrelaciones de cualquier amplitud y que varían, prácticamente, desde 0 hasta la unidad.

 

    La población de objetos

    Definir el universo de atributos es un problema similar al problema típico de definir la población de objetos o individuos de interés para la investigación. Un investigador debe siempre delimitar la población con la que trabaje. Por ejemplo, en el caso de la opinión sobre los británicos como soldados, debe decidir de quiénes desea determinar las opiniones, ¿Está interesado en individuos de cualquier parte o solo de los de los Estados Unidos? ¿Está interesado en cualquier individuo de los Estados Unidos o solo en los adultos? Si sólo en los adultos, ¿cómo se definirá un adulto? Además, a veces será difícil decidir si un individuo particular pertenece a una población o no; y las decisiones deberán tomarse antes de que empiece la investigación, pues de otra manera el investigador no sabrá a quién observar.

 

    Métodos de observación

    Supongamos que hemos definido un universo de atributos y una población. Podemos entonces comenzar a realizar observaciones sobre la conducta de la población con respecto al universo. (En la práctica esto se hace generalmente sólo con muestras. Una muestra de individuos de la población es observada en su conducta con respecto a una muestra de atributos del universo). Cómo se hagan las observaciones, aquí no interesa. En la investigación de opinión y en otros campos se han usado cuestionarios e inventarios. Pero puede usarse cualquier técnica de observación que proporcione los datos de interés para la investigación. En el caso de las ciencias sociales y psicológicas, las técnicas pueden ser historias de casos, entrevistas, introspección y cualquier otra técnica para registrar observaciones. Lo importante no es cómo se alleguen las observaciones, sino que éstas sean de interés central para la investigación.

    El uso de un cuestionario implica que el investigador está interesado en cierto tipo de universo de conducta verbal. La observación participante puede implicar que el investigador se interesa por cierto tipo de universo de conducta no verbal. Estos distintos universos pueden investigarse en forma individual. Con frecuencia es de interés averiguar qué tan bien se correlaciona un universo con otro; pero esa correlación no puede determinarse sino hasta que cada universo se defina y observe separadamente.

    Los ejemplos de escalas de este artículo contienen observaciones hechas por medio de cuestionarios. No debe inferirse, sin embargo, que la elaboración de escalas se refiere solamente a esa técnica. El análisis de la elaboración de escalas es un análisis formal y, por tanto, se aplica a cualquier universo de datos cualitativos de cualquier ciencia obtenidos por cualquier forma de observación.

 

    El propósito de la elaboración de escalas

    Es patente la laboriosidad que implica el registro del gran número de observaciones que existen en un universo de atributos con respecto a una población de individuos. El registro requiere una tabla con un renglón para cada individuo y una columna para cada atributo. (En teoría, la tabla puede ser indefinidamente grande). Sería conveniente que pudiésemos representar las observaciones del modo más compacto que, a su vez, nos permitiera reproducir la tabla siempre que lo deseáramos. Una representación compacta, si pudiera obtenerse, tendría dos grandes ventajas: primero, una ventaja mnemotécnica, porque una representación de tal tipo sería más fácil de recordar que una tabla grande; y segundo, si deseáramos relacionar el universo y otras variables sería más fácil hacerlo por medio de la representación compacta que usando la distribución multivariada de los atributos en el universo. De ella se derivan otras ventajas que se advertirán cuando aumente el conocimiento del lector sobre las escalas.

    Una representación particularmente sencilla de los datos sería asignar a cada individuo un valor numérico y a cada categoría de cada atributo otro valor numérico, de manera que, dado el valor del individuo y los valores de las categorías de un atributo, pudiéramos reproducir las observaciones del individuo sobre el atributo. Esto será posible solamente en tipos restringidos de datos, en que cada atributo del universo puede expresarse como una función sencilla de la misma variable cuantitativa, es decir, donde el universo de atributos forma una escala con respecto a la población de individuos.

&