Virgen de Loreto
Este espacio está reservado para los artículos ya publicados
COMO ELABORAR ESCALAS TECNICAS DE GUTTMAN Introduccion. Desde los primeros trabajos de Guttman, la escala monodimensional ha sido ampliamente usada por sociólogos y psicólogos sociales.
Su utilidad se revela no solamente por el número de científicos sociales que la han empleado sino por el número de mediciones diferentes para las que se ha
adaptado. Aunque desde su aparición han transcurrido ya medio siglo, que ha servido para evaluar exactamente su contribución a la sociología y a la
psicología social. Es verdad que la técnica de Guttman permite el tratamiento de
datos cualitativos sin hacer la discutible conversión a datos cuantitativos como se hace en algunas otras técnicas de elaboración de escalas. De esta manera, los
investigadores han reducido al mínimo las interpretaciones erróneas, al evitar suposiciones de medida equivocadas. Pero lo más importante para el desarrollo de
la ciencia conductual es que el modelo de Guttman contenga cierto mecanismo intrínseco (el coeficiente de reproductibilidad) por el cual uno se ve obligado
a examinar la consistencia interna de los reactivos que componen la escala.
Este mecanismo compele la atención hacia lo que realmente se
está midiendo. Aunque en ocasiones se han obtenido medidas "estériles", no
obstante las pruebas de consistencia interna, generalmente los requerimientos de
reproductibilidad han favorecido la mayor claridad conceptual. Es,
indudablemente, difícil examinar la consistencia interna de un conjunto de
reactivos sin ocuparnos de lo que realmente se está midiendo o, por lo menos, de
lo que se está haciendo variar en los reactivos, para explicar la variación de
las frecuencias de respuesta, de tos reactivos. Es asimismo inevitable la
obtención de mayor claridad conceptual sobre el requerimiento de que, cada vez
que se use una escala, su consistencia interna haya de ser reexaminada. Así,
cuando con un conjunto de reactivos puede hacerse una escala para un grupo pero
no para otro, o suceda lo anterior con un grupo particular en el tiempo 1 pero
no en el tiempo 2, es preciso explicar el porqué. La técnica de Guttman ha
suministrado además un modelo para la organización de datos colectivos y otros
no actitudinales (Rifey y colaboradores, 1954). Ha habido y han sido estimulados
los considerables esfuerzos por mejorar el procedimiento original, de Guttman,
para elaborar escalas. La mayoría de las mejoras al método de Guttman para construir
escalas, desde los últimos años de la década del 40, se han concentrado en las
técnicas para evaluar una escala (es decir, las técnicas para determinar con más
precisión el grado en que un conjunto de reactivos se convierte en una escala
eficaz) y en la mecánica de la elaboración de escalas cuando se utiliza equipo
electrónico de procesamiento de datos.
Aunque parece que existe mayor interés en los criterios del
reconocimiento de errores que en los criterios de prevención de los mismos, en
la construcción de escalas ha habido notables aportaciones. Entre ellas se han
seleccionado para su estudio:
La mecánica de Guttman de elaboración de Escalas La noción básica de la escala de Guttman o acumulativa es que
entre los reactivos que forman la escala existe una relación interna tal, que una persona que ratifica o concuerda con un reactivo que ocupa una posición
escalar dada, ratificará todos los reactivos que estén por debajo de ella en la escala. Si se sabe que una persona ratificó tres reactivos de una escala
compuesta de cuatro, se sabe también cuáles fueron los tres reactivos que ella ratificó. Por otra parte, todos los individuos que ratifiquen solamente tres
reactivos, ratificarán los mismos tres. De esta manera, es posible ordenar a los individuos en categorías o posiciones relativas definidas por las posiciones de
los reactivos ratificados. Es cierto, empero, que estas cualidades de la escala de Guttman se deterioran a medida que disminuye la consistencia interna.
Se han inventado varias técnicas para elaborar escalas de Guttman. En el trabajo inicial se usó la técnica de tablas de escalograma (Suchman,
1950). En este procedimiento se usaba una tabla compuesta de una serie de tablillas movibles en las que se colocaban marcas que representaban las
respuestas de los sujetos a cada reactivo. Las tablillas podían manipularse de tal manera que se podía determinar visualmente la consistencia interna de los
reactivos que componían la escala.
Se han desarrollado otras técnicas, que incluyen la técnica de Cornell (Guttman, 1947), el método de cuadrados mínimos (Guttman, 1941) y la
técnica de tabulación transversal (Toby y Toby, 1954), así como varias modificaciones de ellas para usarlas con equipo de procesamiento de datos y
computadoras electrónicas.
En algunas técnicas se emplean valores asignados arbitrariamente, los cuales se suman para obtener una puntuación escalar para
cada sujeto; en otras técnicas no se hace así. Pueden usarse valores, pero nada se gana con ello. A Stauffer se le da crédito por el desarrollo de una técnica
que no usa un sistema de valores. En esta técnica se determinan puntos de corte con respecto a reactivos de respuesta múltiple tratados en forma dicotómica al
tabular transversalmente cada reactivo con todos los demás. Se desarrolló con el fin de usarse en un clasificador electrónico de tarjetas, pero puede adaptarse
fácilmente para usarse con computadoras. Debido a su sencillez, este método, algo modificado, se resume más abajo. En esta técnica, como en otras que también
se usan para construir escalas de Guttman, debe predecirse el orden jerárquico de los reactivos antes de que los datos sean examinados. Al reactivo más difícil
(o el menos favorable) debe asignársele el rango 1, al siguiente más difícil, el rango 2,. . ., y al menos difícil, el rango n.
De esta manera, la confianza en una escala se incrementa en la medida en que la predicción del orden jerárquico de los reactivos se
fundamente en los datos. Para verificar la predicción del orden jerárquico, se determina la frecuencia de respuestas de cada categoría de respuesta con
respecto a cada reactivo. Por ejemplo, si cada reactivo tiene cinco opciones de respuesta, de "completamente de acuerdo", "de acuerdo", "en duda", "en
desacuerdo" y "completamente en desacuerdo", determínese la distribución de respuestas de cada reactivo y conviértanse en porcentajes acumulativos desde la
más positiva hasta la más negativa.
En el paso siguiente, esta información servirá para seleccionar los puntos de corte de los reactivos de selección múltiple que son
tratados dicotómicamente. Cuando los reactivos son verdaderamente dicotómicos, por ejemplo, si-no, de acuerdo-desacuerdo, se pueden determinar directamente los
porcentajes acumulativos. El paso siguiente es decidir lo que se considerará una ratificación (+) en cada reactivo. Generalmente, en un reactivo con las cinco
opciones de respuesta anteriores, marcar ya sea "completamente de acuerdo" o "de acuerdo" se interpretaría como ratificación (+). Marcar cualquiera de las
opciones restantes se consideraría como no ratificación (-) del reactivo. Con reactivos verdaderamente dicotómicos esto es muy sencillo; con reactivos de
opción múltiple no lo es. El punto de corte de un reactivo es el punto dentro de las opciones ordenadas, que separa la ratificación de la no ratificación. En este
ejemplo, el punto de corte está entre "de acuerdo" y "en duda". Hay ocasiones en que se desea trasladar el punto de corte. Esto, obviamente, cambia la proporción
de sujetos que ratifican el reactivo. Al mover el punto de corte hacia abajo, aumenta el porcentaje de ratificación; al moverlo hacia arriba, disminuye.
Existen, básicamente, dos razones para cambiar el punto de corte de un reactivo. Primero, porque puede ser conveniente cambiar la
distribución marginal de los reactivos. Por ejemplo, la distribución podría ser de 20, 30, 60, 80% de ratificación, con el punto de corte entre "de acuerdo" y
"en duda", con respecto a todos los reactivos. Al trasladar el punto de corte al reactivo del 30%, para incluir "en duda" como ratificación, puede convertirse
ese reactivo en uno de 40%. Esta es una distribución marginal, preferible por razones que serán descritas más adelante. Segundo, al trasladar el punto de
corte de un reactivo a veces es posible convertir un reactivo impropio de la escala en uno adecuado. Manteniendo constante, en la medida de lo posible, el punto
de corte de respuesta (por ejemplo, entre las respuestas "de acuerdo" y "en duda" en el grupo de opciones anterior), el investigador debe seleccionar los
reactivos que hagan máxima la distancia entre los reactivos marginales (la proporción de sujetos que ratifican el reactivo). Por ejemplo, una escala de
cuatro reactivos debe contener reactivos marginales de 20, 40, 60 y 80%. Cuanto más separados estén los marginales, tanto menos probable es una inversión del
orden de los reactivos del preexamen al estudio final, o en dos aplicaciones cualesquiera de la escala. Deben evitarse asimismo reactivos con marginales
extremos. Los reactivos necesariamente tienen reproductibilidades iguales a la respuesta modal (ya sea + o -). Esto quiere decir que reactivos con marginales
más grandes del 80% o de menos del 20% pueden infundir excesiva confianza en la factibilidad de hacer una escala del universo de contenido que se esté
considerando. En el conjunto de reactivos de ensayo seleccionado, cada uno de aquéllos debe contrastar con cada uno de los demás para determinar si los
reactivos se ajustan entre sí suficientemente para ser compatibles con el modelo de Guttman. En el caso de una relación perfecta entre dos reactivos, donde uno
es más difícil de ratificar que el otro, todos los sujetos que ratifican el reactivo con el marginal más pequeño (el más difícil) deben ratificar también el
menos difícil.
El grado en que los reactivos satisfacen esta relación
perfecta se refleja en la "celdilla de error" de cada tabla cuádruple (véase figura 1). Ninguna celdilla de error debe contener más del 10% del número total
de sujetos. Y las celdillas de la diagonal principal (+ +) y (- -) de cada tabla deben contener al menos tantos casos como los que se encuentran en la celdilla
de error (Toby y Toby, 1954). El error del reactivo es la proporción de sujetos que ratifican el reactivo más difícil pero que fallan en el reactivo más fácil.
Una vez establecido el punto de corte de cada reactivo y su error, necesitan obtenerse los patrones de respuesta. Esto se logra determinando
las respuestas de cada sujeto en todos los reactivos. La sucesión de observaciones comienza con el reactivo menos frecuentemente ratificado y
continúa con los demás, en orden descendente de dificultad. Si se usa un clasificador de tarjetas y se tratan los reactivos en forma dicotómica, el
primer paso de las tarjetas por la máquina producirá dos grupos de tarjetas: uno representa a los sujetos que ratificaron el reactivo (+) y el otro, a aquéllos
que no lo ratificaron (-).
Cada grupo se corre después al segundo reactivo según su grado de dificultad. Esto puede producir cuatro grupos que representan a
quienes: 1. ratificaron el reactivo más difícil y el siguiente más difícil (+ +); 2. ratificaron el reactivo más difícil pero no el siguiente (+ -); 3. no
ratificaron el primero pero sí el segundo (- +), y 4. no ratificaron ninguno de los dos (- -). Luego, cada uno de estos grupos se corre al reactivo con la
tercera frecuencia más baja de ratificación, lo que podría generar ocho patrones de respuesta: 1. +++, 2. ++-, 3. +-+, 4. +- -, 5. -++, 6. -+-, 7. - -+, y 8. - -
-. E I procedimiento se continúa hasta concluir el examen de todos los reactivos que componen la escala. El número de patrones posibles de respuesta es una
función del número de reactivos.
Con respecto a reactivos dicotómicos, el número de patrones de respuesta posibles es 2n, donde n es igual al número de reactivos. Entonces
una escala de cuatro reactivos puede producir 16 patrones de respuesta (24) y una escala de ocho reactivos, 256 (28). Sin embargo, del número de patrones de
respuesta posibles, solamente n + 1 son tipos perfectos o puros, es decir, patrones de respuesta que indican tal consistencia de respuesta que si se
ratifica un reactivo en determinada posición escalar, todos los reactivos por debajo de él también lo serán. Por ejemplo, en una escala de cuatro reactivos,
los patrones de respuesta ++++, -+++, --++, - - -+ y - - - - son tipos puros. Los otros patrones donde se advierten fallas en presentar consistencia de
respuesta son tipos no escalares o de error. La colocación de los Tipos de
Error Habida cuenta de que, en realidad, la escala perfecta es sólo aproximada, inevitablemente existen algunos patrones de respuesta que no son
tipos aptos para una escala y deben asignarse a patrones de respuesta perfectos o puros. Existen varios métodos para clasificar las respuestas no escalares. El primer criterio que se usa en este procedimiento es
reducir al mínimo el error. En sentido estricto, el sujeto ha cometido error cuando se desvía en su patrón de respuesta del tipo escalar puro. El problema
consiste entonces en colocar su patrón de respuesta en uno de los tipos escalares puros, de manera que su desviación produzca la mínima cantidad de
error. Por ejemplo, usando este criterio, el patrón -+- - (del más al menos difícil, de izquierda a derecha) puede asignarse solamente al tipo escalar 0
(----). Cualquier otra asignación daría dos o más errores. Si fuera colocado en el grupo escalar 1 (-- -+), se admitirían dos errores asociados a los reactivos
2 y 4. Si se colocara en el tipo escalar 2, contendría tres errores que abarcarían los reactivos 2, 3 y 4.
El criterio de error mínimo resolverá el problema de clasificar las respuestas no escalares cuando no sea posible más que una asignación. Sin embargo, hay
patrones que pueden clasificarse en dos o más tipos escalares empleando este criterio. La respuesta +-++ podría considerarse ya sea como el tipo escalar 2
(--++), con un error asociado al primer reactivo, o como el tipo escalar 4 (++++), donde el segundo reactivo explica un error.
En aquellos casos en que el criterio de error mínimo asigna un patrón de respuesta a dos o más tipos escalares, se han desarrollado varias soluciones.
Cuando hay razón para creer en la presencia de error de respuesta sistemático en los reactivos con los marginales más grande y más pequeño, podría emplearse la
técnica del valor medio, la cual confiere mayor valor a los reactivos intermedios. La decisión con respecto a la colocación de respuestas clasificadas
ambiguamente, por el criterio de error mínimo, se determina con las respuestas a los reactivos intermedios. Por ejemplo, el patrón +-++ podría colocarse ya sea
en el tipo escalar 2, o en el 4, con un error. Si se colocara en el tipo escalar 2, el reactivo 1, un reactivo extremo, explicaría el error. La asignación al
tipo escalar 4 colocaría el error en el reactivo 2. Si el análisis de reactivos descrito anteriormente hubiera indicado que el reactivo 1 estaba sujeto a error
considerable, suponer una probabilidad de error más grande en el reactivo 1 que en el 2 quedaría justificado. Por consiguiente, se tomaría la decisión, con base
en la confiabilidad más grande del reactivo 2, de asignar el patrón de respuesta al tipo escalar 2, dándosele así un valor mayor al reactivo intermedio. (Henry,
1952). Una segunda solución de la clasificación ambigua es la técnica de valor extremo. Supuestamente puede usarse cuando se sospecha de los reactivos intermedios. En
el ejemplo anterior, la respuesta +-++ se colocaría en el tipo escalar 4 cuando se usara la técnica de valor extremo en virtud de las diferentes suposiciones
con respecto a la ubicación del error. (Henry, 1952). Una solución alterna, el método de la distribución de tipos escalares perfectos,
se ha convertido tal vez en la técnica empleada más frecuentemente para clasificar patrones que se asignan a dos o más tipos escalares por medio de la
solución del error mínimo. De este método, se dice que "predice las soluciones de `Distancia Latente Modificada' con mucho mayor eficiencia... (Henry, 1952)"
que las técnicas de valor extremo o de valor medio y es mucho menos complejo que la técnica de distancia latente desarrollada por Lazarsfeld. La solución de la distribución de tipos escalares perfectos
es seleccionar entre ellos los tipos escalares señalados por el criterio de error mínimo, es decir, el tipo escalar con la frecuencia mayor. Se hace el
señalamiento por este tipo escalar si la diferencia entre las frecuencias de dos tipos puros es estadísticamente significativa (ji cuadrada, 1 g.l., a nivel de
.10) (Henry, 1952). En el ejemplo el patrón +-++ podría colocarse en los tipos escalares 2 o 4 con un error. Si el tipo escalar 2 contuviera 98 casos y el tipo
escalar 4 fueran 32 casos, el patrón se clasificaría como tipo escalar 2, porque ocurrió con mayor frecuencia. Cuando se usa esta técnica, el tipo no escalar se
asigna al tipo puro del que tiene mayor probabilidad de desviarse. Otra solución al problema de clasificar los tipos no
escalares cuando el criterio de error mínimo es ambiguo, es la técnica de señalamiento de la clase media, sugerida por Borgatta y Hays (1952). Esta
técnica coloca un patrón ambiguo de respuesta en medio de las dos clases más extremas determinadas mediante el criterio de error mínimo. Borgatta y Hays
señalan el cuidado que debe tenerse con cada una de las técnicas arbitrarias anteriores con respecto a la clasificación de patrones de respuesta no
escalares; ellos recomiendan, en lo posible, el análisis de distancia latente más complejo. Métodos para estimar la Consistencia Interna La estimación de la consistencia interna de un conjunto de
reactivos viene después de la colocación de los tipos no escalares. Como método para el propósito mencionado, Guttman (1950) propuso el coeficiente de
reproductibilidad 1 - (error total de colocación/sujetos sujetos X reactivos) y fijó algo arbitrariamente un mínimo de .90 como necesario para suponer
monodimensionalidad. De acuerdo con este estándar, la cantidad de error tolerado no excede al 10%. El coeficiente de reproductibilidad ha sido y continúa siendo
la estimación más frecuentemente usada de consistencia interna, aunque sus limitaciones sean reconocidas. Como demostraron Menzel (1953) y Borgatta (1955);
no se aproxima a cero en ausencia de consistencia interna. Para entender esta debilidad basta darse cuenta que un sólo reactivo no puede tener más error
que su respuesta modal. Por ejemplo, un reactivo ratificado por el 80% de los sujetos puede tener un máximo de 20% de error. De esta manera, un conjunto de
reactivos sin consistencia interna tendrá, necesariamente, cierta reproductibilidad, de acuerdo con la estimación de Guttman. Considerándose que la reproductibilidad es una función de a)
reactivos extremos, b) individuos extremos y c) la adaptabilidad de los reactivos -con respecto a los sujetos- a una escala, Menzel propuso como medida
más satisfactoria el coeficiente de adaptabilidad á la escala 1 - (error total de colocación /error máximo ). El error máximo se calcula con base en la
diferencia entre el total de respuestas y la suma de las categorías modales ya sea de los reactivos o de los sujetos. La menor de las dos diferencias se usa
para estimar el valor máximo, al parecer para evitar la sobreestimación de la consistencia interna. Menzel indica que el límite inferior de un coeficiente
satisfactorio de adaptabilidad a la escala se encuentra .60 y .65. El coeficiente de adaptabilidad a la escala, de Menzel, es
una dudosa mejora sobre el coeficiente de reproductibilidad pues posee las mismas limitaciones. Como demostró Borgatta, el índice de Menzel también fracasa
en aproximarse a cero en ausencia de un contenido común en los reactivos. Borgatta propuso, como sustituto, la proporción de error:
Este índice varía de cero a uno y puede compararse a las proporciones de error de otras escalas. La proporción de error es la "proporción de errores en la
escala dividida entre el número máximo de errores en una escala con las mismas frecuencias marginales" (Borgatta, 1955). El número máximo de errores se calcula
utilizando la ley de probabilidades independientes para determinar las frecuencias esperadas de cada tipo no escalar, a partir de las marginales de
cada reactivo. Así, para determinar la frecuencia esperada del tipo escalar 4 (++++), en una escala de cuatro reactivos con marginales de 20, 40, 60 y 80%
se multiplican los marginales (.20 X .40 X .60 X .80), para obtener la proporción esperada en el tipo escalar (en este caso .0384), la cual a su vez se
multiplica por el número de sujetos, En cuanto a los tipos no escalares, la frecuencia esperada debe multiplicarse por el número de errores de señalamiento,
para determinar la suma de estos errores con respecto a la distribución esperada. Esta suma se usa como número máximo de errores.
Por ejemplo, en una escala de cuatro reactivos con marginales (la proporción de respuestas de +) de 20, 40, 60 y 80% , la frecuencia esperada
del patrón de respuesta -+-- se determina multiplicando la proporción de respuesta de - (.80), para el primer reactivo, por la proporción de respuestas
de + (.40) para el segundo reactivo, por la proporción de respuestas de - (.40) para el tercer reactivo, por la proporción de respuestas de - (.20) para el
cuarto reactivo. Este producto (.026) se multiplica después por el número total de sujetos (N) para determinar el número de éstos de quienes se espera tengan el
tipo no escalar -+--. La frecuencia esperada debe multiplicarse después por el número de errores de correlación. En este caso el patrón -+-- puede asignarse al
tipo escalar 0 (- - - -) con un error. Por tanto, el número total de errores de colocación esperados con respecto a este patrón de respuesta, suponiendo que N
sea 2 000 es: (.80) (.40) (.20) _ .026 Este procedimiento se sigue con cada tipo escalar; y la suma
de los errores de colocación esperados con respecto a los tipos no escalares se usa como número máximo de errores en la computación de la proporción de error,
número de errores donde el número de errores es la suma de errores de colocación observados. Por
tanto, la proporción de error será de 1.00 cuando el número de errores de colocación sea igual al número máximo de errores y será 0.00 cuando no haya
errores de colocación. Consecuentemente, cuanto menor es la proporción, tanto mayor es la consistencia interna. La proporción de error parece que significa una
mejora determinante con respecto al coeficiente de reproductibilidad y al coeficiente de adaptabilidad a la escala. Sin embargo, acaso deba usarse la
proporción de error junto con la medida de Guttman, en beneficio de quienes no
están familiarizados con el índice de Borgatta. Pruebas significativas Ninguna de las anteriores estimaciones de consistencia
interna -el coeficiente de escalabilidad, el coeficiente de reproductibilidad, y la proporción de error- son pruebas de importancia estadística. Los problemas de
la estabilidad de los datos o de si los patrones observados son o no resultado del azar, no se han resuelto satisfactoriamente, aunque varios investigadores
han dedicado sus energías a buscar una solución. Intentos notables han sido realizados por Sagi (1959), Goodman (1959), Schuessler (1961) y Chilton (1966).
El problema ha sido atacado de varias maneras, desde el punto de vista de una prueba significativa de ji cuadrada (Schuessler) hasta la
demostración, por medio de datos generados por computadoras, de que los coeficientes de reproducibilidad están distribuidos normalmente (Chilton).
Como lo indicaron Sagi y Chilton, deben hacerse estas pruebas antes de la depuración de una escala, pues primordialmente sirven de
instrumentos para determinar qué posibilidad de éxito tendrán los esfuerzos ulteriores para desarrollar una escala a partir de un conjunto de reactivos. Las
distribuciones de muestreo de estos índices constituye uno de los aspectos de la elaboración de escalas, de Guttman, que todavía no se ha desarrollado. La
clarificación de estas distribuciones de muestreo es indispensable; y una contribución decisiva a nuestro conocimiento de la medición de actitudes será el
establecimiento de dichas distribuciones.
Artículo Julio
2008
LA TÉCNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD Análisis de intensidad Cómo diferenciar los personas "favorables" de las `desfavorables". En virtud de que la opinión acerca del libro Una Nación de
Naciones es suficientemente factible de ser medida, es significativo decir que a un estudiante el libro le parece mejor que a otro. Existe una ordenación
jerárquica significativa de los estudiantes de acuerdo con su opinión del libro. Este orden se expresa por las puntuaciones escalares asignadas en el segundo
ensayo. Un estudiante con una puntuación más alta que otro expresa las mismas cosas o mejores acerca del libro (dentro del error escalar). Existe una pregunta ulterior de sumo interés para el investigador. Dado que los individuos pueden ser ordenados de acuerdo con su
grado de favorabilidad ¿hay algún punto de corte en este orden jerárquico, de tal manera que podamos decir que todas las personas a la derecha de ese punto
son "favorables" y todas las personas a la izquierda son "desfavorables"? Una persona puede ser más favorable que otra, no obstante que ambas sean favorables.
La sola obtención de un orden jerárquico no distingue entre ser favorable o desfavorable; meramente refleja que se es más favorable y menos favorable y no
dice si se ha alcanzado un punto después del cual el ser menos favorable significa realmente ser "desfavorable". Se da una respuesta objetiva a este problema mediante la función de intensidad. La teoría del análisis de intensidad será explicada con todos sus pormenores en la próxima publicación de la División de Investigación. Para
nuestros propósitos, todo lo que necesitamos saber es que proporciona una solución al problema tradicional de la "disposición". No importa cómo sean
expresadas o "cargadas" las preguntas, el uso de la función de intensidad dará al grupo la misma proporción de favorable y desfavorable. La función de
intensidad establece un punto cero invariante para actitudes y opiniones. Hay varias técnicas para obtener la intensidad de un cuestionario. La primera es la técnica de doblar y la segunda, la de
bipartición. La técnica de doblado es teóricamente menos admisible que la de bipartición. Tiene sin embargo, algunas ventajas prácticas en ciertos casos.
La técnica de doblar. La técnica de doblar consiste sencillamente en recalificar el contenido de las preguntas para obtener una
puntuación de Intensidad. Esto es muy fácil, a causa de la forma de la pregunta empleada para estudiar las opiniones sobre Una Nación de Naciones. Se
asignan los siguientes pesos a la lista de confrontación de respuestas: "Completamente de acuerdo" y "Completamente en desacuerdo" reciben un
valor 2; "De acuerdo" y "En desacuerdo" reciben el valor 1; y "En duda" recibe el valor 0. Estos valores pueden escribirse en tiras de papel
para poder ponerlos en la tabla 1 y agregarlos allí para obtener así una puntuación de intensidad para cada persona. Así, las respuestas aparentemente más intensas reciben valores mayores; y las aparentemente menos intensas reciben valores menores,
independientemente de que las respuestas parezcan "favorables" o "desfavorables". Valorar así las respuestas significa que, para obtener una puntuación de
intensidad, combinamos, de hecho, los extremos opuestos de la lista de confrontación, de modo que no hay sino tres categorías (combinadas) de
intensidad por pregunta. La intensidad, obtenida por este medio, no es en general factible de ubicarse en una escala. En vez de ello, forma lo que se
llama una "quasi" escala. En una "quasi" escala no hay ninguna relación exacta entre la respuesta de una persona a cada pregunta y su
puntuación en todas las demás; en su lugar, hay un gradiente. Cuanto mayor es la puntuación de una persona, tanto más probable es que dé una respuesta altamente
valorada en cada reactivo, pero no existe la clara certeza de que así ocurra en el caso de una escala. Tal puede advertirse en nuestro ejemplo. Al arreglar los
datos en un escalograma, de acuerdo con la puntuación total de intensidad, obtenemos la configuración que se ofrece en la tabla 4. Cada pregunta tiene
ahora tres categorías que representan los tres pasos de intensidad. Hay un gradiente de densidad de las respuestas. No hay líneas definidas en las columnas
de las categorías y, no obstante, disminuyen gradualmente las densidades que mezclan una categoría con la siguiente. La combinación de categorías no
producirá, sin embargo, un patrón mensurable.
De acuerdo con la teoría básica del análisis de intensidad, ésta debe ser una variable perfectamente mensurable por escala. Las ecuaciones
del análisis escalar muestran que, en toda escala de contenido, hay un segundo componente que es una función de las puntuaciones escalares en forma de U o J.
Este componente se ha identificado como la función de intensidad de la escala de contenido. Lo que intentamos hacer es obtener esta intensidad por medio de
métodos empíricos directos. El hecho de que nuestra intensidad observada no sea perfectamente mensurable por escala muestra que no es la intensidad intrínseca
pura lo que estamos buscando. Tampoco se ha encontrado ninguna manera perfecta de obtener la intensidad; pero se logran resultados satisfactorios hasta con
técnicas de intensidad imperfectas. En vez de una función perfecta de intensidad, obtendremos una en la que es posible obtener un error considerable
en su relación con las puntuaciones de la escala de contenido. Trazo de la intensidad en contraste con el contenido.
La función empírica de intensidad se obtiene ordenando las puntuaciones de intensidad resultantes en contraste con las puntuaciones de contenido, obtenidas
en la sección anterior durante el segundo ensayo de contenido. El diagrama de dispersión se presenta en la tabla 5. La frecuencia, en letras cursivas, en cada
columna de la tabla 5, corresponde a la posición de la mediana de intensidad de las columnas respectivas. Si se estuviera midiendo la intensidad intrínseca pura
con esta técnica, no habría dispersión alrededor de estas medianas; pero la intensidad sería entonces una función perfecta de las puntuaciones de contenido
en forma de U o J. No obstante la presencia de error, la forma aproximada de la función verdadera de intensidad es clara a partir de la forma de la curva que
pasa por las medianas de las columnas. La curva desciende desde la derecha, o sea de las puntuaciones más favorables de contenido, alcanza su punto más bajo
en el segundo intervalo de la izquierda (puntuaciones de contenido de 3-5) y después vuelve a elevarse en el primer intervalo de la izquierda. En
consecuencia, las puntuaciones de contenido 3-5 deben formar el intervalo aproximado que contiene la puntuación 0 de la actitud. Puede decirse que los
estudiantes a la izquierda de este intervalo tienen actitudes negativas hacia el libro de texto y los que están a la derecha tienen actitudes positivas hacia él.
Los estudiantes en el intervalo 3-5 no pueden dividirse en positivos y negativos sin la ayuda de preguntas adicionales que hagan distinciones más precisas entre
sus rangos. Con base en la tabla 5 podemos concluir, entonces, que
aproximadamente a 8 estudiantes no les gustó el libro de texto, a 35 sí les gustó, mientras que 7 estudiantes mantuvieron una posición intermedia. Esta
división de los estudiantes en actitudes favorables y desfavorables no depende de la manera particular como se expresaron las preguntas. La misma curva de
intensidad, con la misma proporción a la derecha y a la izquierda del punto cero, se habría obtenido si hubiéramos usado otras preguntas u otra forma de
expresarlas, con tal que éstas fueran susceptibles de medición escalar con las preguntas presentes.
Necesidad de una muestra más grande de personas. Es preciso hacer una advertencia importante. El ejemplo empleado debe considerarse
muy afortunado para los fines de esta exposición. Ciertamente es raro encontrar un error tan bajo como el que tenemos en la función de intensidad, lo cual da
margen a que aparezcan claramente la curva de intensidad y el punto cero con base en una pequeña muestra de 50 casos. En general, es muy difícil que esto
suceda. Para realizar sobre seguro un análisis de intensidad, cuando hay un error sustancial -que es el caso habitual- generalmente se necesitan de uno a
tres mil casos para obtener medianas estables. Para realizar el análisis de escalograma es también más seguro utilizar más de 50 casos. Lo deseable es
utilizar un mínimo de cien casos en el pre-test, así como una docena de reactivos o poco más o menos, en lugar de los siete de nuestro ejemplo. Si el
pre-test ha demostrado que para el universo de reactivos es factible hacer una escala, debe hacerse el estudio final con el número acostumbrado de casos que se
emplean en las encuestas de opinión, en caso de que se quieran obtener resultados confiables con respecto a la intensidad. La hipótesis de factibilidad
de la escala puede probarse en pre-test con un número relativamente pequeño de personas teniéndose en cuenta su carácter especializado. Sin embargo, las
proporciones de la población en un rango dado o a un lado del punto cero están sujetas al error de muestreo ordinario; para llegar a resultados confiables con
respecto a ellas, deben usarse muestras más grandes. Desventajas de la técnica de doblar. La técnica de doblar aplicada ala intensidad tiene dos desventajas teóricas, así como álgunas
de orden práctico. Primero, las puntuaciones obtenidas por medio de ella no son independientes, experimentalmente, de las puntuaciones de contenido, pues se
sirven de las mismas respuestas con respecto a ambas puntuaciones. Esto puede producir una relación algo espuria entre aquéllas. Segundo, se supone que "Completamente
de acuerdo" y "Completamente en desacuerdo" son aproximadamente iguales en intensidad y opuestas en dirección; y lo mismo puede decirse de "De
acuerdo" y "En desacuerdo", mientras que se supone que "En duda" está aproximadamente en el punto cero. Dichas suposiciones no necesitan ser
ciertas en forma absoluta. De hecho, la falsedad ocasional de estas suposiciones es una contribución al error de las puntuaciones de intensidad obtenidas. Si las suposiciones fueran verdaderas, las cosas serían mucho más fáciles para los investigadores. No sería necesario formular una serie de
preguntas para obtener un intervalo de cero, porque la categoría "En duda", con respecto a cualquier pregunta, suministraría tal intervalo. Pero claro está
que en una serie de preguntas sobre el mismo asunto las personas que están "En duda", sobre una pregunta, pueden estar "De acuerdo" en otra.
Únicamente porque no podemos interpretar la inclinación de una pregunta al examinar su contenido, es que una técnica como esa necesita de la función de
intensidad. No obstante que la técnica de doblar posea dos desventajas teóricas, parece promediar los errores implícitos en la violación de las
suposiciones anteriores y suministrar una curva adecuada de forma U o J en muchos casos. Se le ha encontrado una desventaja práctica a la técnica de doblar, en las situaciones de entrevistas de personas en la calle, donde las
personas evitarían casi en absoluto las categorías "Completamente", de modo que no podría obtenerse mucha diferenciación de intensidad. En tal caso es
necesaria una técnica de bipartición. Una ventaja de la técnica de doblar sobre la técnica de bipartición es que requiere menos espacio y tiempo para la
aplicación de los cuestionarios. Artículo Junio 2008
LA TECNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD La representación de la gráfica de barras
La técnica de Cornell es un procedimiento para probar la hipótesis de que un
universo de datos de cualidades es una escala con respecto a determinada
población de personas, por el método de escalograma. Extendiéndose su uso a probar la
hipótesis de qué los datos forman una "cuasi" escala. De las varias técnicas existentes para análisis de escalograma,
la descrita aquí parece ser una de las más sencillas y convenientes para uso general. No requiere equipo especial; se vale de sencillos procedimientos de
oficina, que pueden ser realizados cómodamente por personas sin preparación estadística. Las diversas técnicas mencionadas realizan el mismo trabajo, puesto que usan la misma teoría del escalograma; difieren solamente en la manera de llevarla a la
práctica. En una primera técnica se emplearon las complicadas
computaciones de los cuadrados mínimos. El procedimiento empleado por la División de Investigación de la Universidad de Pennsylvania involucra el uso de tablas de escalograma,
inventadas especialmente por el autor para este propósito; estas tablas son sencillas de calcularse y fáciles de operar. Otro miembro de la División de
Investigación ha inventado una técnica de tabulación. La técnica de Cornell fue inventada por el autor, al principio con fines didácticos, pero posteriormente ha
demostrado su utilidad en propósitos generales de investigación. Los pasos iniciales son comunes a todas. Se comienza definiendo el universo de contenido que se va a estudiar. En un estudio de
actitud u opinión, esto significa decidir el contenido general de las preguntas que se van a formular. Como segundo paso, se define la población de individuos.
En una encuesta de actitud u opinión significa la delimitación de la clase de personas que se van a entrevistar.
Vienen inmediatamente dos tipos de problemas de muestreo. Uno
es el problema ordinario del muestreo aleatorio de personas y otro, el muestreo de reactivos. En estos dos problemas es conveniente distinguir entre la etapa de
pre-test de un estudio y la encuesta final. Pueden emplearse mucho menos
personas en el pre-test que en la encuesta final; pero pueden usarse menos reactivos en ésta y más en el pre-test. En el pre-test de una encuesta, alrededor de 100 personas constituyen por lo común una muestra adecuada de la población para probar la
hipótesis de factibilidad de la escala. Si se acepta la hipótesis, los reactivos pueden usarse entonces en el estudio final de 3,000 personas generales poco más
a menos, para obtener proporciones confiables dentro de cada rango escalar. El otro problema de muestreo es de naturaleza completamente diferente; consiste en muestrear el universo de contenido. En una encuesta de
actitud u opinión se hace elaborando algunas preguntas que tienen el contenido general requerido. En un pre-test, cerca de una docena de preguntas constituyen
generalmente un muestreo adecuado de contenido. Toda vez que las preguntas son elaboradas por los investigadores, no encajan en ningún esquema estándar de
muestreo aleatorio y la teoría estándar de este muestreo no se aplica en este caso. En su lugar, la teoría del análisis escalar muestra que casi cualquier
muestra de alrededor de una docena de preguntas tomadas del universo es adecuada para probar la hipótesis de que el universo es factible de ser evaluado por
escala, con tal que la amplitud de contenido deseada sea cubierta por las preguntas. Si se acepta la hipótesis de que es posible una escala para ese
universo, podrán usarse menos preguntas en el estudio final en caso de que se necesiten efectivamente menos rangos para los propósitos de la investigación. Habiendo definido el universo de contenido y la población de individuos y habiendo sacado una muestra de cada uno, el quinto paso es observar
a cada persona de la muestra en cada reactivo o pregunta de la muestra de estos. En una encuesta de actitud u opinión, en que se usan cuestionarios, lo anterior
quiere decir que cada persona da sus respuestas a cada pregunta del cuestionario. La hipótesis de factibilidad de lo escala. El problema ahora es probar la hipótesis, con base en los datos de la muestra de prueba, de que el
universo entero de reactivos forma una escala con respecto a la población de individuos. Revisemos lo que implica esta hipótesis para entender lo que trata
de hacer la técnica de análisis. Se dice que el universo es mensurable por escala con respecto
a la población si es posible ordenar a las personas de mayor o menor, de manera que a partir del rango de una persona solamente podamos reproducir su respuesta
a cada uno de los reactivos de un modo sencillo. Se entiende que en la práctica no se espera encontrar escalas perfectas. Se considera que los datos son
suficientemente adaptables a la es-escala si son reproductibles en cerca del 90% y si se satisfacen otras condiciones (que serán explicadas posteriormente). Para
mayor claridad, sin embargo, consideremos primero una escala hipotética perfecta. Supongamos que una pregunta perteneciente al universo, concerniente a cierto asunto político, es formulada a una población y que las
respuestas son las siguientes: Si "En desacuerdo" significa una opinión más favorable que "En duda" y "En duda"
más favorable que "En desacuerdo", y si el universo es perfectamente adaptable a una escala, lo siguiente debe ser verdadero. El 60% superior de la gente debe
estar formado por quienes contestaron "De acuerdo"; el siguiente 10%, por quienes contestaron "En duda"; y el 30% inferior, por quienes contestaron "En
desacuerdo". Si se formula otra pregunta de este universo mensurable por escala y las respuestas son un 20% de "Si"' y un 80% de "No", y si "Sí" indica una
respuesta más favorable que "No", entonces el 20% superior de las personas debe haber dicho "Si"' y el 80% inferior debe haber contestado "No". Del rango de una
persona podemos deducir ahora cuál debe ser su respuesta a cada una de estas dos preguntas. Cualquier persona en el 20% superior de la población debe haber
contestado "De acuerdo" a la primera pregunta y "Sí" a la segunda. Cualquier persona por debajo del 20% superior, pero no por debajo del 60% superior,
contestó "De acuerdo" a la primera pregunta y "No" a la segunda. Cualquier persona por debajo del 60%° superior pero no del 70 contestó "En duda" a la
primera pregunta y "No" a la segunda, y las personas restantes, el 30% inferior,
contestaron "En desacuerdo" a la primera pregunta y "No" a la segunda. Las diferentes técnicas de análisis de escalograma son procedimientos para encontrar el orden jerárquico de las personas que reproducirán mejor las
respuestas de éstas a cada uno de los reactivos. Si el universo fuera una escala perfecta, todas las técnicas requerirían poco trabajo y no habría mucho que
escoger entre ellas. Es la presencia de la imperfecta reproductibilidad lo que plantea el problema de la técnica. La técnica de Cornell opera por aproximaciones sucesivas. Generalmente sólo son necesarias dos aproximaciones para rechazar o aceptar la hipótesis de
factibilidad de la escala. Se establece un primer orden jerárquico de las personas mediante un esquema sencillo de calificación. Con propósitos
ilustrativos, desarrollaremos en detalle un caso real. Este ejemplo no debe considerarse un modelo de investigación perfecta, sino tan sólo una ilustración
de los pasos que se seguirán. Un ejemplo de la técnica de Cornell. Se deseaba saber si los estudiantes de
cierta clase sobre relaciones raciales tenían una actitud que pudiera medirse hacia uno de sus libros de texto, Una Nación de Naciones, de Louis Adamic. Se
elaboró un cuestionario de siete preguntas y se aplicó al grupo de 50 estudiantes. Tanto el número de preguntas como el de estudiantes fueron menores
a los que se emplean ordinariamente en un pre-test; y se usan aquí por la única razón de que estos pequeños números permiten desplegar los datos completos. Las siete preguntas fueron las siguientes: Una Nación de Naciones Preguntas 1.- Una nación de Naciones hace un buen análisis de los
grupos étnicos de ese país. Completamente de acuerdo.- 4. De acuerdo.- 3. En duda.- 2. En
desacuerdo.- 1. Completamente en desacuerdo.- 0 2.- En general, Una Nación de naciones no es tan bueno
como la mayoría de los libros de texto universitarios. Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En
desacuerdo.- 3 Completamente en descuerdo.- 4 3,- Adamic organiza y presenta perfectamente su material. Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0 4.- Como tratado de sociología el libro de Adamic no tiene mucho valor. Completamente de acuerdo - 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4 5.- Adamic no estudia ningún grupo con suficiente detalle para que el estudiante pueda lograr una comprensión real de los problemas de las
relaciones de los grupos étnicos de ese país. Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En
desacuerdo.- 3 Completamente en desacuerdo.- 4 6.- Al ofrecer un panorama de los diferentes grupos, Una
Nación de Naciones da al estudiante una buena perspectiva de las relaciones de !os grupos étnicos de ese país. Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0 7.- Una Nación de Naciones es lo bastante bueno para usarse como libro de texto en este curso. Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En
desacuerdo.- 1 Completamente en desacuerdo.- 0 Análisis del contenido de la escala Ahora describiremos, paso a paso, cómo se realiza el análisis
de respuestas por medio de la técnica de Cornell: 1. En el primer ensayo se asignan valores a cada categoría de
cada pregunta, empleando los enteros sucesivos a partir de 0. En este ejemplo, como cada conjunto de respuestas tiene cinco categorías, los valores van de 0 a
4. En cada pregunta, se asignan los valores más altos a las categorías que se considera expresan una actitud más favorable. Este juicio sobre (os rangos de
las categorías no se considera definitivo. El análisis subsecuente verificará el juicio o bien determinará cómo realizarlo. 2. Se obtiene la puntuación total de cada persona sumando los
pesos de las categorías donde cae. En nuestro ejemplo, ya que el valor máximo para cada persona es 4 y el número total de preguntas es 7, las puntuaciones
totales pueden variar de 0 a 28. 3. Los cuestionarios se colocan en orden jerárquico conforme a las puntuaciones totales. En nuestro ejemplo, los hemos ordenado de mayor a
menor. 4. Se prepara una registro como la tabla 1, con una columna para cada categoría de cada pregunta y un renglón para cada persona. Ya que cada
una de las preguntas tiene cinco categorías y existen siete preguntas, tenemos 35 columnas en nuestra tabla. Son 50 estudiantes; así que debemos tener 50
renglones. Las primeras cinco columnas son para las cinco categorías de la primera pregunta, las siguientes cinco columnas para las cinco categorías de la
segunda pregunta, etc. 5. La respuesta de cada persona a cada pregunta se indica en la tabla con una X, en su renglón correspondiente, en la columna de cada
categoría en que cae. En nuestro ejemplo, hemos denominado las columnas empleando las preguntas y los valores de las categorías. La primera persona es
la que tiene la puntuación más alta, que es 28. Marcó la respuesta con valor 4 en todas las preguntas, así que tiene siete X en su renglón y en las columnas
respectivas de las categorías con valor 4. Hubo dos personas con una puntuación de 25. El arreglo de las personas con la misma puntuación es arbitrario. De las
dos personas de nuestro ejemplo con una puntuación de 25, la colocada primero dio una respuesta marcada con 4, en las dos primeras preguntas, una respuesta de
3 a la tercera pregunta, una de 4 a la cuarta pregunta, respuestas de 3 a la quinta y sexta pregunta y una de 4 a la séptima pregunta. De manera similar las
demás X de la tabla 1 indican las respuestas que las personas restantes dieron a cada pregunta. Cada persona contesta a cada preguntas; de manera que hay siete X
en cada renglón. Si en alguna ocasión las personas no contestan cierta pregunta, se agrega otra categoría titulada "Sin respuesta", que será valorada y tratada
como cualquiera de las otras categorías de esa misma pregunta. La tabla 1 da un registro completo de todos los datos
obtenidos en la encuesta.
6. Al final de la tabla 1 están las frecuencias de respuesta
de cada categoría. La categoría 4 de la pregunta 1 contiene nueve personas, mientras que la categoría 3 de la misma pregunta contiene 27 personas, etc. La
suma de las frecuencias de las cinco categorías de cada pregunta es siempre igual al número total de personas de la muestra, que en este caso es 50.
7. Ahora pasemos a la prueba de factibilidad de la escala. Si el universo es una escala y si el orden en que hemos colocado a las personas es
el orden jerárquico escalar, entonces la estructura de las X en la tabla 1 debe ser particularmente sencilla. Consideremos la primera pregunta de la tabla. Si
la respuesta de valor 4 es mayor que la de 3 y si la de 3 es mayor que la de valor 2, y si la de 2 es mayor que la de 1 (la respuesta de 0 no tiene ninguna
frecuencia en este caso), entonces las nueve personas de la categoría 4 deben ser las nueve personas superiores. Efectivamente, seis de ellas son superiores y
las otras tres están por debajo. De manera similar, las 27 personas de la categoría 3 deben estar debajo de las primeras nueve personas y descienden hasta
la trigésima sexta persona (36 = 9 + 27). Pero esto no es completamente cierto para nuestros datos. Un examen semejante con respecto a los demás reactivos
muestra que hay un error sustancial de reproductibilidad en su forma actual. En esta etapa no necesita contarse el número aproximado de errores, ya que es,
evidentemente, mayor que el 15% del total de 350 respuestas (350 = 7 X 50, el número de preguntas por el número de personas) de la tabla 1. 8. Rara vez se ha encontrado que un reactivo con cuatro o
cinco categorías sea suficientemente reproductible si las categorías se consideran diferentes. Una razón de esto son los hábitos verbales de las
personas. Algunas personas contestan "Completamente de acuerdo" donde otras dicen "De acuerdo", pese a que tienen esencialmente la misma posición en el
continuo básico aunque difieran en un extraño factor de hábitos verbales. Combinando categorías pueden reducirse al mínimo las variables extrañas de
segunda importancia. Al examinar el traslapamiento de las X dentro de las columnas de cada pregunta, puede determinarse la mejor manera de combinar las
categorías para reducir al mínimo el error de reproductibilidad de las combinaciones. En la pregunta 2, por ejemplo, las categorías 4 y 3 parecen
entrelazarse, de modo que se combinan. Igualmente, y en la misma pregunta, parecen entrelazarse las categorías 1 y 0, por lo que también se combinan. Por
otra parte, en la pregunta 4, combinamos las categorías 3, 2 y 1, dejando aparte las categorías 4 y 0. La manera de combinar categorías se determina por separado
en cada pregunta. Las combinaciones escogidas en este ejemplo con base en la tabla 1 se dan en la tabla 2. TABLA 2 1
2
3
4
5
6
7
(4) (3) (2,1,0)
(4,3) (2,1,0)
(4,3,2) (1,0)
(4) (3,2,1) (0)
(4,3,2) (1,0)
(4,3) (2,1,0)
(4) (3) (2,1,0) Si se desean conservar muchos tipos escalares, debe hacerse la menor combinación posible. Sin embargo, si no se desean muchos tipos
escalares, pueden combinarse las categorías en el grado en que uno desee, aunque esto puede no mejorar la reproductibilidad. No es malo combinar las categorías
que de otra manera permanecerían diferentes con respecto al error escalar; todo lo que se pierde con tal combinación es un tipo escalar. Por otra parte, las
categorías pueden requerir combinación para reducir el error; deben combinarse de la manera indicada en la tabla 1 y no arbitrariamente. 9. Un segundo orden jerárquico de las personas puede
establecerse ahora con base en las categorías combinadas. Esto se realiza al reasignar valores. La primera pregunta tiene ahora tres categorías (es decir,
tres combinaciones), a las que se asignan los valores 0, 1 y 2. La pregunta 2 tiene ahora dos categorías. Podemos asignarle los valores 0 y 1. En el ejemplo
presente se usaron, en vez de aquéllos, los valores 0 y 2, ya que mantener relativamente constante la amplitud de los valores, de un reactivo a otro, ayuda
a menudo a establecer una ordenación mejor de las personas cuando existe error de reproductibilidad. En una escala perfecta, cualquier conjunto de valores, con
tal que tengan el orden de rango apropiado con respecto a las categorías, dará una correcta ordenación de rango de las personas. 10. A cada persona se da ahora una nueva puntuación que
representa su segundo rango de ensayo. Se le asigna al recalificar sus respuestas conforme a los nuevos valores. Esta recalificación se hace fácilmente
basándose en la tabla 1. Usando una tira de papel tan ancha como la tabla, pueden escribirse directamente los nuevos valores de las categorías anteriores
en la orilla de la tira. Colocando la tira a través del renglón de una persona, se suman los valores según donde caigan las X. En nuestro ejemplo, la tira
tendría en sus primeras cinco columnas los valores 2, 1, 0, 0, 0, colocándose el valor 2 en la columna donde estaba la vieja categoría 4, el valor 1 en la
columna donde estaba la vieja categoría 3, y los de 0 en las antiguas columnas de 2, 1 y 0 que después se combinaron. En la pregunta 2 la tira tendría en las
cinco columnas los valores 2, 0, 0, 0. De manera semejante pueden escribirse los nuevos valores de las otras preguntas que se emplearon en las columnas
anteriores de la tabla 1. La persona que era anteriormente la primera en dicha tabla, con una puntuación de 28, tiene ahora una puntuación de 2 + 2 + 2 + 2 +2
+ 2 + 2 = 14. La segunda persona de la tabla 1 también obtiene una puntuación de 14. La tercera persona de la tabla 1 tiene ahora una puntuación de 2 + 2 + 2 + 1
+ 2 + 2 + 2 = 13; y así sucesivamente con las demás. 11. Después se ordena a las personas conforme al orden
jerárquico de sus nuevas puntuaciones, y se prepara la tabla 3 a partir de los datos combinados, exactamente como se preparó la tabla 1 a partir de los datos
originales. La pregunta 1 tiene ahora tres columnas, la pregunta dos tiene dos columnas, etc. Los datos de la tabla 1 se modificaron para conformar la
tabla 3 según las combinaciones indicadas en la tabla 2. La columnas de la tabla 3 se refieren a las categorías combinadas y las puntuaciones de ésta son las
puntuaciones de segundo ensayo obtenidas precisamente en el paso anterior. 12. El error de reproductibilidad de la tabla 3 parece ser
mucho más pequeño que el de la tabla 1, y en seguida contaremos los errores efectivos. Esto se hace estableciendo puntos de corte en el orden jerárquico de
las personas, los cuales las separan conforme a las categorías donde caerían si la escala fuera perfecta. En la pregunta 1, que tiene tres categorías,
necesitamos tres puntos de corte. El primero parece caer entre la última persona que tiene puntuación 12 y la primera persona que tiene puntuación 11. Todas las
personas que están por encima de este punto de corte deberían estar en la categoría 2, y todas las que están por debajo no deberían estar en esa
categoría. Pero como hay una persona, en la categoría 2, por debajo de este punto, tenemos un error en aquella. Se necesita un segundo punto de corte para
separar la categoría 1 de la categoría 0; no obstante, estas dos categorías se traslapan, por lo que su ubicación exacta no es esencial; así que mover el punto
ligeramente hacia arriba o hacia abajo no cambiará la cantidad de error. Debe colocarse de manera que éste se reduzca al mínimo; y tal reducción puede
lograrse de varias maneras similares. Una es colocar el punto de corte entre la segunda y la tercera persona con puntuación 4. Por debajo de este punto
encontramos tres errores en la categoría 1; y por encima de él, encontramos cinco errores en la categoría 0. El número total de errores en la pregunta 1 es
1 + 3 + 5 = 9. Dado que tenemos 50 respuestas a la pregunta 1, esta cifra significa un error del 18%. Claro que este error podría reducirse combinando las
dos últimas columnas y convirtiendo la pregunta 1 en una dicotomía. Habría así únicamente un error en la primera columna. Esta ulterior dicotomización se evita
cuando existe un error relativamente pequeño en las otras preguntas, de modo que el error en el total de éstas no resulta muy superior al 10%. La pregunta 2 tiene dos categorías en el segundo ensayo; y el
punto de corte que reducirá al mínimo el error está entre las dos últimas puntuaciones de 6, lo cual produce dos errores en la primera columna y cuatro en
la segunda columna de la pregunta 2. Similarmente, la pregunta 3 tiene un punto de corte entre la última puntuación de 2 y la primera de 1; y suma tres errores
en su segunda columna. La pregunta 4 tiene dos puntos de corte; las preguntas 5 y 6, uno; y la 7, dos. El número total de errores en la tabla 3 es de 40, que es
el 11% de todas las respuestas. Por tanto, podemos concluir que en vista de que gran parte del error se presenta en la pregunta 1 y de que aquél puede
eliminarse combinando dos categorías en esa pregunta, esta área de actitud es factible de medirse por escala. A partir del orden jerárquico de una persona
podemos reproducir su respuesta a cada pregunta en términos de categorías combinadas con el 89% de exactitud (o mejor, si combinamos las dos últimas
columnas de la pregunta 1). 13. El porcentaje de reproductibilidad no es suficiente por sí mismo para llevar a la conclusión de que el universo de contenido es
mensurable. La frecuencia de respuestas a cada reactivo diferente también debe tenerse en cuenta por una razón muy sencilla. La reproductibilidad puede ser
artificialmente alta debido tan sólo a que una categoría de cada reactivo tiene una frecuencia muy alta. Puede demostrarse que la reproductibilidad de un
reactivo nunca puede ser menor que la frecuencia más alta de sus categorías, independientemente de si el área es mensurable o no. Por ejemplo, la pregunta 3
de la tabla 3 tiene un tipo de distribución completamente extrema. Cuarenta y tres estudiantes están en una categoría y siete en la otra. Entonces, en ninguna
circunstancia eran posibles más de siete errores en este reactivo, pese a que exista o no un patrón escalar. O también la pregunta 4 de la tabla 3 tiene 37
casos en su categoría modal y 13 en las otras dos categorías. Entonces, en ninguna circunstancia el reactivo 4 podía tener más de tres errores. Claro está
que cuanto más uniformemente estén distribuidas las frecuencias entre las categorías de un reactivo dado, tanto más difícil será que su reproductibilídad
sea espuriamente alta, Las preguntas 5 y 6 de la tabla 3 tienen una alta reproductibilidad, cada una presenta cinco errores; y no es artificialmente alta
porque la pregunta 5 solamente tiene 28 casos en su categoría más frecuente y la pregunta 6 tiene 30 casos en su frecuencia modal. El máximo error posible de la
pregunta 5 es 22 y de la pregunta 6, 20. El patrón escalar representa una reducción sustancial de este error máximo. La regla empírica que se ha adoptado
para juzgar lo espurio de la reproductibilidad escalar es la siguiente: ninguna categoría debe tener más errores que aciertos. Por tanto, la categoría con valor
2 en la pregunta 1 (tabla 3) tiene ocho aciertos y un error; la categoría con valor 1 en esta misma pregunta tiene 24 aciertos y 3 errores; la categoría 0
tiene nueve aciertos y cinco errores. De esta manera, la pregunta 1 satisface la regla. Pero la pregunta 3 está muy cerca de no cumplirla. Mientras que la
primera columna de la pregunta 3 (en la tabla 3) no tiene errores, la segunda columna tiene tres, junto con cuatro aciertos. De manera similar, la primera
columna de la pregunta 4 tiene un error en comparación con dos aciertos. Y como preguntas distribuidas uniformemente, como la 5 y la 6, tienen pocos errores; y
también porque los errores en las otras preguntas, como la 3 y la 4, no se apartan mucho de lo que debería ser, consideramos que esta área se puede medir
por escala. Al construir una muestra de reactivos que se usarán en una
prueba de factibilidad de la escala, por lo menos deben elaborarse algunos, si no es posible que todos, para obtener una distribución uniforme de frecuencias.
Tales reactivos dan una buena prueba de factibilidad. Sin embargo, es preciso disponer igualmente de reactivos con frecuencias no uniformes para obtener tipos
escalares diferenciados; por tal razón deben usarse los dos tipos de reactivos. Cuanto mayor es el número de categorías que se conservan en un reactivo, tanto
más severa es la prueba de factibilidad de la escala, porque el error -si realmente lo hay- tiene mayor posibilidades de aparecer cuando mayor número de
categorías haya. Artículo Mayo 2008 BASE PARA ELABORAR ESCALAS CON DATOS CUALITATIVOS
La representación de la gráfica de barras Otra manera de dibujar la escala dicotómica de la muestra de tres reactivos
sería la siguiente: supongamos que el 80% de la población contestó correctamente la primera pregunta, 40% la segunda y 10% la tercera.
Las distribuciones univariadas de los tres reactivos correspondientes podrían presentarse por medio de la gráfica de barras de la figura 3
Figura 3. Las barras muestran las distribuciones de porcentaje de las preguntas
respectivas. La distribución multivariada de las tres preguntas, dado que forman una escala de la población, también puede indicarse én la misma gráfica, ya que
todos los que se encuentran en el grupo que contestó correctamente una pregunta difícil, de la misma manera se encuentran en el grupo que contestó correctamente
una pregunta fácil. Así, podemos dibujar nuevamente la gráfica pero uniendo las barras con líneas interrumpidas como se ve en la figura 4. Aquí podemos apreciar
cómo las tres preguntas son funciones sencillas de las puntuaciones. De las frecuencias marginales de los distintos reactivos, junto con el hecho de que los
reactivos forman una escala, podemos deducir que el 10% de las personas obtuvieron una puntuación 3. El 10% que contestó correctamente la pregunta más
difícil se incluye entre los que contestaron correctamente las preguntas más fáciles. Esto se indica por la línea interrumpida de la derecha, entre las
puntuaciones 2 y 3, que delimita al mismo 10% de los individuos (los que tienen una puntuación 3), a través de las tres barras. El 40% que contestó
correctamente la segunda pregunta incluye al 10% que acertó en la pregunta más difícil y al 30% que contestó erróneamente la pregunta más difícil; pero todo el
40% acertó en la pregunta más fácil. Esto nos deja con el 30% que acertó sólo en la primera y en la segunda pregunta. Y así sucesivamente. De esta manera podemos
imaginar una ordenación de las personas a lo largo de un eje horizontal, y que cada reactivo es un corte sobre dicho eje. Todos los que están a la derecha del
punto de corte contestaron correctamente la pregunta y los que están a la izquierda la contestaron erróneamente. Por tanto, hay una correspondencia de uno
a uno entre las categorías de un reactivo y los segmentos del eje. O podemos decir que cada atributo es una función sencilla del orden jerárquico en el eje.
Figura 4. El hecho de que todos los reactivos de la muestra pueden
expresarse como funciones sencillas de la ordenación de las personas es lo que posibilita que formen una escala. Cada reactivo está perfectamente
correlacionado con la ordenación sobre el eje o es reproductible a partir de ella. Sin embargo, las correlaciones de punto entre los reactivos no son de
ninguna manera perfectas. Por ejemplo, la tabla cuádruple entre el primero y segundo reactivos es la siguiente:
La correlación de punto entre los dos reactivos es .41. De hecho, la correlación de punto entre dos reactivos dicotómícos puede ser cualquier valor desde
prácticamente 0 hasta la unidad y, no obstante, ambas pueden ser funciones perfectas de la misma variable cuantitativa. Esto, de aspecto paradójico, podría
explicarse por un inadecuado tratamiento de variables cualitativas en los cursos y textos convencionales de estadística.
Un coeficiente tetracórico con respecto a la tabla cuádruple anterior sería la unidad, suponiendo una distribución normal bivariada. Sin embargo, esta no es la
correlación entre los reactivos, pues no dice si podemos predecir un reactivo a partir del otro. La tetracórica expresa la correlación entre dos variables
cuantitativas de las cuales son funciones los reactivos, con tal que sean verdaderas las suposiciones de normalidad. La razón de que en este caso el
tetracórico sea la unidad es que las variables cuantitativas, de las cuales son funciones los reactivos, son una sola variable, a saber la variable escalar.
Adviértase, sin embargo, que la distribución de la variable escalar conforme al orden jerárquico de ninguna manera es normal. Una de las contribuciones de la
teoría de elaboración de escalas es que hace a un lado las hipótesis no probadas e innecesarias sobre distribuciones normales. Es la correlación de punto y no la
tetracórica la que interviene en el análisis matemático de la elaboración de escalas. Un rasgo importante de esta tabla cuádruple es la frecuencia de cero, en la
celdilla de la esquina superior derecha. Ninguno de los que contestaron correctamente la tercera pregunta falló en la segunda. Esta celdilla cero debe
presentarse siempre en una tabla cuádruple de dos reactivos dicotómicos, los cuales son funciones sencillas de la misma variable cuantitativa.
Otro ejemplo de escala Demos ahora un ejemplo de escala más complicada. Supongamos que tenemos interés
por saber en qué grado desean los soldados regresar a la escuela cuando la guerra termine. Supongamos que, del universo de atributos que definen este
deseo, seleccionamos la siguiente muestra de cuatro preguntas para formar con ellas un cuestionario.
1. Si le ofrecieran un buen empleo, ¿qué haría usted? a) Aceptaría el empleo b) Lo rehusaría si el gobierno me ayudara para poder ir a la escuela
c) Lo rehusaría y regresaría a la escuela sin más. 2. Si le ofrecieran algún empleo improductivo, ¿qué haría usted?
a) Lo aceptaría b) Lo rechazaría si el gobierno me brindara ayuda para ir a la escuela c) Lo rehusaría y regresaría a la escuela sin más.
3. Si no pudiera conseguir ningún empleo, ¿qué haría usted? a) No regresaría a la escuela b) Si el gobierno me brindara ayuda, regresaría a la escuela
c) Regresaría a la escuela aún sin ayuda del gobierno. 4. Si usted pudiera hacer lo que quisiera al terminar la guerra, ¿regresaría a
la escuela? a) S i b) No Supongamos que las respuestas de los sujetos a estas preguntas toman la forma de
una escala como la indicada en la figura 5.
Figura 5. Ya sabemos cómo leer esa gráfica. El 10% de los hombres dijeron que rehusarían un buen trabajo para regresar a la escuela; el 20% declaró que rehusarían un
buen trabajo solamente si recibieran ayuda gubernamental; el 70% manifestó que aceptaría un buen trabajo; y así sucesivamente. El 10% que dijo que rehusaría un
buen trabajo está incluido en el 20% que afirmó que declinaría algún trabajo, y este 20% está incluido en el 25% que manifestó que regresarían a la escuela si
no consiguieran ningún trabajo; y este 25% está contenido en el 50% que declaró que le gustaría regresar a la escuela.
Con respecto a tres preguntas tricotómicas y una dicotómica hay 3 X 3 X 3 X 2 = 54 tipos posibles. Para que formen una escala -puede demostrarse- a lo más deben
presentarse ocho tipos. La gráfica presenta los ocho tipos, que se han calificado de 0 a 7. La carta indica las características de cada tipo. Por
ejemplo, el tipo con la puntuación 3 incluye a todos los individuos con los siguientes cuatro valores: dicen que preferirían aceptar un buen trabajo que
regresar a la escuela; que rehusarían algún trabajo si el gobierno los ayudara para regresar a la escuela; que regresarían a la escuela si el gobierno los
ayudara en caso de que no pudieran conseguir ningún trabajo; y que les gustaría regresar a la escuela. Por tanto, leyendo las categorías cruzadas por las líneas
interrumpidas que encierran a cada tipo, podemos leer sus características. Nótese que cada uno de los cuatro atributos es una función sencilla de las
puntuaciones escalares. Por ejemplo, la pregunta de un "buen trabajo" tiene categorías que corresponden a los siguientes tres intervalos de puntuaciones
escalares: 0-3, 4-6, 7. Podría plantearse la pregunta de qué tan frecuentemente se encuentran escalas en
la práctica. ¿No es demasiado esperar que se encuentre en la vida real una estructura siquiera aproximada a la de la gráfica anterior? En respuesta a esto
solamente podemos citar hasta ahora la experiencia en la investigación dentro del ejército. Literalmente se han encontrado docenas de escalas
suficientemente perfectas en varias áreas de actitud, opinión y conocimiento. El ejemplo anterior, acerca del deseo de ir a la escuela, es una versión ficticia
de un conjunto de preguntas similares que han podido ser mensurables en el ejército. Muchas variedades de datos han resultado mensurables y muchas no. Los
datos factibles de medirse pudieron relacionarse después muy fácilmente con otras variables. Los que estaban en el caso contrario requirieron un análisis
más complejo para manejarlos adecuadamente. El muestreo del universo de atributos
Una propiedad importante de un universo mensurable por escala es que la ordenación de las personas, basada en una muestra de reactivos, es de suyo igual
a la basada en el universo. Si el universo es una escala, la adición de reactivos solamente dividiría cada tipo dado entre la muestra en tipos
diferenciados; pero no intercambiaría el orden de los tipos encontrados en la muestra. Por ejemplo, en la figura 5, el tipo 6 siempre tendría un orden
jerárquico más alto que el tipo 5. Las personas del tipo 6 pueden ordenarse, dentro de su tipo, en más subcategorías; las personas que pertenecen al tipo 5
también podrían ordenarse en más subcategorías; pero todas las del tipo 6 tendrían un orden jerárquico más alto que todas las del tipo 5. Esto puede verse
a la inversa, por ejemplo, suprimiendo una de las preguntas y haciendo notar que todo lo que sucede es reducir los tipos a un número más pequeño, de manera que
dos tipos vecinos puedan hacerse indistinguibles; pero tipos cualesquiera que estén separados dos pasos conservarán el mismo orden entre sí
Por consiguiente, estamos seguros de que si una persona tiene un rango más alto que otra, en una muestra de reactivos, tendrá también un rango más alto en el
universo de reactivos. Esta es una propiedad importante, de las escalas, que consiste en que de una muestra de atributos podemos sacar inferencias sobre el
universo al qué pertenecen. Uno de los criterios para seleccionar una muestra de reactivos es escoger una
muestra con bastantes categorías para proporcionar la cantidad deseada de diferenciación entre los individuos. De esta manera, si deseamos que se
diferencien los individuos, por ejemplo, solamente en 10 grupos, deben escogerse reactivos que produzcan 10 tipos. Claro está que no consideramos los problemas
de confiabilidad en el aspecto de observaciones repetidas de los mismos atributos. Por conveniencia supondremos tácitamente perfecta la confiabilidad.
La forma de distribución de los rangos en una muestra de atributos dependerá, por supuesto, de la muestra. Una muestra de atributos puede dar una forma de
distribución, mientras que una segunda puede dar otra diferente. Esto carece de importancia, toda vez que nuestro principal interés se encuentra en la
ordenación de las personas, no en la frecuencia relativa de cada posición. Sería logico preguntarse cómo podemos saber que el universo forma una escala si
todo lo que conocemos es una muestra de él. En la actualidad parece totalmente claro que, en general, la probabilidad de encontrar por azar una muestra de
atributos que formen una escala con respecto a una muestra de individuos es ínfima, aunque haya solo tres reactivos dicotómicos en la muestra y
aproximadamente cien individuos. Desarrollar la teoría completa de probabilidad requeriría dos cosas: primero, la definición de un
proceso de muestreo para seleccionar reactivos; y, segundo, la definición de lo que significa que no existe una escala. La definición del proceso de muestreo es
difícil porque los reactivos, por lo común, se desarrollan en forma intuitiva. Establecer una hipótesis de nulidad, de que no existe una escala, conduce a
muchas formulaciones analíticas posibles porque pueden imponerse diferentes condiciones limitantes a la distribución multivariada de los reactivos. Por
ejemplo, ¿deben considerarse fijas las frecuencias marginales en todas las
muestras? ¿Deben considerarse fijas las frecuencias bivariadas? , etc. Estas preguntas pueden esclarecerse a medida que se desarrolle la teoría de
elaboración de escalas y mejoren nuestros conceptos de lo que implica la observación de los fenómenos sociales.
Parece seguro generalizar que, si se selecciona una muestra de atributos sin conocimiento de sus interrelaciones empíricas y se encuentra que forma una
escala en cualquier muestra aleatoria de individuos de tamaño comparativamente grande, entonces el universo del cual se seleccionan los atributos es mensurable
en toda la amplitud de la población entera de individuos. Elaboración de escalas y predicción
Es importante distinguir entre dos asuntos estrechamente relacionados, la elaboración de escalas y la predicción. Descubrir que se puede hacer una escala
para un universo de atributos y aplicarla a una población significa que es posible derivar una variable cuantitativa, partiendo de una distribución
multivariada tal que cada atributo sea una función sencilla de esa variable. Podríamos expresar esto de otra manera, diciendo que cada atributo es predecible
(perfectamente) a partir de la variable cuantitativa. Es esto lo contrario del problema ordinario de la predicción. En un problema
ordinario de esta especie, existe una variable externa, definida independientemente, que va a predecirse o partir de los atributos. Por ejemplo,
cuando se quieren predecir los ingresos de un estudiante, cinco años después que se graduó en la universidad, a partir de su conocimiento actual de matemáticas.
Para hacerlo, habría que obtener una muestra experimental en la que se conocieran los salarios de cada persona cinco años después de la universidad y
las respuestas a cada reactivo de la prueba de matemáticas. Si se adopta el criterio de mínimos cuadrados, entonces la mejor predicción con base en la
muestra sería la regresión múltiple del ingreso sobre los tres reactivos de la muestra. La distribución multivariada de los tres reactivos y la variable
externa nos darían los elementos necesarios para computar la regresión, curva o lineal, que sería la mejor para predecir la variable externa. Si deseáramos
predecir alguna otra variable externa a partir de los mismos reactivos, tendría que obtenerse una nueva regresión múltiple a partir de la distribución
multivariada de los tres reactivos de la nueva variable externa. En general y ordinariamente, se esperaría que la primera de estas regresiones diferiría de la
segunda. En absoluto, los pesos que se usan para predecir una variable externa fundándose en un conjunto de atributos difieren de los que se usan para predecir
otra variable externa; debe efectuarse una nueva regresión múltiple para cada variable externa. Esto subraya una propiedad importante de las escalas. Si los reactivos tienen
una distribución multivariada, que sea mensurable por escala, puede verse fácilmente que no importa cuál sea la variable externa; y es posible dar a los
reactivos los mismos pesos de predicción. Por tanto, nos hallamos frente a una propiedad notable de la medición por escala, a saber, que proporciona una
cuantificación invariante de los atributos con respecto a la predicción de cualquier variable externa. No importa a qué propósito de predicción vayan a
servir los atributos, las puntuaciones escalares servirán a dicho propósito. Acerca del "análisis de reactivos"
Es muy importante la distinción que acabamos de hacer. Al elaborar una escala, reproducimos los atributos partiendo de una variable cuantitativa. En la
predicción, pronosticamos una variable a partir de los atributos. Es una diferencia clara que nos permite evitar gran parte de la confusión que parece
prevalecer en la literatura anterior sobre la elaboración de escalas. Parece haberse creído que los reactivos de un universo son solamente escalones para
obtener puntuaciones. Se pensaba que era una deficiencia embarazosa carecer de una variable particular para predecir a partir de los reactivos, de modo que,
como mal necesario, uno tenía que recurrir a los métodos de consistencia interna para derivar las puntuaciones.
Esto explica los enfoques corrientes de "análisis de reactivos" en el proceso de elaborar escalas. Se siguen procedimientos que consisten generalmente en lo que
sigue: se asigna un conjunto de valores de prueba a las categorías, lo cual da lugar a un conjunto de puntuaciones de ensayo. Posteriormente se examina cada
reactivo para determinar qué tan bien puede discriminar por sí sólo estas puntuaciones, es decir, si pueden predecirse las puntuaciones a partir del
reactivo. Los reactivos que mejor discriminan individualmente se conservan y los demás se eliminan.
El carácter confuso de estos procedimientos puede verse en los ejemplos de escalas anteriores. Hemos señalado que las intercorrelaciones
entre atributos de una escala pueden estar tan cerca de cero como uno desee. También puede verse cómodamente que la razón de correlación de las puntuaciones
de la escala con cualquier reactivo aislado puede estar igualmente tan cerca de cero como uno quiera. La predictibilidad de la variable escalar con fundamento
en un atributo no dice si el atributo es o no predecible a partir de la variable escalar. El uso de los procedimientos de "análisis de reactivos" en conexión con las
escalas parece una carga lamentable en el problema de la predicción ordinaria de una variable externa. En tal problema, los reactivos no son ciertamente sino
escalones que permiten hacer predicciones. Se sabe' ' que el análisis de reactivos ofrece una primera aproximación a la correlación múltiple (o a la
función discriminante) y que un reactivo interesa solamente en el grado que sirve a la regresión múltiple.
Nuestra insistencia en la medición por escala es muy diferente. En ésta, nos interesamos en cada uno de los atributos del universo por los propios méritos de
estos. Si no fuera así, no trabajaríamos con tal universo. Los atributos son las cosas importantes; y si son mensurables por escala, entonces las puntuaciones
serán solamente una estructura compacta para representarlos. La estructura compacta que hemos descrito tiene la propiedad adicional e
importante de ser un dispositivo eficaz para predecir cualquier variable externa de la mejor manera posible a partir de determinado universo de atributos.
La relatividad de las escalas Un problema interesante asociado con las escalas es el de ¿por qué un universo
forma una escala con respecto a determinada población? Por ejemplo, tomemos la muestra de tres preguntas de matemáticas dada anteriormente. ¿Por qué pueden
incluirse en una escala estas tres preguntas? No hay una razón lógica necesaria para que una persona deba conocer el área de un círculo antes de que conozca lo
que es una derivada y, en particular, la derivada de ex. La razón para la existencia de una escala, en este caso, en gran parte parece cultural. Nuestro
sistema educativo es de tal tipo que la sucesión en que aprendemos nuestras matemáticas en las preparatorias y universidades es que primero aprendemos cosas
como el área del círculo, después el álgebra y posteriormente el cálculo. Y la cantidad de práctica que poseemos de cada una de estas materias probablemente
también está en ese orden. Sin embargo, sería muy posible para un marciano llegar a este mundo y estudiar cálculo sin tener que aprender el área de un
círculo de modo que no podría ser un tipo escalar, conforme a la escala presentada arriba; o un estudiante podría haber tenido un incidente personal en
el cuál, de alguna manera, lo haya impresionado con gran fuerza la derivada de ex; pero en el curso ordinario de las circunstancias la habría olvidado más
rápidamente de lo que olvidó el área de un círculo. El análisis escalar separará esos tipos desviados o no escalares. Naturalmente
que, si estos tipos no escalares son demasiado numerosos, diremos que no existe una escala. En la práctica encontramos escalas, aunque nunca escalas perfectas,
porque ha habido suficiente uniformidad de experiencia en la población de individuos, de manera que los atributos significan esencialmente lo mismo a los
diferentes individuos. De hecho, un estudio de las desviaciones es un subproducto interesante del análisis escalar. El análisis escalar separa
efectivamente a los individuos para hacer estudios de casos. Un universo puede formar una escala en una población, en un momento dado, pero
no hacerlo en otra ocasión. Por ejemplo, los reactivos de la escala de expresión del deseo de los soldados norteamericanos de regresar a la escuela después de la
guerra, posiblemente no resultaran susceptibles de conformarse a una escala si se les preguntara una segunda vez al terminar la guerra.
Un universo puede formar una escala en una población de individuos, pero no en otra. O los atributos pueden formar escalas, en dos poblaciones, de manera
diferente. Por ejemplo, una muestra de reactivos de satisfacción con respecto a la vida en el ejército, que formó una escala con relación a los pertrechos de
combate en la Fuerza Aérea, no formó una escala en los individuos de las escuelas técnicas de la misma rama. La estructura de la vida militar de estos
dos grupos fue muy diferente en los mismos reactivos, y no tuvo por eso el mismo significado en ambas situaciones.
Si un universo es mensurable por escala, en una población, pero no en otra, o forma una escala de manera diferente, no podemos comparar las dos poblaciones en
cuanto a grado, y decir que una es más alta o más baja en promedio con respecto al universo. Difieren en más de una dimensión o en clase, más que en grado.
Solamente si dos grupos o dos individuos caen en la misma escala podemos ordenarlos de mayor a menor. Una consideración similar es válida para las
comparaciones de tiempo. Una contribución importante de la teoría presente relativa a la elaboración de escalas es subrayar estas propiedades de
relatividad. Resumen 1. La distribución de frecuencia multivariada de un universo de atributos con
respecto a una población de objetos es una escala cuando es posible derivar de la distribución una variable cuantitativa que caracterice a los objetos, de tal
manera que cada atributo sea una función sencilla de la variable cuantitativa. 2. Tiene un significado inequívoco el orden de las puntuaciones escalares. Un
objeto con una puntuación más alta que otro se caracteriza por valores más altos de cada atributo, o por lo menos equivalentes.
3. Tiene un significado inequívoco el orden de los valores del atributo. Una categoría de un atributo es más alta que otra si caracteriza a los objetos en
posiciones más altas en la escala. 4. Puede demostrarse que si los datos son susceptibles de conformarse a una
escala, la ordenación de los objetos y de las categorías es, en general, única (excepto por la dirección). Las dos ordenaciones surgen del análisis de los
datos y no de consideraciones a priori. 5. La predictibilidad de cualquier variable externa a partir de las puntuaciones
escalares es igual a la predictibilidad a partir de la distribución multivariada usando los atributos. La correlación de orden cero con la puntuación escalar es
equivalente a la correlación múltiple con el universo. Por consiguiente, las puntuaciones escalares proporcionan una cuantificación invariante de los
atributos para predecir cualquier variable externa. 6. Las escalas son relativas con respecto al tiempo y a la población. 7. En la distribución multivariada de una muestra de atributos con respecto a una muestra de objetos, se pueden hacer inferencias concernientes a la
distribución completa del universo con respecto a la población. 8. Las escalas perfectas no se encuentran en la práctica. 9. En las escalas imperfectas, el análisis escalar separa los tipos desviados o
no escalares para estudio de casos. Artículo Abril 2008 BASE PARA ELABORAR ESCALAS CON DATOS CUALITATIVOS
INTRODUCCIÓN En gran parte de la investigación que se realiza en el campo
de las ciencias sociales y psicológicas, el interés se centra en ciertas clases importantes de observaciones cualitativas. Por ejemplo, la investigación sobre
el matrimonio atiende a una clase de conducta cualitativa llamada adaptación matrimonial, que incluye un número indefinidamente grande de interacciones entre
marido y mujer. La investigación de la opinión pública se ocupa de importantes clases de conducta que son expresiones de la opinión de los norteamericanos
sobre asuntos como la capacidad de lucha de los británicos, por ejemplo. La psicología educativa incluye los tests de aprovechamiento en dichas clases de
conducta. A menudo, en estos campos se desea, resumir los datos diciendo, por ejemplo, que
una pareja matrimonial está mejor ajustada que otra; que esta persona tiene mejor opinión de los británicos que aquélla; o que un estudiante tiene mejor
conocimiento de la aritmética que otro. Se ha discutido ampliamente la utilidad de estas ordenaciones de personas; pero no es nuestra intención pasar revista a
esas discusiones, sino enfocar el problema sobre una base nueva que parece la adecuada para cuantificar datos cualitativos.
Este enfoque se usó satisfactoriamente en la investigación de la moral y otros problemas, que llevó a cabo la sección de investigación de la División de
Servicios de Moral del Ejército de los Estados Unidos, dentro del propio campo de las fuerzas armadas. Aunque este enfoque de la cuantificación conduce a
ciertos cálculos interesantes, no se requieren conocimientos matemáticos especiales para analizar los datos con toda eficacia. Se han establecido rutinas
sencillas que no requieren conocimientos de estadística y que llevan menos tiempo que las diversas manipulaciones empleadas actualmente por diferentes
investigadores (por ejemplo razones críticas, correlaciones biseriales, análisis factorial, etc.), las cuales proporcionan un cuadro completo de los datos, que
por cierto no es ofrecido por esas otras técnicas. La palabra "cuadro" puede interpretarse aquí literalmente, porque los resultados del análisis se presentan
y se asimilan fácilmente en la forma de un "escalograma", que ofrece a primera
vista la configuración de los datos cualitativos. Las nociones de variable, función y función sencilla
Veamos en primer
lugar algo sobre el significado de variable, ya sea
cualitativa o cuantitativa. Usamos el término en su acepción convencional,
lógica o matemática, para denotar un conjunto de valores. Estos valores pueden
ser numéricos (cuantitativos) o no numéricos (cualitativos). Usaremos en forma
intercambiable los términos "atributo" y "variable cualitativa". Los valores de
un atributo (o de una variable cuantitativa, que para el caso es lo mismo) son
sus subcategorías o simplemente categorías.
Un ejemplo de atributo es la religión. Una persona puede tener el valor
"católico", "budista", "judío", "mormón", "ateo", o algún otro valor de esta
variable. No hay un orden intrínseco particular en estos valores. Otro ejemplo
es la expresión de una opinión. Una persona puede decir, "Me gustan los
ingleses", "No me gustan los ingleses", o "No sé si me gustan o no los
ingleses". Una ilustración más consiste en que se puede observar que una persona
sonríe al conocer a otra, o que no lo haga.
Las variables cuantitativas se reconocen fácilmente.
Se dice que una variable y es función de un sólo valor de la variable x si a
cada valor de x corresponde un sólo valor de y. Por tanto, si y toma los
distintos valores Y1, Y2, ... , Ym, y si X toma los diferentes valores
X1, X2, . . . , Xn, donde m y n pueden ser diferentes,
decimos que Y es una función monovalente de X, y en tal caso podrá hacerse una
tabla de correspondencia semejante a la que sigue:
_____________________________________
x x1 x2 x3... xnn
_____________________________________
y y1 y2 y3... ym
_____________________________________
Para cada valor de X hay un valor de Y y solamente uno. (Lo contrario no
necesita ser cierto: para un valor de Y puede haber dos o más valores de
X).
Obviamente, si Y es una función monovalente de X, se deduce que m
≤ n.
En particular, supongamos que Y es un atributo, por ejemplo el atributo anterior
sobre la expresión de simpatía por los ingleses. Si m = 3, y podemos expresar con
Y1 la afirmación "Me gustan los ingleses"; con
Y2, la afirmación, "No me gustan
los ingleses"; y por Y3 "No sé si me gustan o no los ingleses"; y si
X es una
variable cuantitativa que toma más de m valores (n > m), y si podemos dividir
los valores de X en m intervalos que se hallen en correspondencia de uno a uno
con los valores de Y, entonces decimos que el atributo Y es una función sencilla
de X . Por ejemplo, supongamos que X toma los diez valores 0, 1, 2, 3, 4, 5, 6,
7, 8, 9; la tabla de correspondencia sería entonces como la siguiente:
_____________________________________
X 0 1 2 3 4 5 6 7 8 9
_____________________________________
Y Y1 Y1 Y1 Y3 Y3 Y2 Y2 Y2 Y2 Y2
_____________________________________
Asimismo, podríamos representar esto gráficamente dibujando los valores de X en
una línea recta que dividiríamos en intervalos: Para variables estadísticas es
posible otra representación, consistente en un gráfico de barras de frecuencia La definición de escala
Con respecto a determinada población de objetos, la distribución de frecuencia
multivariada de un universo de atributos se llamará escala, si es posible
derivar de la distribución, una variable cuantitativa para caracterizar los
objetos de modo que cada atributo sea una función sencilla de esa variable
cuantitativa. Esa variable cuantitativa es la variable escalar.
No esperamos obtener en la práctica escalas perfectas. La
desviación de
la perfección se mide por el coeficiente de reproductibilidad, que sencillamente
es la frecuencia empírica relativa con que los valores del atributo corresponden
a los intervalos adecuados de una variable cuantitativa. En la práctica, se
han empleado escalas con un 85% de perfección o aun mejores como aproximaciones
eficientes a escalas perfectas. Un valor de una variable escalar se llamará una puntuación
escalar o simplemente puntuación. La ordenación de los objetos de acuerdo con el
orden numérico de sus puntuaciones escalares se llamará su orden escalar.
Obviamente, cualquier variable cuantitativa, que es una
función creciente (o decreciente) de una variable escalar, también es una
variable escalar. Por ejemplo, anteriormente se consideró a X como una
variable escalar. A cada una de las puntuaciones de X podría restársele o
agregársele una constante cualquiera, Y y seguiría siendo una función
sencilla de la X transformada. Así, las puntuaciones 0, 1, 2, 3, 4,
5, 6, 7, 8, 9 podrían reemplazarse por las puntuaciones respectivas -5, -4, -3,
-2, -1, 0, 1, 2, 3 y 4. o podrían multiplicarse las puntuaciones de X por
cualquier constante, o extraerse sus raíces cuadradas o tomarse sus logaritmos;
puede, en fin, hacerse cualquier transformación continua o discontinua en tanto
que permanezca perfecta la correlación de orden jerárquico entre la X original y
la variable transformada. Todas esas transformaciones producen variables
escalares, cada una de las cuales es igualmente eficaz para reproducir los
atributos. Por consiguiente, el problema de la métrica no es aquí de
importancia particular para elaborar escalas. En ciertos problemas, como
predecir variables externas a partir del universo de atributos, puede ser
conveniente adoptar una métrica particular, por ejemplo, la de cuadrados
mínimos, cuyas propiedades resultan convenientes para ayudar a analizar
correlaciones múltiples. Sin embargo, debe señalarse que la selección de la
métrica es asunto de conveniencia; cualquier métrica predecirá una variable
exterior tan exactamente como lo haría cualquier otra. En la práctica, se ha usado el orden jerárquico como variable
escalar. (De hecho, es una métrica de cuadrados mínimos, aplicable a una
distribución rectangular de puntuaciones escalares). El universo de atributos Las palabras población y universo se usan por lo común en
forma intercambiable en los estudios estadísticos. En cuanto a las escalas es
necesario referirse tanto a un conjunto completo de objetos como a un conjunto
completo de atributos; así que será conveniente reservar población para lo
primero y universo para lo segundo. En la investigación social, los objetos son
por lo común personas, de manera que para ellos es apropiado usar población. Un concepto básico en la teoría de las escalas es el de
universo de atributos. En la investigación social, un universo es generalmente
una clase importante de conducta como la descrita en la introducción. El
universo es el concepto cuya factibilidad de medirse por escala se investiga,
como el ajuste matrimonial, la opinión sobre la capacidad de lucha de los
británicos, el conocimiento de la aritmética, etc. El universo consiste en todos
los atributos que define el concepto. Otra manera de describir el universo es
expresando que comprende todos los atributos de interés para la investigación y
qué tienen un contenido común, de manera que se clasifican bajo un sólo título
que indica el contenido. Por ser de fácil examen, tomemos un ejemplo de la
investigación de opinión, donde se desea observar la población de individuos de
manera estandarizada par medio de una lista de confrontación de preguntas. La
conducta que interesa en la investigación son las respuestas de los individuos a
tales preguntas. Supongamos que el universo de atributos abarca todas las
preguntas posibles que podrían contestarse en la lista concerniente a la
capacidad de lucha de los británicos. Esas preguntas podrían ser: "¿Piensa usted
que el ejército británico es tan poderoso como el alemán? "; "¿Piensa usted que
la fuerza aérea británica es superior a la alemana? " Y así sucesivamente. Hay
un número indefinidamente grande de tales preguntas que pertenecen al universo;
pero en una investigación particular generalmente sólo se usa una muestra de
aquél. Un atributo pertenece al universo en virtud de su contenido.
El investigador indica el contenido de interés por el título que selecciona para
el universo; y todos los atributos con ese contenido pertenecen a tal universo.
Por de contado, habrá en la práctica casos límites en que será difícil decidir
si un reactivo pertenece o no al universo. La evaluación del contenido es así un
asunto que puede decidirse por consenso de los peritos o por algún otro medio.
Esto se ha reconocido antes, aunque no necesita considerarse como un pecado
contra el Espíritu Santo del operacionalismo puro ". Es posible que el análisis
formal de factibilidad de una escala ayude a esclarecer las regiones dudosas de
contenido. Sin embargo, se ha encontrado que actualmente es más útil valerse de
la experiencia informal y del consenso, en su mayor grado, para definir el
universo. Un aspecto importante de este enfoque es que el criterio para
que un atributo pertenezca al universo no es la magnitud de las correlaciones de
ese reactivo con otros atributos que se sabe pertenecen al universo. Los
atributos del mismo tipo de contenido pueden tener intercorrelaciones de
cualquier amplitud y que varían, prácticamente, desde 0 hasta la unidad. La población de objetos Definir el universo de atributos es un problema similar al
problema típico de definir la población de objetos o individuos de interés para
la investigación. Un investigador debe siempre delimitar la población con la que
trabaje. Por ejemplo, en el caso de la opinión sobre los británicos como
soldados, debe decidir de quiénes desea determinar las opiniones, ¿Está
interesado en individuos de cualquier parte o solo de los de los Estados Unidos?
¿Está interesado en cualquier individuo de los Estados Unidos o solo en los
adultos? Si sólo en los adultos, ¿cómo se definirá un adulto? Además, a veces
será difícil decidir si un individuo particular pertenece a una población o no;
y las decisiones deberán tomarse antes de que empiece la investigación, pues de
otra manera el investigador no sabrá a quién observar. Métodos de observación Supongamos que hemos definido un universo de atributos y una
población. Podemos entonces comenzar a realizar observaciones sobre la conducta
de la población con respecto al universo. (En la práctica esto se hace
generalmente sólo con muestras. Una muestra de individuos de la población es
observada en su conducta con respecto a una muestra de atributos del universo).
Cómo se hagan las observaciones, aquí no interesa. En la investigación de
opinión y en otros campos se han usado cuestionarios e inventarios. Pero puede
usarse cualquier técnica de observación que proporcione los datos de interés
para la investigación. En el caso de las ciencias sociales y psicológicas, las
técnicas pueden ser historias de casos, entrevistas, introspección y cualquier
otra técnica para registrar observaciones. Lo importante no es cómo se alleguen
las observaciones, sino que éstas sean de interés central para la investigación. El uso de un cuestionario implica que el investigador está
interesado en cierto tipo de universo de conducta verbal. La observación
participante puede implicar que el investigador se interesa por cierto tipo de
universo de conducta no verbal. Estos distintos universos pueden investigarse en
forma individual. Con frecuencia es de interés averiguar qué tan bien se
correlaciona un universo con otro; pero esa correlación no puede determinarse
sino hasta que cada universo se defina y observe separadamente. Los ejemplos de escalas de este artículo contienen
observaciones hechas por medio de cuestionarios. No debe inferirse, sin embargo,
que la elaboración de escalas se refiere solamente a esa técnica. El análisis de
la elaboración de escalas es un análisis formal y, por tanto, se aplica a
cualquier universo de datos cualitativos de cualquier ciencia obtenidos por
cualquier forma de observación.
El propósito de la elaboración de escalas Es patente la laboriosidad que implica el registro del gran
número de observaciones que existen en un universo de atributos con respecto a
una población de individuos. El registro requiere una tabla con un renglón para
cada individuo y una columna para cada atributo. (En teoría, la tabla puede ser
indefinidamente grande). Sería conveniente que pudiésemos representar las
observaciones del modo más compacto que, a su vez, nos permitiera reproducir la
tabla siempre que lo deseáramos. Una representación compacta, si pudiera
obtenerse, tendría dos grandes ventajas: primero, una ventaja mnemotécnica,
porque una representación de tal tipo sería más fácil de recordar que una tabla
grande; y segundo, si deseáramos relacionar el universo y otras variables sería
más fácil hacerlo por medio de la representación compacta que usando la
distribución multivariada de los atributos en el universo. De ella se derivan
otras ventajas que se advertirán cuando aumente el conocimiento del lector sobre
las escalas. Una representación particularmente sencilla de los datos
sería asignar a cada individuo un valor numérico y a cada categoría de cada
atributo otro valor numérico, de manera que, dado el valor del individuo y los
valores de las categorías de un atributo, pudiéramos reproducir las
observaciones del individuo sobre el atributo. Esto será posible solamente en
tipos restringidos de datos, en que cada atributo del universo puede expresarse
como una función sencilla de la misma variable cuantitativa, es decir, donde el
universo de atributos forma una escala con respecto a la población de
individuos. &
.026 X 2000 = 52
52x1=52
número máximo de errores




Combinaciones de categorías
Pregunta
Combinaciones