Archivo 2008

Virgen de Loreto

Patrona de la Aviación

Este espacio está reservado para los artículos ya publicados

 Índice General Artículos

Articulo Diciembre 2008

UNA TÉCNICA PARA ELABORAR ESCALAS DE ACTITUDES (II)

    TÉCNICAS DE INFORMES SOBRE SI MISMO

    El diferencial semántico no se concibió originalmente para medir actitudes. El propósito inicial de Osgoad y colaboradores se encaminó hacia la exploración de las dimensiones del significado. Este esfuerzo fue  alentado por el rápido perfeccionamiento de las computadoras que pronto se convirtieron en invaluable ayuda para los tediosos cálculos del análisis factorial. Que ha dado lugar al nuevo enfoque, en la semántica experimental, en la medición de actitudes.

    El diferencia¡ semántico no mide las reacciones de los individuos a objetos semánticos. Esto se consigue por estimaciones del objeto sobre varias escalas sencillas de estimación, definidas por adjetivos bipolares; por ejemplo Bueno-Malo, Bonito-Feo, Caliente-Frio. Las estimaciones de cada objeto se correlacionan y analizan factorialmente para determinar las dimensiones del significado.

    Numerosas repeticiones dé éste procedimiento han contribuido a demostrar la estabilidad de las tres dimensiones siguientes: la evaluativa; la de potencia y la de actividad. Teniendo en cuenta que la actitud comprende claramente una respuesta evaluativa con respecto a un objeto de actitud, la aplicación del diferencial semántico a la medición de actitudes se ha iniciado con gran entusiasmo. Osgood, Tanenbaum y Suci, en su libro "La medición del significado", definen su posición con respecto a la adaptación del diferencial semántico a la medición de actitudes.

    Desde sus comienzos, el diferencial semántico ha cobrado extraordinaria popularidad entre los investigadores de la rama. Por ello no deja de causar cierta sorpresa el hecho de que nadie, hasta ahora, haya resumido y examinado críticamente su uso como método de medición de actitudes. A petición del director, David R. Heise escribió la revisión crítica. Esta es la única revisión completa de que se dispone hasta la fecha y, por lo mismo será especialmente útil para quienes se interesen por la aplicación del tan citado diferencial semántico.

    ¿Cómo se sabe si los reactivos seleccionados para una medición de actitudes basada en informes acerca de sí mismo reflejan la actitud que se supone están explorando? O, más sencillamente, ¿cómo puede establecerse si todos esos reactivos captan la misma dimensión de actitud, cualquiera que sea? La validez de contenido, o lógica, de los reactivos de una escala de reactivos múltiples se hace generalmente sobre una base a priori y a primera vista.

    Mas adelante veremos dos métodos para establecer definiciones operacionales válidas de escalas de reactivos múltiples. Kerlinger y Kaya demuestran la utilidad del análisis factorial para probar la monodimensionalidad de los reactivos que se tenga planeado incluir en una escala. Lingoes da a conocer un procedimiento de computación para seleccionar grupos de reactivos monodimensionales a partir de una serie de reactivos dicotómicos que pueden tratarse posteriormente como una escala de Guttman.

   Tradicionalmente, la medición de actitudes ha significado ubicar individuos a lo largo de un continuo único de actitud, generalmente sobre una dimensión evaluativa. De ahí los grandes esfuerzos que se han dedicado al desarrollo de escalas monodimensionales. Ha sido costumbre pensar que las personas son más o menos favorables, pro o anti, positivas o negativas, hacia determinado objeto de actitud.

    Recientemente la atención se ha dirigido al estudio de cómo ubicar los objetos en un espacio multidimensional. Esta via es prometedora, si bien sus progresos han sido lentos tal vez por la preparación técnica que se requiere para ingresar al campo de la elaboración de escalas multidimensionales.

    John Ross ha preparado una introducción, tan admirable como técnicamente exacta, a la elaboración de escalas multidimensionales. Naturalmente que tal clase de escalas no tiene por qué limitarse a los datos de informes sobre sí mismo. Como eñala Ross, puede esclarecer los aspectos teóricos de la actitud a la vez que mejorar la medición de actitudes.

   Otra de las contribuciones recientes, digna de tenerse en cuenta dentro de la medición de actitudes, es el "Enfoque de juicio social - implicación", de Sherif y Sherif, que se basa en los hallazgos del estudio experimental del juicio -psicofísico y social- y en los de compromiso del si-mismo o del yo. Este enfoque permite tanto una estructura teórica de las actitudes, basada sólidamente en investigaciones experimentales, como una técnica interesante de medición. Y como tal merece atenta consideración por parte de los investigadores de actitudes.

 

    MEDICIÓN DE ACTITUDES

   Uno de los resultados secundarios pero importantes de la investigación en semántica experimental, es un nuevo enfoque y fundamento de la medición de actitudes. Ha sido posible identificar la "actitud" como una de las dimensiones importantes del significado general y con ello extender los procedimientos de medición del diferencial semántico a uno de los campos primarios de la psicología social.

    Al trabajar en este campo con el mencionado diferencial se han encontrado evidencias de un principio general que gobierna algunos aspectos del proceso cognoscitivo o sea un principio de congruencia. Aunque la operación de este principio no se limita necesariamente a la dimensión actitudinal del espacio del significado, se encuentra primeramente relacionado con la investigación sobre medición de actitudes y, por consiguiente, se usa dentro de este contexto.

 

    Una definición de actitud

   A pesar de la gran cantidad de definiciones de "actitud" en la ciencia social contemporánea, es evidente cierto consenso y acuerdo, particularmente en lo que se refiere a las propiedades principales de aquéllas. La mayoría de las autoridades en la materia están de acuerdo en que las actitudes se aprenden y permanecen implícitas; son estados inferidos del organismo que, al parecer, se adquieren de manera muy semejante a como lo hacen otras actividades internas aprendidas. Son, al mismo tiempo, predisposiciones a responder; pero se distinguen de otros estados similares en que predisponen a una respuesta evaluativa.

    Por tanto, las actitudes se describen como "tendencias de acercamiento o evitación", o como "favorables o desfavorables", y así sucesivamente. Esta noción se relaciona con otra opinión compartida: que las actitudes pueden adscribirse a un continuo básico bipolar, con un punto de referencia neutral o cero, lo que implica que tienen dirección e intensidad y a la vez proporcionan una base para obtener índices cuantitativos de ellas. Para usar una nomenclatura diferente, las actitudes son procesos implícitos que tienen propiedades recíprocamente antagónicas y que varían de intensidad.

    Esta caracterización de la actitud como un proceso aprendido implícito, que es potencialmente bipolar, varía en su intensidad y media la conducta evaluativa, sugiere que la actitud es parte para algunos especialistas, la parte principal de la actividad interna de mediación que opera entre la mayoría de las estructuras de estímulo y de respuesta. Esta identificación de la actitud con la actividad mediatoria, ha sido hecha más explícita por Doob (1947), quien al situarla dentro de la estructura de la teoría hulliana de la conducta, la identificó con el "acto puro de estímulo" en tanto que mecanismo mediador.

   Sin embargo, aunque deficiente, es esta una identificación y localización de la actitud en sí, dentro de este sistema general de actividad de mediación. Nuestro trabajo en la medición semántica parece sugerir tal identificación: si la actitud consiste en una porción de la actividad interna de mediación es, entonces, por inferencia de nuestro modelo teórico, parte de la estructura semántica de un individuo y puede indicarse en correspondencia. Luego, el análisis factorial del significado puede suministrar la base para extraer este componente actitudinal del significado.

   En todos los análisis factoriales realizados hasta la fecha; ha aparecido invariablemente un factor de naturaleza evaluativa fácilmente identificable; por lo común, ha sido el factor dominante, que explica la mayor proporción de la varianza total. A pesar de los diferentes conceptos y criterios para seleccionar las escalas se obtuvieron consecuentemente valores altos y restrictivos en relación a este factor y con respecto a escalas como bueno-malo, justo-injusto y valioso-inútil, mientras que escalas que eran intuitivamente de naturaleza no evaluativa, como rápido-lento, estable-mudable y pesado-ligero, por lo común tuvieron valores pequeños o despreciables con respecto a este factor. Parece razonable identificar la actitud, como se concibe generalmente en el lenguaje común y corriente y en el científico, con la dimensión evaluativa del espacio semántico total, según se la aísla en la factorialización de juicios significativos.

   Fundados en las operaciones de medida con el diferencial semántico, se ha definido el significado de un concepto como su ubicación en un punto del espacio semántico multidimensional. Seguidamente, se define la actitud hacia un concepto como la proyección de aquel punto sobre la dimensión evaluativa de dicho espacio. Obviamente, cada punto del espacio semántico tiene un componente evaluativo (aunque el componente puede tener magnitud cero, cuando los juicios evaluativos son neutrales) y, por consiguiente, cada concepto debe tener un componente actitudinal como parte de su significado total.

    Esto no implica que la dimensión evaluativa o actitudinal sea inevitablemente estable en orientación con respecto a otras dimensiones del espacio; según sea el concepto o conjunto de conceptos que se juzguen, pueden hacerse rotar escalas "puramente" evaluativos, como bueno-malo, de manera que queden alineadas con el factor de potencia, el factor de "adiencia sensorial",, factor que dispone al organismo a la acción continua de un estímulo y así sucesivamente. En otras palabras, el tipo de evaluación puede cambiar con el marco de referencia determinado por los conceptos (por ejemplo, político, estético, etc.).

 

    Procedimiento de medición con el diferencial semántico

   Conforme a la definición y fundamento dados anteriormente para medir la actitud, se usarían grupos de escalas con valores altos del factor evaluativo a través de conceptos con valores despreciables de otros factores, según lo determinaran nuestros diferentes estudios de análisis factorial. Así, se usarían escalas como bueno-malo, optimista-pesimista y positivo-negativo y no escalas como tierno-cruel, fuerte-débil o bello-feo, porque éstas resultarían generalmente menos evaluativas a medida que se hace variar el concepto que se juzga.

    Sin embargo, dado que el trabajo de factorialización de concepto a concepto en que se basan los principios presentes no se realizó en el momento en que se emprendieron la mayoría de las medidas de actitud no siempre se cumplieron este criterio ideal. Para propósitos de consistencia de calificación, se asignan uniformemente a los polos desfavorables de nuestras escalas evaluativas (por ejemplo, molo, injusto, insignificante, etc.) la puntuación "1 " y a los polos favorables (bueno, justo, valioso) la puntuación "7", esto independientemente de la presentación de las escalas a los sujetos en el diferencial gráfico, donde deben distribuirse aleatoriamente respecto a la dirección.

    A continuación se suman simplemente todas las estimaciones evaluativas para obtener la "puntuación" de actitud. Un método más afinado sería valorar cada escala con base en su carga de factor evaluativo con respecto a los conceptos que se juzgan; pero esto sería sumamente laborioso y, si las escalas son "puramente" evaluativas, como se definieron arriba, es seguro que se mejoraría muy poco la precisión del instrumento. También debe señalarse que en la práctica incluimos por lo común un número considerable de escalas que representan otros factores; se hace esto tanto para oscurecer el propósito de la medición como para proporcionar información adicional sobre el significado del concepto como un todo, además de la actitud hacia él.

   Las propiedades principales de la actitud que se espera indique cualquier técnica de medición se estudian cómodamente por este procedimiento. La dirección de la actitud favorable o desfavorable, queda indicada sencillamente en términos bipolares; si la puntuación cae más cerca de los polos favorables, entonces se considera favorable la actitud, y viceversa. Una puntuación que cae en el origen, definido por el "4" de las escalas, se considera un índice de neutralidad de la actitud. La intensidad de la actitud se indica por la distancia al origen de la puntuación sobre la dimensión evaluativa; es decir, por la polarización de la puntuación de actitud.

    Aunque en una escala existen solamente tres niveles de intensidad, "ligeramente", "bastante", y "extremadamente", en cualquier dirección, la suma en varias escalas evaluativas produce grados más afinados de intensidad. Por ejemplo, si se usan seis escalas tenemos una amplitud de puntuaciones posibles desde seis (la más desfavorable), pasando por 24 (exactamente neutral) hasta 42 (la más favorable), aparte de 18 grados de intensidad de puntuación de actitud en cada dirección. Con base en un trabajo anterior Katz, y Cantril, se supuso que una puntuación neutral es de intensidad mínima en cuanto a actitud. La monodimensionalidad de la escala de actitud resulta automáticamente de los procedimientos analítico factoriales a partir de los cuales se seleccionan las escalas.

    Si las escalas usadas se seleccionan teniendo en cuenta que todas tienen valores puros y altos del mismo factor -idealmente mantienen esta consistencia a través de varios análisis factoriales- debe lograrse monodimensionalidad. En otras palabras, el análisis factorial es, en sí mismo, un método para probar la monodimensionalidad de los reactivos o escalas que forman un test.

 

    Evaluación del diferencial como medida de actitud

   Confiabilidad.

    Tannenbaum (1953) obtuvo datos de confiabilidad test-retest. Empleando seis conceptos (Lideres sindicales, "The Chicago Tribune", Senador Robert Taft, Apuestas legalizadas, Arte abstracto y Programas universitarios acelerados) fueron juzgados en relación a seis escalas evaluativas (bueno-malo, justo-injusto, valioso-insignificante, sabroso-desagradable, limpio sucio y placentero-molesto) por 135 sujetos en dos ocasiones separadas entre sí por cinco semanas.

    Se computaron puntuaciones de actitud sumando las seis escalas, después de realinearlas de acuerdo con una dirección evaluativa constante. Los coeficientes de test-retest variaron desde .87 a .93, con una r media (computada por medio de la transformación z) de .91. En otro estudio, se obtuvieron datos adicionales de confiabilidad, que confirman estos; aparecen en la tabla 1.

 
Tabla 1.- Coeficientes de confiabilidad de las puntuaciones de actitud del diferencial semantico (D) y de las puntuaciones de las escalas de Thurstone (T). Los subíndices 1 y 2 se refieren al primero y segundo examen
Objeto de actitud rs1t1 rs2t2 rt1t2 rs1s2
La iglesia .74 .76 .81 .83
La pena capital .81 .77 .78 .91
Los negros .82 .81 .87 .87

    Validez.

    La dimensión evaluativa del diferencial semántico muestra una validez bastante razonable como medida de actitud. Por ejemplo, Suci (1952) pudo diferenciar entre etnocéntricos altos y bajos, determinados independientemente a partir de la escala E de los estudios de personalidad autoritaria, con base en sus estimaciones de varios grupos étnicos en las escalas evaluativas del diferencial.

    Similarmente, se encontró que las estimaciones de las escalas evaluativas discriminan en las formas esperadas entre matices de preferencia política, en un estudio de Suci de la conducta del votante y en un estudio de simbolismo pictórico político de Tannenbaum y Kerrick.

    Sin embargo, a diferencia de la medida del significado en general, en el caso de la actitud tenemos otros instrumentos de medida desarrollados independientemente y con respecto a los cuales se puede evaluar esta técnica.

    Veamos dos de estas comparaciones; la primera, con las escalas de Thurstone; y la segunda, con una escala del tipo de Guttman.

    Comparación con los escalas de Thurstone.

    Se evaluaron tres conceptos (Los Negros, La Iglesia y La pena capital) con respecto a una serie de escalas, que incluían cinco puramente evaluativas (justo-injusto, valioso-insignificante, placenter-omolesto, limpio- sucio y bueno-malo). Además, los sujetos indicaron sus actitudes en escalas de Thurstone diseñadas especialmente para medir estos objetos de actitud ; la escala estándar para la iglesia, la forma B de la escala de los negros y la forma A de la escala de la pena capital de Thurstone.

    Los sujetos fueron divididos en dos grupos antes de someterlos a las pruebas: a uno de los grupos (N=23) se le dio primero la forma del diferencial semántico; y una hora después los tests de Thurstone. El otro grupo (N=27) recibió las mismas pruebas pero en orden contrario. Dos semanas después de esta sesión inicial, a los sujetos se les aplicaron nuevamente ambos tests, pero en esta ocasión se invirtieron los órdenes respectivos. La segunda sesión se llevó a cabo para obtener información de confiabilidad sobre ambos tipos de instrumentos de medición de las actitudes.

    Las columnas (1) y (2) de la tabla 1 muestran las correlaciones momento-producto entre las puntuaciones escalares del diferencial semántico (d) y de Thurstone (t) con respecto a tres objetos de juicio, en la sesión inicial de examen (rd1t1,) y en la segunda sesión (rd2t2); en las columnas (3) y (4) se ofrecen los coeficientes de confiabilidad de test-retest con respecto a las escalas de Thurstone (rt1t2) y las puntuaciones evaluativas en el diferencial (rd1d2), nuevamente para cada uno de los tres conceptos juzgados.

    Puede verse que las confiabilidades de los dos instrumentos son altas y equivalentes. La correlación entre las puntuaciones del diferencial semántico y las puntuaciones correspondientes de Thurstone es significativamente más grande de la que podría atribuirse al azar (p < .01) en cada caso; y en ninguno de estos la correlación entre las técnicas fue significativamente menor que el coeficiente de confiabilidad del test de Thurstone.

    Las diferencias en las correlaciones entre ambas técnicas, de la primera a la segunda sesión de examen, están dentro de los límites del azar. Claro está que cualquiera que sea lo que midan las escalas de Thurstone, el factor evaluativo del diferencial semántico mide más o menos lo mismo. Ciertamente, cuando los seis coeficientes de validez se corrigen por atenuación, se elevan a .90 o más.

    Comparación con una escala de Guttman.

    En una revisión para examinar la validez del factor evaluativo del diferencial como medida de actitud en contraste con una escala del tipo de Guttman. Se construyó una escala de 14 reactivos, del tipo Guttman (coeficiente de reproductibilidad de .92), con gran inversión de tiempo y trabajo, para evaluar las actitudes de los agricultores hacia la práctica agrícola de la rotación de cultivos. Aproximadamente al mismo tiempo se usó el diferencial semántico en conexión con una serie de programas de televisión que trataban de prácticas agrícolas y uno de los conceptos incluidos fue la rotación de cultivos.

    Aunque estos estudios se realizaron independientemente, se encontró que 28 sujetos habían sido sometidos a ambos instrumentos de examen. La escala de Guttman se había aplicado primero en todos los casos y el lapso entre los dos exámenes varió considerablemente, desde solo tres días hasta casi cuatro semanas. Con las puntuaciones de actitud, en el diferencial, obtenidas sumando las tres escalas evaluativas que se emplearon (bueno-malo, justo-injusto y valioso-insignificante) la correlación de orden de rango entre los dos instrumentos fue muy significativa (rho = .78; p < .01). Por lo que se puede decir que la escala de Guttman y las escalas evaluativas del diferencial miden en alto grado la misma cosa.

   Los resultados de estos dos estudios corroboran la noción de que el factor evaluativo del diferencial semántico es un índice de actitud. Además, es un método de evaluación de actitudes relativamente fácil de aplicar y calificar. Aunque no explora mucho el contenido de una actitud en el sentido del significado denotativo (por ejemplo, las reacciones específicas que presentarían personas con diferentes actitudes, las aseveraciones específicas que podrían aceptar), parece proporcionar un índice de la ubicación del objeto de actitud a lo largo de un continuo evaluativo general. Si el diferencial semántico en conjunto puede proporcionar un cuadro de mayor riqueza del significado del objeto de actitud que la dimensión evaluativa solamente en conjunto puede proporcionar un cuadro de mayor riqueza del significado del objeto de actitud que la dimensión evaluativa solamente, en un punto que se verá mas tarde.

subir índice

Articulo Noviembre 2008

UNA TÉCNICA PARA ELABORAR ESCALAS DE ACTITUDES (II)

 

    Análisis de reactivos

    Los 83 reactivos se adaptaron a respuestas del tipo de Likert. Cada uno de ellos fue seguido por una escala obligatoria de 6 puntos (completamente de acuerdo, de acuerdo, ligeramente de acuerdo, ligeramente en desacuerdo, en desacuerdo, completamente en desacuerdo). Se pidió a los sujetos que marcaran en cada reactivo la expresión que describiera mejor su propia actitud hacia aquél. En total, 355 sujetos llenaron el cuestionario: 245 de clases de sociología, psicología e idiomas, de la Universidad de Washington; 60 de una preparatoria local y 50 de una escuela de policías. De los 355 cuestionarios quedaron 346, porque 9 de ellos estaban incompletos o tenían más de una respuesta en algún reactivo.

   La calificación se hizo de acuerdo con el método general de Likert, asignándose valores de 0 a 5 a las 6 categorías de respuesta; el valor 5 fue para la respuesta completamente de acuerdo, en el caso de reactivos que expresaban una opinión favorable sobre la ciencia; y también para la respuesta completamente en desacuerdo en los reactivos que expresaban una opinión desfavorable sobre la ciencia. En cuanto a los 6 reactivos dentro del intervalo escalar de 4.0 a 4.9, la asignación de valores se hizo basándose en que el valor escalar del reactivo fuera mayor o menor que 4.5.

    A cada sujeto se le sumaron los valores de las respuestas en los 83 reactivos individuales y se dibujó una distribución de frecuencia de las puntuaciones resultantes. La amplitud obtenida de las puntuaciones fue solamente el 64% de la amplitud posible (la obtenida de 140-405, la posible de 0-415) con una gran giba en el extremo superior (favorable) de la distribución.

   Se escogieron dos grupos de criterio, aproximadamente el 27% superior e inferior, sobre la base de las puntuaciones totales. La amplitud de las puntuaciones con respecto a los 94 cuestionarios inferiores fue de 140 a 300 y los 94 superiores tuvieron puntuaciones desde 343 hasta 405. Las 83 aseveraciones se sometieron entonces a análisis de reactivos. Para cada una, se tabularon las frecuencias en cada una de las categorías de respuesta tanto para el grupo superior como para el inferior. Las 6 categorías se redujeron a 2, combinando las categorías 0, 1, 2, 3 y 4. Esta agrupación fue necesaria porque los sujetos dieron respuestas predominantemente favorables a los reactivos. Si el universo de contenido hubiera sido la actitud hacia los sindicatos, se hubiera esperado una distribución más simétrica de las respuestas y, consecuentemente, una agrupación diferente de las categorías. A partir de las tablas de 2 x 2 resultantes, se calcularon los coeficientes fi (11) (Φ), que variaron desde 16 a 0.78. Los nomogramas de Guilford y las tablas preparadas por Jurgensen simplifican estos cálculos.

   Los 83 reactivos se dibujaron en una distribución bivariada con los valores (Φ) sobre el eje Y y los valores escalares sobre el eje X. Una gráfica de los valores de fi, en contraste con los valores de Q, no indicó relación discernible; y la variabilidad dentro de las columnas fue aproximadamente igual a la variabilidad total. Esto indicaría que en el procedimiento de discriminación escalar seguido, el análisis de fi vigoriza el proceso de selección de reactivos cuando se usan reactivos con valores de Q semejantes. En este momento se han eliminado ya el 50% de los reactivos con los valores de Q mayores.

    Se seleccionaron de cada mitad del intervalo escalar los 4 reactivos con los mayores coeficientes fi; debido a los huecos mencionados en el continuo de la escala solamente se abarcaron los intervalos entre .5 y 2.5 y entre 6.5 y 8.0. No se seleccionaron reactivos entre los controles "neutrales" en el intervalo escalar de 4.0 a 4.9. Los 28 reactivos así seleccionados se asignaron a las formas A y B de los cuestionarios, alternándose los valores escalares entre ambas formas.

    Las escalas finales fueron de 14 reactivos cada una, con reactivos aproximadamente iguales en cuanto a valores escalares de Thurstone, valores Q y valores fi. En las formas A y B, respectivamente, los valores escalares medios de los 14 reactivos fueron 3.85 y 3.91, los valores Q medios fueron .90 y .92. Los coeficientes fi de los reactivos, en la forma A, variaron entre .58 y .78 con un valor mediano de .65; en la forma B variaron desde .58 a .76 con un valor mediano de .66. Solamente 1 de los 10 reactivos de control restantes tuvo un valor fi por encima de .58. Fue precisamente uno de los 6 reactivos "neutrales" el que tuvo un valor fi de .61. Los demás reactivos de control serían rechazados según el criterio fi.

 

    CONFIABILIDAD Y REPRODUCTIBILIDAD DE LA ESCALA

    El coeficiente de confiabilidad de las dos formas de la escala, de 14 reactivos, cada una, calculado según las respuestas de 248 sujetos nuevos fue de .81, no corregido. Para ambas formas del test se restringió completamente la amplitud de las puntuaciones, de 30 a 70 en cada caso, con amplitudes posibles de 0 a 70. Dentro de esta amplitud restringida se presentó una giba en el extremo superior o favorable. La puntuación media con respecto a la forma A fue de 58.22 y la desviación estándar de 7.33. En cuanto a la forma B, la media fue de 57.20 y la desviación estándar de 7..79.

    Se realizó el análisis escalar basado en la ejecución de una muestra de 87 sujetos extraídos de un grupo mayor de 248, en ambas formas del test por medio de la técnica de Cornell (11). Se obtuvo un coeficiente de reproductibilidad de 87.5% con respecto a la forma A y un coeficiente de 87.2% para la forma B. Las categorías de respuesta en cada caso se dicotomizaron.. Se establecieron puntos de corte y se observo la regla de Guttman de que "ninguna categoría debe tener mayor número de errores que de aciertos". La amplitud de la categoría de respuesta modal fue de .51 a .82 en la forma A. El valor medio de las categorías modales, .57, que es el valor mínimo del coeficiente de reproductibilidad para este conjunto de reactivos en la muestra usada, puede compararse con el coeficiente observado de reproductibilidad del 87.5%. Este es el límite inferior porque la reproductibilidad de cualquier reactivo no puede ser menor que la frecuencia de la categoría modal. El método para computar el valor mínimo del coeficiente supone independencia entre los reactivos. En cuanto a la forma B, la amplitud de las categorías modales fue de .52 a .67. El valor medio, que es nuevamente el límite inferior del coeficiente de reproductibilidad, fue de .57, mientras que el valor observado del mismo coeficiente fue del 87.2%.

    Los dos valores observados del coeficiente de reproductibilidad son suficientemente altos para ofrecer pruebas de que una sola variable dominante está comprendida en los grupos de reactivos o que, dicho de otra manera, existe monodimensionalidad. Se dice que tales grupos de reactivos son adaptables a una escala o que constituyen una escala. Los coeficientes de reproducibilidad también significan que es posible reproducir las respuestas a los reactivos a partir de las puntuaciones de orden jerárquico con el grado de exactitud indicado por el valor de aquellos mismos.

    El error de reproductibilidad presente es sencillamente igual a 1.00 menos el coeficiente observado de reproductibitidad. Si puede suponerse que tal error es al azar, entonces estos grupos de reactivos poseen una propiedad importante: la simple correlación entre las puntuaciones de orden jerárquico y un criterio externo será igual a la correlación múltiple entre los reactivos y el criterio externo. Y esto, a su vez, significa que la eficiencia de la predicción se hace máxima por la simple correlación.

    Sería igualmente verídico que en el caso de grupos de reactivos que satisfacen los criterios exigidos para las escalas, la interpretación de las puntuaciones de orden jerárquico no es ambigua, y que es posible hacer afirmaciones significativas tocante a que un sujeto es superior (más favorable) que otro en la variable en cuestión. En el caso de escalas perfectas, donde el coeficiente de reproductibilidad es la unidad, se infiere igualmente que un individuo con una puntuación de orden jerárquico baja no daría una respuesta más favorable a cierto reactivo que cualquier persona con una puntuación de orden jerárquico más alta.

    Esto no sería cierto en un test que incluyese más de una variable. Supongamos, por ejemplo, que un test comprende dos variables. Entonces un sujeto puede obtener determinada puntuación superior en una variable e inferior en la otra. Otro sujeto podría obtener la misma puntuación y ser superior en la segunda variable e inferior en la primera. A partir de las puntuaciones de orden jerárquico únicamente, sería imposible indicar las posiciones relativas de los sujetos en las dos variables; y, por tanto, es ambigua la interpretación de la puntuación compuesta. Podrían hacerse afirmaciones de "mayor y menor que"; pero no sabriamos a qué se referiría el "mayor y menor que", porque al incrementar o disminuir el número de reactivos relacionados con una de las variables, podrían alterarse las puntuaciones de orden jerárquico de los sujetos, no significa esto que las escalas multidimensionales carezcan de valor. Esto no sería verdadero en un test donde todos los reactivos pertenecieran a un sólo continuo, es decir, en un test monodimensional. En tal tipo de test, el incremento del número de reactivos no cambiaría las puntuaciones jerárquicas de los sujetos.

 

    RESUMEN

    Al método de discriminación escalar descrito ha recibido el nombre, por usar el procedimiento de elaboración de escalas de Thurstone; y reserva el procedimiento de Likert para evaluar el poder discriminativo de los reactivos individuales. Además, los reactivos seleccionados por el método de discriminación escalar, producen coeficientes de reproductibilidad satisfactorios y satisfacen los requisitos del análisis escalar de Guttman. El método de discriminación escalar es esencialmente una síntesis de los métodos de evaluación de reactivos de Thurstone, Likert y Guttman. También posee ciertas ventajas que no están presentes en ninguno de estos métodos, considerados separadamente.

    Por ejemplo el método de discriminación escalar elimina los reactivos menos discriminantes en una muestra grande, tarea en la que falla el metodo de Thurstone solo. El problema no resuelto en el procedimiento de Thurstone es el de seleccionar dentro de cada intervalo escalar los reactivos más discriminantes. Los reactivos dentro de cualquier intervalo escalar pueden presentar un alto grado de variabilidad con respecto a una medida de discriminación. Por ejemplo, encontramos dentro de un sólo intervalo reactivos con valores fi que van desde .24 a .78. Que el criterio Q de Thurstone no ayuda materialmente a la selección de los reactivos discriminantes, lo índica la gráfica de los valores de fi contra los valores de Q, después que se ha rechazado el 50% de los reactivos con los valores Q mayores. En tal circunstancia, los reactivos con valores de Q, desde 1.00 hasta 1.09, tuvieron valores fi que oscilaban entre .32 y .76. El método de Thurstone, por la inclusión de reactivos "neutrales", tiende también a disminuir la confiabilidad y la reproductibilidad del grupo de reactivos seleccionado finalmente.

    Por tanto, cuando seleccionamos reactivos únicamente por la técnica de Thurstone, no tenemos base para seleccionar reactivos con valores escalares y valores Q semejantes, pese a que estos reactivos no sean igualmente valiosos para la medición de actitudes. Disponiendo de alguna medida del poder discriminante de los reactivos, la selección se vuelve objetiva así como ventajosa por lo que se refiere a la escala misma.

    La ventaja del método de discriminación escalar con respecto al procedimiento de Guttman se basa esencialmente en el hecho de qué hemos suministrado una base objetiva para la selección de un conjunto de reactivos que después son examinados en cuanto a su adaptabilidad a la escala. Es posible que el método de discriminación escalar no siempre produzca un conjunto de reactivos con un coeficiente de reproductibilidad satisfactorio. Pero ésta no es una objeción mayor a la técnica, sino tan sólo la manifestación del hecho de que un conjunto de reactivos seleccionados intuitivamente no siempre será adaptable a una escala. Al parecer, el método de discriminación escalar ofrece mayor garantía de factibilidad de una escala que cualquier técnica intuitiva, como la aplicada por Guttman.

    Además, el conjunto de reactivos seleccionado por la técnica de discriminación escalar suministra una amplitud mayor de contenido que los reactivos intuitivos de Guttman. Por el método de discriminación escalar, obtenemos reactivos que no son primordialmente expresiones múltiples de la misma pregunta, como a menudo sucede cuando la selección de un conjunto de reactivos que van a ser examinados en cuanto a su adaptabilidad a la escala se deja a la experiencia del investigador.

 

BIBLIOGRAFIA

subir índice

Articulo Octubre 2008

UNA TÉCNICA PARA ELABORAR ESCALAS DE ACTITUDES (I)

    En artículos anteriores, se ha pasado revista a varios de los métodos que se siguen para elaborar escalas de actitudes; el método de intervalos aparentemente iguales, desarrollado por Thurstone; el método de estimaciones sumatorias, desarrollado por Likert  y el método de análisis escalar creado por Guttman. El método de intervalos aparentemente iguales y el de estimaciones sumatorias son similares en cuanto que suministran técnicas para seleccionar, de un numero grande de reactivos, un conjunto que constituye el instrumento de medida. El análisis escalar difiere de estos dos métodos en que se ocupa de la evaluación de un conjunto de reactivos, después de que estos, de uno u otro modo, ya han sido seleccionados.

    En el método de intervalos aparentemente iguales, un grupo de peritos clasifica reactivos de opinión en 9 u 11 categorías que constituyen un continuo que varia de desfavorable a favorable. El valor escalar de cada reactivo se determina por el punto del continuo, por encima y por debajo, en el cual el 50% de los peritos colocan tal reactivo. La dispersión de las estimaciones de los peritos se mide por Q, la amplitud intercuartilar. Un valor de Q alto para un reactivo indica que los peritos están en desacuerdo con la ubicación del reactivo en el continuo, lo que a su vez significa que el reactivo es ambiguo. Tanto los valores de Q como los escalares se usan en la selección de reactivos para el test de actitud. Con tal propósito se seleccionan aproximadamente 20 reactivos con valores escalares espaciados igualmente a lo largo del continuo y con valores de Q pequeños. Se determinan las puntuaciones del test hallando la mediana de los valores escalares de los reactivos con los que esta de acuerdo el sujeto.

 

   En el método de estimaciones sumatorias se seleccionan reactivos con un criterio de consistencia interna. Los sujetos indican si están: completamente de acuerdo, de acuerdo, en duda, en desacuerdo o completamente en desacuerdo, con cada reactivo. Se asignan valores numéricos a estas categorías de respuesta usando los enteros sucesivos de 0 a 4; el valor más alto se asigna consecuentemente a la categoría que indica la actitud más favorable. Se selecciona un grupo superior y uno inferior, con base en las puntuaciones totales obtenidas de la suma de los valores de los reactivos. Después se comparan las respuestas de estos dos grupos en los reactivos individuales; y los 20 reactivos más discriminantes o poco más o menos se seleccionan para el test de actitud. Una puntuación de actitud en este test se determina sumando los valores asignados a las respuestas del sujeto a los 20 reactivos.

 

   En el análisis escalar, se prueba un conjunto completo de reactivos para determinar si, como grupo, constituyen una escala en el sentido de que a partir de la puntuación de orden jerárquico sea posible reproducir la respuesta de un sujeto a los reactivos individuales. El grado en que esto es posible se expresa por el coeficiente de reproductibilidad. Aunque ordinariamente Guttman emplea de 10 a 12 reactivos, para explicar con claridad ate coeficiente supongamos que tenemos tres reactivos, cada uno con sólo dos categorías de respuesta: de acuerdo y en desacuerdo. Supondremos que la respuesta "de acuerdo", en cada caso, representa una actitud favorable y la respuesta "en desacuerdo" una actitud desfavorable. Se asigna el valor 0 a la respuesta en desacuerdo y el valor 1 a la respuesta de acuerdo. Supongamos también que con respecto al primer reactivo tenemos en nuestra muestra 10 sujetos con valor 1, y 90 con valor 0; con respecto al segundo reactivo tenemos 20 sujetos con valores de 1, y 80 con valores de 0; y para el tercer reactivo tenemos 40 con valores de 1, y 60 con valores de 0.

 

   En el caso de reproductibilidad perfecta, los 10 sujetos con valor 1 en el primer reactivo serán los 10 sujetos con las puntuaciones de orden jerárquico más altas. Estos 10 sujetos también estarán comprendidos en los 20 que tienen valor 1 en el segundo reactivo; y estos 20 a su vez estarán comprendidos en los 40 que tienen valor 1 en el tercer reactivo. En la misma forma sería cierto que solamente se presentarían 4 patrones de respuesta de reactivo, si el conjunto de estos fuera perfectamente reproductible. Tocante a la muestra disponible, los patrones y puntuaciones asociadas a ello; serían: AAA-3; DAA-2; DDA-1; DDD-0. Establecido que todas las respuestas podrían predecirse perfectamente a partir de las puntuaciones, en este caso, el coeficiente de reproductibilidad sería del 100%. Sin embargo, rara vez se obtiene una reproductibilidad perfecta y en la práctica se considera satisfactorio un coeficiente del 85% o más, para que un conjunto de reactivos constituya una escala. Se han desarrollado varias técnicas para computar el coeficiente de reproductibilidad, que han sido documentadas por Festinger, Clark y Kreidt y Guttman.

 

    Además del coeficiente de reproductibilidad (10, 12), existen otros criterios que se aplican para determinar si un conjunto de reactivos constituye una escala. Sin embargo, poco se ha publicado tocante a los casos en que se han aplicado empíricamente estos criterios a un conjunto concreto de datos. El coeficiente de reproductibilidad ha sido destacado en todas las publicaciones de Guttman, quizá porque se considera una condición primaria e inevitable, pero insuficiente, de una escala.

 

    El análisis escalar, en el sentido antes mencionado, se convierte entonces en una técnica secundaria dentro del problema de la selección de reactivos; esto no niega la importancia de la teoría que fundamenta el análisis escalar. Lo importante es obtener un conjunto de reactivos que den alguna seguridad al investigador de que formarán una escala cuando se aplique una técnica particular para probar su adaptabilidad a una escala. Hasta época reciente, el problema de la selección de reactivos en el análisis escalar parece haberse dejado a la intuición y experiencia del investigador. Las únicas reglas prácticas sugieren que uno debe expresar, sencillamente, la misma pregunta, de maneras ligeramente diferentes, o que uno debe buscar reactivos cuyo contenido sea lo más homogéneo posible.

 

    Esta última recomendación implica que, si estuviéramos interesados en el problema de la actitud hacia los negros, deberíamos dividir este universo de contenido en subuniversos que constituyeran tal vez áreas tales como la actitud hacia los negros en restaurantes; la actitud hacia los negros como residente en la comunidad, como votantes y como patrones; la actitud hacia los negros en los transportes públicos y así sucesivamente. Pero aún aquí encontramos que la actitud hacia los negros, digamos en los transportes públicos, puede dividirse en áreas de contenido aún más homogéneas al especificar los transportes: tranvías, autobuses, trenes, aviones, etc. Cada una de estas áreas de contenido quizás pueda dividirse en otras aún más homogéneas y vendríamos a terminar seguramente como !o indica Festinger, con múltiples expresiones de la misma pregunta; y así nuestras dos reglas no son sino una.

 

    Cualquier técnica que nos permitiera seleccionar un conjunto de reactivos del conjunto más grande de posibles reactivos, con cierta seguridad en que el conjunto seleccionado llenaría los requisitos del análisis escalar, sería de gran valor. En este artículo se describe una técnica que ha tenido éxito en la tarea. Por razones que se conocerán más adelante, hemos llamado a esta técnica "método de discriminación escalar para elaborar escalas de actitud".

 

    LA TÉCNICA DE DISCRIMINACIÓN  ESCALAR

 

    El método de discriminación escalar se basa en investigaciones previas que mostraron que el punto de corte (el punto de corte de un reactivo indica el lugar de las puntuaciones de orden jerárquico de los sujetos donde la respuesta más común cambia de una categoría (de acuerdo) a la siguiente (en desacuerdo). Entre los puntos de corte de una escala perfecta, todas las respuestas caen en la misma categoría.), de un reactivo está relacionado con el valor escalar thurstoniano del reactivo; y que su reproductibilidad (la reproductibilidad de un reactivo se mide por el grado en que pueden reproducirse las respuestas al reactivo a partir de las puntuaciones de orden jerárquico de los sujetos) se vincula con su poder discriminativo.

 

    Este, como ya se hizo notar, no es, contra lo que pudiese parecer a primera vista, solamente una función del valor escalar del reactivo. Puede demostrarse expeditamente que reactivos con valores escalares thurstonianos y valores de Q semejantes pueden diferir grandemente en su eficacia para diferenciar los que tienen actitudes favorables de los de actitudes desfaborables. Por ejemplo, el reactivo extremo: "Todos los xxxx deben ser ejecutados" indudablemente presentaría un valor escalar en un extremo del continuo y un valor Q claramente pequeño. Pero este reactivo no establecerá diferencia entre los que tienen actitudes favorables o desfavorables hacia los xxxx por la evidente razón de que ambos grupos probablemente reaccionarían a él del mismo modo.

 

    Se reunieron aseveraciones de opinión sobre ciencia, de muy diversas fuentes. Se consultaron libros y ensayos. Se pidió a individuos que expresaran sus opiniones en breves afirmaciones escritas; y se lograron reunir 266 aseveraciones sobre el particular. En la edición de estos reactivos, se atendió especialmente a la eliminación de aquellos reactivos que:

 

    Gracias al cuidado con que se realizó la recolección y la edición de las aseveraciones, la mayoría de las 155 seleccionadas finalmente expresaron una opinión claramente favorable o desfavorable hacia la ciencia.

 

    Otros 13 reactivos, que pudiésemos llamar de control, se agregaron a los 155 originales. Estos 13 últimos se agregaron para determinar lo que les sucedía a lo largo de las diferentes etapas del método de discriminación escalar. De los 13 reactivos, 7 se juzgaron "neutrales", en el sentido de Thurstone; 2 podían interpretarse como relativos a hechos precisos; uno se consideró demasiado extremo para recibir muchas ratificaciones, otro se juzgó ambiguo porque las palabras "scientific holiday" (festividad científica) podrían interpretarse como una moratoria o como una celebración; otro más se consideró ambiguo porque comprendía más de una dimensión; y un último se consideró inadecuado. Había, en consecuencia, 168 reactivos que se emplearon para probar el método de discriminación escalar de elaboración de escalas. Debe recalcarse que la inclusión de reactivos de "control" no se considera parte del procedimiento de discriminación escalar

 

    Determinación de los valores escalares y valores Q de los reactivos

 

    Se prepararon sobres numerados del 1 al 110. En cada sobre se colocó un conjunto de tarjetas de 8 x 12 cm. marcadas con las letras A, B, C, D, E, F, G, H, I y un paquete de tiras de papel de 5 X 10 cm aproximadamente. En cada tira de papel, se imprimió uno de los 168 reactivos junto con el número del reactivo. En cada caso se barajó el paquete de tiras de modo que los reactivos quedaran absolutamente desordenados. Se entregaron los sobres a un grupo de estudiantes de la clase de psicología elemental, junto con las instrucciones que describen el procedimiento de clasificación de Thurstone, y se les pidió que clasificaran los reactivos de acuerdo con las instrucciones.

 

    Se examinaron las clasificaciones de cada sujeto y se descartaron aquéllos cuyas clasificaciones presentaban inversiones obvias del continuo o que no atendieron las instrucciones. Sobre esta base se quedaron con 82 grupos de juicios.

 

    Se tabularon las frecuencias de juicio en cada una de las 9 categorías con respecto a cada reactivo; se transformaron en frecuencias acumulativas y después en proporciones acumulativas, ( Esta tarea fue muy laboriosa. Casi 14000 tiras de papel tuvieron que clasificarse para después ser tabuladas. Algunas técnicas de juicio similares a las empleadas por Ballin y Famworth o Seashore y Hevner  reducirían mucho este trabajo, pero aún así la tarea no es sencilla. Varios métodos que simplifican el proceso de juicio se están usando actualmente).

 

    Se dibujó la ojiva correspondiente a cada reactivo; las proporciones acumulativas se colocaron en el eje de las ordenadas y los valores escalares en el eje de las abscisas. Estos valores se escribieron con dos cifras decimales (el segundo decimal fue solamente una aproximación) las cuales se obtuvieron trazando una perpendicular a la línea base de los valores escalares en el punto donde la curva de proporción acumulativa cruzó la marca del 50%. De manera similar se determinaron valores Q trazando perpendiculares en los niveles del 25 y 75%; Q era la distancia entre estos dos puntos, o sea la amplitud intercuartilar; (Esta operación se simplificó estableciendo una gráfica maestra con las proporciones acumulativas en el eje Y y los valores escalares en el eje X. Se enrolló la gráfica en una placa de vidrio granulado que se adaptó a una caja de madera cerrada que contenía un bulbo de 100 vatios. Luego se colocó papel para dibujar sobre dicha gráfica y se representaron rápidamente las ojivas de los reactivos individuales.)

 

    Posteriormente se dibujaron los 168 reactivos en una distribución bivariada de acuerdo con los valores escalares y de Q; los valores escalares se representaron en la línea base. La distribución de estos adquirió la forma bimodal. Hubo muy pocos reactivos en la zona "neutral" (ninguno entre 5.0 y 5.9); las categorías modales iban de 1.0 a 1.9 y de 7.0 a 7.9. Los valores Q de los 7 reactivos que cayeron en el intervalo escalar "neutral" (de 4.0 a 4.9) fueron muy bajos; 6 de ellos cayeron por debajo del valor Q mediano de los 168 reactivos. Estos 7 reactivos fueron los de "control", descritos anteriormente.

 

 

    Se dibujó una línea a través de la distribución aproximadamente en la mediana de los valores Q de todos los reactivos, en 1.29. Todos los reactivos con valores Q por encima de este punto fueron rechazados. A partir de este momento trabajamos solamente con los 83 reactivos restantes, o sea aproximadamente el 50% del conjunto inicial de reactivos con el menor grado de ambigüedad según es medida por Q. Uno de los reactivos de control "neutral" se eliminó por medio de este estándar; pero 6 fueron aceptables. Estos 6 reactivos tuvieron valores escalares entre 4.0 y 4.9. Ningún reactivo se encontró en el intervalo escalar de 5.0 a 5.9 y el criterio de Q eliminó a todos los que estuvieran dentro del intervalo de 3.0 a 3.9. Uno de los 2 reactivos referente a hechos precisos fue eliminado por el criterio de Q y también se eliminó el reactivo ambiguo con las palabras "scientific holiday". Los 10 reactivos restantes de control se consideraron aceptables por medio del criterio Q.

subir índice

Articulo Septiembre 2008

COMO ELABORAR ESCALAS TECNICAS DE GUTTMAN

 

    LA FUNCIÓN DE INTENSIDAD.

   Guttman (1954) concibió dos métodos para ordenar a los individuos sobre un continuo de contenido. Uno de ellos, que se utiliza habitualmente y queda sobreentendido, hace uso de los marginales de respuesta, que se observan en los reactivos seleccionados a partir de un universo de actitud, para obtener puntos de corte o para establecer rangos de contenido.

    El otro método utiliza puntos de torsión de las regresiones de los componentes principales superiores de actitudes mensurables, para obtener los diferentes puntos de corte.

    Con base en un modelo matemático, se han propuesto cuatro variables psicológicas como componentes principales de actitudes mensurables por escala.

    La intensidad, segundo componente, se concibe como un medio para obtener una dicotomía de los sujetos, a lo largo de un continuo de contenido, en actitudes positivas y negativas.

    El tercer componente, identificado provisionalmente como cierre, se pretende que discrimina entre los sujetos dentro de la dicotomía positiva-negativa. Por tanto, se considera que la función del tercer componente es la de colocar a los sujetos en posiciones de positivo extremo, positivo moderado, negativo moderado y negativo extremo.

    Se supone que cada componente principal superior da lugar a puntos de corte teóricamente más objetivos y más significativos.

    El análisis matemático, de Guttman, propone un número infinito de componentes principales para las escalas perfectas. Este análisis matemático, que usa el criterio de consistencia interna máxima, en el sentido de mínimos cuadrados, predice también el tipo de curva obtenida cuando la regresión de un componente se dibuja sobre el orden jerárquico original de las escalas perfectas.

    En relación con éstas, la primera mejor solución produce una relación lineal. La segunda mejor solución establece el segundo componente, que da una curva en forma de U y un solo punto de inflexión. Se obtiene un punto de torsión adicional para cada solución o componente superior sucesivo.

    Aunque Guttman informa de cierto grado de éxito en la prueba del cierre y de la involución como referentes empíricas de los componentes matemáticos tercero y cuarto, la investigación subsecuente indica que estas variables componentes y otras más que ha propuesto no satisfacen los criterios fijados por el modelo matemático (Henry, 1957; Riland, 1959; Dotson, 1962). Sin embargo, es común que se establezca el contenido y la intensidad.

    El primer componente es el del contenido con respecto a un universo específico de actitud. Por ejemplo, la actitud entre los blancos sureños hacia la segregación de los negros podría ser ese universo mensurable de contenido.

    El segundo componente, considerado generalmente, es la intensidad con que se mantiene la actitud. Cuando se dibuja la intensidad de la actitud en contraste con su rango de contenido, debe obtenerse una curva en forma de U, en la que los sujetos más negativos y los más positivos muestran intensidades altas. La investigación empírica sugiere que el punto de torsión de la curva de intensidad indica un "punto de indiferencia" o punto cero, en el orden jerárquico fundamental. Guttman, (1954) además, sostiene que el punto de inflexión separa a los sujetos en tipos escalares positivos o negativos, según a qué lado del punto cero estén ubicados.

    Brim adopta una posición diferente. Indica que "las respuestas de contenido a las preguntas de actitud se basan en una clase de expectativas P1, que se refieren a probabilidades acerca de la satisfacción que se logrará en varios estados de cosas" (1955,). El cree que la intensidad o "fuerza del sentimiento" es equivalente a una estimación P2 de que la primera expectativa es correcta". Brim indica que el punto de torsión de la curva de intensidad señala a los sujetos que no saben si deberían o no estar satisfechos con el estado de cosas que describen los reactivos. De esta manera, los sujetos que caen en tipos escalares a un lado del punto cero se definen como aquéllos que estiman la probabilidad de satisfacción superior al 50%. Los que caen al otro lado (negativo) se definen como aquéllos que estiman la probabilidad de satisfacción inferior al 50%. Esta es en esencia la discusión de Brim y Guttman, muchos investigadores adoptan la posición de Henry:

    Si se acepta que el punto cero define a aquéllos que no saben cuál sería su satisfacción probable -por consiguiente, la estiman 50-50 de acuerdo con un principio de "equiprobable por defecto de la ignorancia"- o que define a aquéllos que no les interesa o son indiferentes, parece que nos hallamos ante una técnica útil para separar los favorables de los desfavorables (1957).

    Pueden obtenerse medidas de intensidad ya sea por la técnica de doblado o por la de bipartición, ninguna de las cuales forma escalas en el sentido de Guttman (Suchman, 1950). La técnica de doblado implica el uso de reactivos que midan las dimensiones de contenido e intensidad simultáneamente. Para obtener puntuaciones de intensidad mediante esta técnica, con reactivos compuestos de seis categorías de respuesta, las categorías positiva extrema y negativa extrema se combinan o "doblan" para obtener valores de intensidad más altos; las categorías positiva media y negativa media se combinan para formar una puntuación de intensidad baja; y las respuestas positiva mínima y negativa mínima se doblan para formar el valor de intensidad más bajo. Se asignan después valores arbitrarios, por ejemplo 2, 1 y 0 a las tres categorías de intensidades respectivamente. De esta manera se da a cada sujeto una puntuación de intensidad con respecto a cada reactivo; y finalmente se suman las distintas puntuaciones de intensidad de cada individuo.

    La técnica de bipartición emplea una pregunta de intensidad diferente, con respecto a cada pregunta de contenido. Por ejemplo, después de un reactivo de contenido se formula una pregunta de intensidad como ésta: "¿Qué tan profundo es su sentimiento con respecto a X? " Se utilizan opciones de respuesta del tipo 1. "muy profundo", 2. "mediano" y 3. "leve"; luego se asignan valores arbitrarios y se suman según la respuesta de cada sujeto, como en la técnica de doblar. De ambos métodos, la técnica de doblado tiene la cualidad de economizar espacio en un cuestionario; sin embargo, la técnica de bipartición proporciona mayor rigor, en la medición debido a la independencia de las medidas de contenido e intensidad.

    La tabulación transversal de las puntuaciones de intensidad y contenido de todos los sujetos, sirve para ubicar el punto de indiferencia o punto cero en el continuo del contenido. Después de colocar a los sujetos en los tipos escalares definidos por los puntos de corte, resultantes de la observación de marginales de respuesta en reactivos de contenido, se computa el rango mediano de intensidad para cada rango de contenido. La curva de estas medianas se usa como una aproximación a la curva de regresión del segundo componente intrínseco. "Se usan las medianas y no las medias aritméticas o promedios similares, porque aquéllas son independientes de cualquier métrica, excepto del orden jerárquico" (Suchman, 1950).

    Los valores correspondientes a los puntos dibujados se determinan de la siguiente manera:

    Se computan porcentajes acumulativos con respecto a las frecuencias totales tanto de contenido como de intensidad, acumulando del negativo al positivo en contenido y del menor al mayor en intensidad. Para determinar el valor de contenido que se va a dibujar, calculamos el punto medio del intervalo de percentiles correspondiente a cada rango de contenido. El valor de intensidad que se dibuja es el percentil de intensidad mediano del rango de contenido. . . (Suchman, 1950).

Para determinar la mediana de datos agrupados; es aplicable la fórmula general:

Mediana = lx + (N/2 - fx acu/fx)(i)

donde lx es el límite inferior del intervalo que contiene a la mediana, N es el número de casos incluidos en el análisis, fx acu es la suma acumulativa de las frecuencias absolutas hacia arriba, sin incluir el intervalo que contiene la mediana, fx es la frecuencia absoluta en el intervalo que contiene la mediana e i es el tamaño del intervalo. Como ejemplo, véanse la tabla 1 y la figura 2, que ilustran este punto.

   Para computar la puntuación mediana de intensidad para el tipo escalar 0, en la tabla 1, los valores que se sustituyen en la fórmula son:

 

Mediana = 49 + (209/2 - 68 )/51 (69 -49) = 49 + (.71) (20) = 63.

 

    Este valor mediano de intensidad se dibuja después para representar el punto medio de rango 0 de contenido, en la figura 2. Cuando se dibuja el valor mediano de la intensidad de cada uno de los rangos de contenido, se obtiene una curva de regresión en forma de U o J (figura 2). El punto cero o zona de indiferencia, en la figura 2, se ubica en el tipo escalar 2. De esta manera, los tipos escalares 0 y 1 se definen como negativos y los tipos escalares 3 y 4 como positivos.

    El procedimiento anterior hace uso de la regresión de intensidad sobre el contenido para identificar la zona de indiferencia. Una ubicación más precisa del punto cero puede obtenerse por medio de lo que Guttman llama la técnica de "punta de flecha", en la que la colocación se determina por la regresión del contenido sobre la intensidad. "La estimación que se emplea es el percentil mediano de contenido del subgrupo con el rango de intensidad más pequeño (seleccionando, por ejemplo, no menos de 100 personas con este grupo de intensidad menor, a fin de conservar la confiabilidad del muestreo)" (Guttman, 1954).

    Usando la misma fórmula general anterior para calcular la mediana de datos agrupados, se determina el punto cero correspondiente a los datos de la tabla 1, combinando los rangos de intensidad menores para proporcionar un número suficiente de observaciones. Combinando los rangos originales de intensidad 0, 1 y 2, se colocan 146 sujetos en la categoría de intensidad más pequeña. La mediana cae en el rango de contenido que incluye el caso número 73. Sumando transversalmente los rangos de contenido, se encuentra que la mediana cae en el rango 2 de contenido. La mediana del percentil de contenido correspondiente al rango de intensidad más pequeño, en este caso, se obtiene entonces como sigue:

 

    Por tanto, para estos datos el punto cero se ubica en el percentil 57; y puede concluirse que aproximadamente el 57% de los sujetos fueron negativos en su actitud y el 43% positivos.

 

   El punto de corte o punto cero, definido por la función de intensidad, tiene la propiedad de invarianza, es decir, no depende de la muestra de reactivos que se use. La invarianza del punto cero se ha demostrado empíricamente al comparar los análisis de intensidad de dos conjuntos de reactivos procedentes del mismo universo de contenido. Aunque un conjunto de reactivos estaba inclinado negativamente y el otro positivamente, se obtuvo la misma curva de intensidad para ambos grupos de datos (Schuman, 1950).

    El punto de torsión de la curva de intensidad tiene la propiedad de invarianza, porque la métrica de contenido o de intensidad puede ampliarse o contraerse "y el punto de torsión seguirá en el mismo porcentil" (Guttman, 1954). Sin embargo, puede esperarse que el punto cero varíe de un estudio de población a otro y que varíe en una población a través del tiempo. Por consiguiente, el análisis de intensidad es útil para comparar dos poblaciones y para medir el cambio en una población a través del tiempo.

    Han transcurrido ya varios años desde que Guttman desarrolló la teoría de los componentes principales de actitudes mensurables por escala. Durante este tiempo se ha realizado poco con respecto al aislamiento e identificación de referentes empíricos para los componentes tercero y cuarto. Los años venideros pueden demostrar que el modelo de Guttman no produce mejor ajuste con el mundo empírico; sin embargo, la utilidad de la intensidad y su ajuste al modelo matemático sugiere la validez del modelo entero. Se considera que los puntos de torsión de cada una de las curvas de regresión de los componentes superiores poseen la misma propiedad de invarianza que el punto de torsión de la curva de intensidad. Además, el modelo es más preciso con respecto a la relación entre los puntos de torsión de un conjunto de componentes (Guttman, 1954). De esta manera, se suministran al investigador criterios para aceptar o rechazar variables como componentes empíricos tercero y cuarto de actitudes mensurables por escala. La investigación futura en la teoría de componentes puede ser muy provechosa. Indudablemente, son grandes los beneficios potenciales que ofrece la identificación de correlatos de los componentes para el perfeccionamiento de la medición cualitativa.

 

subir índice

 

Artículo Agosto 2008

COMO ELABORAR ESCALAS TECNICAS DE GUTTMAN

 

    Introduccion.

    Desde los primeros trabajos de Guttman, la escala monodimensional ha sido ampliamente usada por sociólogos y psicólogos sociales. Su utilidad se revela no solamente por el número de científicos sociales que la han empleado sino por el número de mediciones diferentes para las que se ha adaptado. Aunque desde su aparición han transcurrido ya medio siglo, que ha servido para evaluar exactamente su contribución a la sociología y a la psicología social.

    Es verdad que la técnica de Guttman permite el tratamiento de datos cualitativos sin hacer la discutible conversión a datos cuantitativos como se hace en algunas otras técnicas de elaboración de escalas. De esta manera, los investigadores han reducido al mínimo las interpretaciones erróneas, al evitar suposiciones de medida equivocadas. Pero lo más importante para el desarrollo de la ciencia conductual es que el modelo de Guttman contenga cierto mecanismo intrínseco (el coeficiente de reproductibilidad) por el cual uno se ve obligado a examinar la consistencia interna de los reactivos que componen la escala.

    Este mecanismo compele la atención hacia lo que realmente se está midiendo. Aunque en ocasiones se han obtenido medidas "estériles", no obstante las pruebas de consistencia interna, generalmente los requerimientos de reproductibilidad han favorecido la mayor claridad conceptual. Es, indudablemente, difícil examinar la consistencia interna de un conjunto de reactivos sin ocuparnos de lo que realmente se está midiendo o, por lo menos, de lo que se está haciendo variar en los reactivos, para explicar la variación de las frecuencias de respuesta, de tos reactivos. Es asimismo inevitable la obtención de mayor claridad conceptual sobre el requerimiento de que, cada vez que se use una escala, su consistencia interna haya de ser reexaminada. Así, cuando con un conjunto de reactivos puede hacerse una escala para un grupo pero no para otro, o suceda lo anterior con un grupo particular en el tiempo 1 pero no en el tiempo 2, es preciso explicar el porqué. La técnica de Guttman ha suministrado además un modelo para la organización de datos colectivos y otros no actitudinales (Rifey y colaboradores, 1954). Ha habido y han sido estimulados los considerables esfuerzos por mejorar el procedimiento original, de Guttman, para elaborar escalas.

    La mayoría de las mejoras al método de Guttman para construir escalas, desde los últimos años de la década del 40, se han concentrado en las técnicas para evaluar una escala (es decir, las técnicas para determinar con más precisión el grado en que un conjunto de reactivos se convierte en una escala eficaz) y en la mecánica de la elaboración de escalas cuando se utiliza equipo electrónico de procesamiento de datos.

    Aunque parece que existe mayor interés en los criterios del reconocimiento de errores que en los criterios de prevención de los mismos, en la construcción de escalas ha habido notables aportaciones. Entre ellas se han seleccionado para su estudio:

 

    La mecánica de Guttman de elaboración de Escalas

    La noción básica de la escala de Guttman o acumulativa es que entre los reactivos que forman la escala existe una relación interna tal, que una persona que ratifica o concuerda con un reactivo que ocupa una posición escalar dada, ratificará todos los reactivos que estén por debajo de ella en la escala. Si se sabe que una persona ratificó tres reactivos de una escala compuesta de cuatro, se sabe también cuáles fueron los tres reactivos que ella ratificó. Por otra parte, todos los individuos que ratifiquen solamente tres reactivos, ratificarán los mismos tres. De esta manera, es posible ordenar a los individuos en categorías o posiciones relativas definidas por las posiciones de los reactivos ratificados. Es cierto, empero, que estas cualidades de la escala de Guttman se deterioran a medida que disminuye la consistencia interna.

    Se han inventado varias técnicas para elaborar escalas de Guttman. En el trabajo inicial se usó la técnica de tablas de escalograma (Suchman, 1950). En este procedimiento se usaba una tabla compuesta de una serie de tablillas movibles en las que se colocaban marcas que representaban las respuestas de los sujetos a cada reactivo. Las tablillas podían manipularse de tal manera que se podía determinar visualmente la consistencia interna de los reactivos que componían la escala.

    Se han desarrollado otras técnicas, que incluyen la técnica de Cornell (Guttman, 1947), el método de cuadrados mínimos (Guttman, 1941) y la técnica de tabulación transversal (Toby y Toby, 1954), así como varias modificaciones de ellas para usarlas con equipo de procesamiento de datos y computadoras electrónicas.

    En algunas técnicas se emplean valores asignados arbitrariamente, los cuales se suman para obtener una puntuación escalar para cada sujeto; en otras técnicas no se hace así. Pueden usarse valores, pero nada se gana con ello. A Stauffer se le da crédito por el desarrollo de una técnica que no usa un sistema de valores. En esta técnica se determinan puntos de corte con respecto a reactivos de respuesta múltiple tratados en forma dicotómica al tabular transversalmente cada reactivo con todos los demás. Se desarrolló con el fin de usarse en un clasificador electrónico de tarjetas, pero puede adaptarse fácilmente para usarse con computadoras. Debido a su sencillez, este método, algo modificado, se resume más abajo. En esta técnica, como en otras que también se usan para construir escalas de Guttman, debe predecirse el orden jerárquico de los reactivos antes de que los datos sean examinados. Al reactivo más difícil (o el menos favorable) debe asignársele el rango 1, al siguiente más difícil, el rango 2,. . ., y al menos difícil, el rango n.

    De esta manera, la confianza en una escala se incrementa en la medida en que la predicción del orden jerárquico de los reactivos se fundamente en los datos. Para verificar la predicción del orden jerárquico, se determina la frecuencia de respuestas de cada categoría de respuesta con respecto a cada reactivo. Por ejemplo, si cada reactivo tiene cinco opciones de respuesta, de "completamente de acuerdo", "de acuerdo", "en duda", "en desacuerdo" y "completamente en desacuerdo", determínese la distribución de respuestas de cada reactivo y conviértanse en porcentajes acumulativos desde la más positiva hasta la más negativa.

    En el paso siguiente, esta información servirá para seleccionar los puntos de corte de los reactivos de selección múltiple que son tratados dicotómicamente. Cuando los reactivos son verdaderamente dicotómicos, por ejemplo, si-no, de acuerdo-desacuerdo, se pueden determinar directamente los porcentajes acumulativos.

    El paso siguiente es decidir lo que se considerará una ratificación (+) en cada reactivo. Generalmente, en un reactivo con las cinco opciones de respuesta anteriores, marcar ya sea "completamente de acuerdo" o "de acuerdo" se interpretaría como ratificación (+). Marcar cualquiera de las opciones restantes se consideraría como no ratificación (-) del reactivo. Con reactivos verdaderamente dicotómicos esto es muy sencillo; con reactivos de opción múltiple no lo es.

    El punto de corte de un reactivo es el punto dentro de las opciones ordenadas, que separa la ratificación de la no ratificación. En este ejemplo, el punto de corte está entre "de acuerdo" y "en duda". Hay ocasiones en que se desea trasladar el punto de corte. Esto, obviamente, cambia la proporción de sujetos que ratifican el reactivo. Al mover el punto de corte hacia abajo, aumenta el porcentaje de ratificación; al moverlo hacia arriba, disminuye.

    Existen, básicamente, dos razones para cambiar el punto de corte de un reactivo. Primero, porque puede ser conveniente cambiar la distribución marginal de los reactivos. Por ejemplo, la distribución podría ser de 20, 30, 60, 80% de ratificación, con el punto de corte entre "de acuerdo" y "en duda", con respecto a todos los reactivos. Al trasladar el punto de corte al reactivo del 30%, para incluir "en duda" como ratificación, puede convertirse ese reactivo en uno de 40%. Esta es una distribución marginal, preferible por razones que serán descritas más adelante. Segundo, al trasladar el punto de corte de un reactivo a veces es posible convertir un reactivo impropio de la escala en uno adecuado.

    Manteniendo constante, en la medida de lo posible, el punto de corte de respuesta (por ejemplo, entre las respuestas "de acuerdo" y "en duda" en el grupo de opciones anterior), el investigador debe seleccionar los reactivos que hagan máxima la distancia entre los reactivos marginales (la proporción de sujetos que ratifican el reactivo). Por ejemplo, una escala de cuatro reactivos debe contener reactivos marginales de 20, 40, 60 y 80%. Cuanto más separados estén los marginales, tanto menos probable es una inversión del orden de los reactivos del preexamen al estudio final, o en dos aplicaciones cualesquiera de la escala. Deben evitarse asimismo reactivos con marginales extremos. Los reactivos necesariamente tienen reproductibilidades iguales a la respuesta modal (ya sea + o -). Esto quiere decir que reactivos con marginales más grandes del 80% o de menos del 20% pueden infundir excesiva confianza en la factibilidad de hacer una escala del universo de contenido que se esté considerando.

    En el conjunto de reactivos de ensayo seleccionado, cada uno de aquéllos debe contrastar con cada uno de los demás para determinar si los reactivos se ajustan entre sí suficientemente para ser compatibles con el modelo de Guttman. En el caso de una relación perfecta entre dos reactivos, donde uno es más difícil de ratificar que el otro, todos los sujetos que ratifican el reactivo con el marginal más pequeño (el más difícil) deben ratificar también el menos difícil.

    El grado en que los reactivos satisfacen esta relación perfecta se refleja en la "celdilla de error" de cada tabla cuádruple (véase figura 1). Ninguna celdilla de error debe contener más del 10% del número total de sujetos. Y las celdillas de la diagonal principal (+ +) y (- -) de cada tabla deben contener al menos tantos casos como los que se encuentran en la celdilla de error (Toby y Toby, 1954). El error del reactivo es la proporción de sujetos que ratifican el reactivo más difícil pero que fallan en el reactivo más fácil.

    Una vez establecido el punto de corte de cada reactivo y su error, necesitan obtenerse los patrones de respuesta. Esto se logra determinando las respuestas de cada sujeto en todos los reactivos. La sucesión de observaciones comienza con el reactivo menos frecuentemente ratificado y continúa con los demás, en orden descendente de dificultad. Si se usa un clasificador de tarjetas y se tratan los reactivos en forma dicotómica, el primer paso de las tarjetas por la máquina producirá dos grupos de tarjetas: uno representa a los sujetos que ratificaron el reactivo (+) y el otro, a aquéllos que no lo ratificaron (-).

    Cada grupo se corre después al segundo reactivo según su grado de dificultad. Esto puede producir cuatro grupos que representan a quienes: 1. ratificaron el reactivo más difícil y el siguiente más difícil (+ +); 2. ratificaron el reactivo más difícil pero no el siguiente (+ -); 3. no ratificaron el primero pero sí el segundo (- +), y 4. no ratificaron ninguno de los dos (- -). Luego, cada uno de estos grupos se corre al reactivo con la tercera frecuencia más baja de ratificación, lo que podría generar ocho patrones de respuesta: 1. +++, 2. ++-, 3. +-+, 4. +- -, 5. -++, 6. -+-, 7. - -+, y 8. - - -. E I procedimiento se continúa hasta concluir el examen de todos los reactivos que componen la escala. El número de patrones posibles de respuesta es una función del número de reactivos.

    Con respecto a reactivos dicotómicos, el número de patrones de respuesta posibles es 2n, donde n es igual al número de reactivos. Entonces una escala de cuatro reactivos puede producir 16 patrones de respuesta (24) y una escala de ocho reactivos, 256 (28). Sin embargo, del número de patrones de respuesta posibles, solamente n + 1 son tipos perfectos o puros, es decir, patrones de respuesta que indican tal consistencia de respuesta que si se ratifica un reactivo en determinada posición escalar, todos los reactivos por debajo de él también lo serán. Por ejemplo, en una escala de cuatro reactivos, los patrones de respuesta ++++, -+++, --++, - - -+ y - - - - son tipos puros. Los otros patrones donde se advierten fallas en presentar consistencia de respuesta son tipos no escalares o de error.

 

La colocación de los Tipos de Error

 

    Habida cuenta de que, en realidad, la escala perfecta es sólo aproximada, inevitablemente existen algunos patrones de respuesta que no son tipos aptos para una escala y deben asignarse a patrones de respuesta perfectos o puros. Existen varios métodos para clasificar las respuestas no escalares.

    El primer criterio que se usa en este procedimiento es reducir al mínimo el error. En sentido estricto, el sujeto ha cometido error cuando se desvía en su patrón de respuesta del tipo escalar puro. El problema consiste entonces en colocar su patrón de respuesta en uno de los tipos escalares puros, de manera que su desviación produzca la mínima cantidad de error. Por ejemplo, usando este criterio, el patrón -+- - (del más al menos difícil, de izquierda a derecha) puede asignarse solamente al tipo escalar 0 (----). Cualquier otra asignación daría dos o más errores. Si fuera colocado en el grupo escalar 1 (-- -+), se admitirían dos errores asociados a los reactivos 2 y 4. Si se colocara en el tipo escalar 2, contendría tres errores que abarcarían los reactivos 2, 3 y 4.

    El criterio de error mínimo resolverá el problema de clasificar las respuestas no escalares cuando no sea posible más que una asignación. Sin embargo, hay patrones que pueden clasificarse en dos o más tipos escalares empleando este criterio. La respuesta +-++ podría considerarse ya sea como el tipo escalar 2 (--++), con un error asociado al primer reactivo, o como el tipo escalar 4 (++++), donde el segundo reactivo explica un error.

    En aquellos casos en que el criterio de error mínimo asigna un patrón de respuesta a dos o más tipos escalares, se han desarrollado varias soluciones. Cuando hay razón para creer en la presencia de error de respuesta sistemático en los reactivos con los marginales más grande y más pequeño, podría emplearse la técnica del valor medio, la cual confiere mayor valor a los reactivos intermedios. La decisión con respecto a la colocación de respuestas clasificadas ambiguamente, por el criterio de error mínimo, se determina con las respuestas a los reactivos intermedios. Por ejemplo, el patrón +-++ podría colocarse ya sea en el tipo escalar 2, o en el 4, con un error. Si se colocara en el tipo escalar 2, el reactivo 1, un reactivo extremo, explicaría el error. La asignación al tipo escalar 4 colocaría el error en el reactivo 2. Si el análisis de reactivos descrito anteriormente hubiera indicado que el reactivo 1 estaba sujeto a error considerable, suponer una probabilidad de error más grande en el reactivo 1 que en el 2 quedaría justificado. Por consiguiente, se tomaría la decisión, con base en la confiabilidad más grande del reactivo 2, de asignar el patrón de respuesta al tipo escalar 2, dándosele así un valor mayor al reactivo intermedio. (Henry, 1952).

   Una segunda solución de la clasificación ambigua es la técnica de valor extremo. Supuestamente puede usarse cuando se sospecha de los reactivos intermedios. En el ejemplo anterior, la respuesta +-++ se colocaría en el tipo escalar 4 cuando se usara la técnica de valor extremo en virtud de las diferentes suposiciones con respecto a la ubicación del error. (Henry, 1952).

   Una solución alterna, el método de la distribución de tipos escalares perfectos, se ha convertido tal vez en la técnica empleada más frecuentemente para clasificar patrones que se asignan a dos o más tipos escalares por medio de la solución del error mínimo. De este método, se dice que "predice las soluciones de `Distancia Latente Modificada' con mucho mayor eficiencia... (Henry, 1952)" que las técnicas de valor extremo o de valor medio y es mucho menos complejo que la técnica de distancia latente desarrollada por Lazarsfeld.

    La solución de la distribución de tipos escalares perfectos es seleccionar entre ellos los tipos escalares señalados por el criterio de error mínimo, es decir, el tipo escalar con la frecuencia mayor. Se hace el señalamiento por este tipo escalar si la diferencia entre las frecuencias de dos tipos puros es estadísticamente significativa (ji cuadrada, 1 g.l., a nivel de .10) (Henry, 1952).

    En el ejemplo el patrón +-++ podría colocarse en los tipos escalares 2 o 4 con un error. Si el tipo escalar 2 contuviera 98 casos y el tipo escalar 4 fueran 32 casos, el patrón se clasificaría como tipo escalar 2, porque ocurrió con mayor frecuencia. Cuando se usa esta técnica, el tipo no escalar se asigna al tipo puro del que tiene mayor probabilidad de desviarse.

    Otra solución al problema de clasificar los tipos no escalares cuando el criterio de error mínimo es ambiguo, es la técnica de señalamiento de la clase media, sugerida por Borgatta y Hays (1952). Esta técnica coloca un patrón ambiguo de respuesta en medio de las dos clases más extremas determinadas mediante el criterio de error mínimo. Borgatta y Hays señalan el cuidado que debe tenerse con cada una de las técnicas arbitrarias anteriores con respecto a la clasificación de patrones de respuesta no escalares; ellos recomiendan, en lo posible, el análisis de distancia latente más complejo.

 

    Métodos para estimar la Consistencia Interna

    La estimación de la consistencia interna de un conjunto de reactivos viene después de la colocación de los tipos no escalares. Como método para el propósito mencionado, Guttman (1950) propuso el coeficiente de reproductibilidad 1 - (error total de colocación/sujetos sujetos X reactivos) y fijó algo arbitrariamente un mínimo de .90 como necesario para suponer monodimensionalidad. De acuerdo con este estándar, la cantidad de error tolerado no excede al 10%.

    El coeficiente de reproductibilidad ha sido y continúa siendo la estimación más frecuentemente usada de consistencia interna, aunque sus limitaciones sean reconocidas. Como demostraron Menzel (1953) y Borgatta (1955); no se aproxima a cero  en ausencia de consistencia interna. Para entender esta debilidad basta darse cuenta que un sólo reactivo no puede tener más error que su respuesta modal. Por ejemplo, un reactivo ratificado por el 80% de los sujetos puede tener un máximo de 20% de error. De esta manera, un conjunto de reactivos sin consistencia interna tendrá, necesariamente, cierta reproductibilidad, de acuerdo con la estimación de Guttman.

    Considerándose que la reproductibilidad es una función de a) reactivos extremos, b) individuos extremos y c) la adaptabilidad de los reactivos -con respecto a los sujetos- a una escala, Menzel propuso como medida más satisfactoria el coeficiente de adaptabilidad á la escala 1 - (error total de colocación /error máximo ). El error máximo se calcula con base en la diferencia entre el total de respuestas y la suma de las categorías modales ya sea de los reactivos o de los sujetos. La menor de las dos diferencias se usa para estimar el valor máximo, al parecer para evitar la sobreestimación de la consistencia interna. Menzel indica que el límite inferior de un coeficiente satisfactorio de adaptabilidad a la escala se encuentra .60 y .65.

    El coeficiente de adaptabilidad a la escala, de Menzel, es una dudosa mejora sobre el coeficiente de reproductibilidad pues posee las mismas limitaciones. Como demostró Borgatta, el índice de Menzel también fracasa en aproximarse a cero en ausencia de un contenido común en los reactivos.

    Borgatta propuso, como sustituto, la proporción de error: Este índice varía de cero a uno y puede compararse a las proporciones de error de otras escalas. La proporción de error es la "proporción de errores en la escala dividida entre el número máximo de errores en una escala con las mismas frecuencias marginales" (Borgatta, 1955). El número máximo de errores se calcula utilizando la ley de probabilidades independientes para determinar las frecuencias esperadas de cada tipo no escalar, a partir de las marginales de cada reactivo.

    Así, para determinar la frecuencia esperada del tipo escalar 4 (++++), en una escala de cuatro reactivos con marginales de 20, 40, 60 y 80% se multiplican los marginales (.20 X .40 X .60 X .80), para obtener la proporción esperada en el tipo escalar (en este caso .0384), la cual a su vez se multiplica por el número de sujetos, En cuanto a los tipos no escalares, la frecuencia esperada debe multiplicarse por el número de errores de señalamiento, para determinar la suma de estos errores con respecto a la distribución esperada. Esta suma se usa como número máximo de errores.

    Por ejemplo, en una escala de cuatro reactivos con marginales (la proporción de respuestas de +) de 20, 40, 60 y 80% , la frecuencia esperada del patrón de respuesta -+-- se determina multiplicando la proporción de respuesta de - (.80), para el primer reactivo, por la proporción de respuestas de + (.40) para el segundo reactivo, por la proporción de respuestas de - (.40) para el tercer reactivo, por la proporción de respuestas de - (.20) para el cuarto reactivo. Este producto (.026) se multiplica después por el número total de sujetos (N) para determinar el número de éstos de quienes se espera tengan el tipo no escalar -+--. La frecuencia esperada debe multiplicarse después por el número de errores de correlación. En este caso el patrón -+-- puede asignarse al tipo escalar 0 (- - - -) con un error. Por tanto, el número total de errores de colocación esperados con respecto a este patrón de respuesta, suponiendo que N sea 2 000 es:

(.80) (.40) (.20) _ .026
.026 X 2000 = 52
52x1=52

    Este procedimiento se sigue con cada tipo escalar; y la suma de los errores de colocación esperados con respecto a los tipos no escalares se usa como número máximo de errores en la computación de la proporción de error,

número de errores
número máximo de errores

donde el número de errores es la suma de errores de colocación observados. Por tanto, la proporción de error será de 1.00 cuando el número de errores de colocación sea igual al número máximo de errores y será 0.00 cuando no haya errores de colocación.

    Consecuentemente, cuanto menor es la proporción, tanto mayor es la consistencia interna. La proporción de error parece que significa una mejora determinante con respecto al coeficiente de reproductibilidad y al coeficiente de adaptabilidad a la escala. Sin embargo, acaso deba usarse la proporción de error junto con la medida de Guttman, en beneficio de quienes no están familiarizados con el índice de Borgatta.

 

    Pruebas significativas

    Ninguna de las anteriores estimaciones de consistencia interna -el coeficiente de escalabilidad, el coeficiente de reproductibilidad, y la proporción de error- son pruebas de importancia estadística. Los problemas de la estabilidad de los datos o de si los patrones observados son o no resultado del azar, no se han resuelto satisfactoriamente, aunque varios investigadores han dedicado sus energías a buscar una solución. Intentos notables han sido realizados por Sagi (1959), Goodman (1959), Schuessler (1961) y Chilton (1966).

    El problema ha sido atacado de varias maneras, desde el punto de vista de una prueba significativa de ji cuadrada (Schuessler) hasta la demostración, por medio de datos generados por computadoras, de que los coeficientes de reproducibilidad están distribuidos normalmente (Chilton).

    Como lo indicaron Sagi y Chilton, deben hacerse estas pruebas antes de la depuración de una escala, pues primordialmente sirven de instrumentos para determinar qué posibilidad de éxito tendrán los esfuerzos ulteriores para desarrollar una escala a partir de un conjunto de reactivos. Las distribuciones de muestreo de estos índices constituye uno de los aspectos de la elaboración de escalas, de Guttman, que todavía no se ha desarrollado. La clarificación de estas distribuciones de muestreo es indispensable; y una contribución decisiva a nuestro conocimiento de la medición de actitudes será el establecimiento de dichas distribuciones.

subir índice

Artículo Julio 2008

LA TÉCNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD

 

    Análisis de intensidad

    Cómo diferenciar los personas "favorables" de las `desfavorables". En virtud de que la opinión acerca del libro Una Nación de Naciones es suficientemente factible de ser medida, es significativo decir que a un estudiante el libro le parece mejor que a otro. Existe una ordenación jerárquica significativa de los estudiantes de acuerdo con su opinión del libro. Este orden se expresa por las puntuaciones escalares asignadas en el segundo ensayo. Un estudiante con una puntuación más alta que otro expresa las mismas cosas o mejores acerca del libro (dentro del error escalar).

    Existe una pregunta ulterior de sumo interés para el investigador. Dado que los individuos pueden ser ordenados de acuerdo con su grado de favorabilidad ¿hay algún punto de corte en este orden jerárquico, de tal manera que podamos decir que todas las personas a la derecha de ese punto son "favorables" y todas las personas a la izquierda son "desfavorables"? Una persona puede ser más favorable que otra, no obstante que ambas sean favorables. La sola obtención de un orden jerárquico no distingue entre ser favorable o desfavorable; meramente refleja que se es más favorable y menos favorable y no dice si se ha alcanzado un punto después del cual el ser menos favorable significa realmente ser "desfavorable".

    Se da una respuesta objetiva a este problema mediante la función de intensidad.

    La teoría del análisis de intensidad será explicada con todos sus pormenores en la próxima publicación de la División de Investigación. Para nuestros propósitos, todo lo que necesitamos saber es que proporciona una solución al problema tradicional de la "disposición". No importa cómo sean expresadas o "cargadas" las preguntas, el uso de la función de intensidad dará al grupo la misma proporción de favorable y desfavorable. La función de intensidad establece un punto cero invariante para actitudes y opiniones.

 

    Hay varias técnicas para obtener la intensidad de un cuestionario. La primera es la técnica de doblar y la segunda, la de bipartición. La técnica de doblado es teóricamente menos admisible que la de bipartición. Tiene sin embargo, algunas ventajas prácticas en ciertos casos.

 

    La técnica de doblar. La técnica de doblar consiste sencillamente en recalificar el contenido de las preguntas para obtener una puntuación de Intensidad. Esto es muy fácil, a causa de la forma de la pregunta empleada para estudiar las opiniones sobre Una Nación de Naciones. Se asignan los siguientes pesos a la lista de confrontación de respuestas: "Completamente de acuerdo" y "Completamente en desacuerdo" reciben un valor 2; "De acuerdo" y "En desacuerdo" reciben el valor 1; y "En duda" recibe el valor 0. Estos valores pueden escribirse en tiras de papel para poder ponerlos en la tabla 1 y agregarlos allí para obtener así una puntuación de intensidad para cada persona.

    Así, las respuestas aparentemente más intensas reciben valores mayores; y las aparentemente menos intensas reciben valores menores, independientemente de que las respuestas parezcan "favorables" o "desfavorables".

  Valorar así las respuestas significa que, para obtener una puntuación de intensidad, combinamos, de hecho, los extremos opuestos de la lista de confrontación, de modo que no hay sino tres categorías (combinadas) de intensidad por pregunta. La intensidad, obtenida por este medio, no es en general factible de ubicarse en una escala. En vez de ello, forma lo que se llama una "quasi" escala. En una "quasi" escala no hay ninguna relación exacta entre la respuesta de una persona a cada pregunta y su puntuación en todas las demás; en su lugar, hay un gradiente. Cuanto mayor es la puntuación de una persona, tanto más probable es que dé una respuesta altamente valorada en cada reactivo, pero no existe la clara certeza de que así ocurra en el caso de una escala. Tal puede advertirse en nuestro ejemplo. Al arreglar los datos en un escalograma, de acuerdo con la puntuación total de intensidad, obtenemos la configuración que se ofrece en la tabla 4. Cada pregunta tiene ahora tres categorías que representan los tres pasos de intensidad. Hay un gradiente de densidad de las respuestas. No hay líneas definidas en las columnas de las categorías y, no obstante, disminuyen gradualmente las densidades que mezclan una categoría con la siguiente. La combinación de categorías no producirá, sin embargo, un patrón mensurable.

 

    De acuerdo con la teoría básica del análisis de intensidad, ésta debe ser una variable perfectamente mensurable por escala. Las ecuaciones del análisis escalar muestran que, en toda escala de contenido, hay un segundo componente que es una función de las puntuaciones escalares en forma de U o J. Este componente se ha identificado como la función de intensidad de la escala de contenido. Lo que intentamos hacer es obtener esta intensidad por medio de métodos empíricos directos. El hecho de que nuestra intensidad observada no sea perfectamente mensurable por escala muestra que no es la intensidad intrínseca pura lo que estamos buscando. Tampoco se ha encontrado ninguna manera perfecta de obtener la intensidad; pero se logran resultados satisfactorios hasta con técnicas de intensidad imperfectas. En vez de una función perfecta de intensidad, obtendremos una en la que es posible obtener un error considerable en su relación con las puntuaciones de la escala de contenido.

    Trazo de la intensidad en contraste con el contenido. La función empírica de intensidad se obtiene ordenando las puntuaciones de intensidad resultantes en contraste con las puntuaciones de contenido, obtenidas en la sección anterior durante el segundo ensayo de contenido. El diagrama de dispersión se presenta en la tabla 5. La frecuencia, en letras cursivas, en cada columna de la tabla 5, corresponde a la posición de la mediana de intensidad de las columnas respectivas. Si se estuviera midiendo la intensidad intrínseca pura con esta técnica, no habría dispersión alrededor de estas medianas; pero la intensidad sería entonces una función perfecta de las puntuaciones de contenido en forma de U o J. No obstante la presencia de error, la forma aproximada de la función verdadera de intensidad es clara a partir de la forma de la curva que pasa por las medianas de las columnas. La curva desciende desde la derecha, o sea de las puntuaciones más favorables de contenido, alcanza su punto más bajo en el segundo intervalo de la izquierda (puntuaciones de contenido de 3-5) y después vuelve a elevarse en el primer intervalo de la izquierda. En consecuencia, las puntuaciones de contenido 3-5 deben formar el intervalo aproximado que contiene la puntuación 0 de la actitud. Puede decirse que los estudiantes a la izquierda de este intervalo tienen actitudes negativas hacia el libro de texto y los que están a la derecha tienen actitudes positivas hacia él. Los estudiantes en el intervalo 3-5 no pueden dividirse en positivos y negativos sin la ayuda de preguntas adicionales que hagan distinciones más precisas entre sus rangos.

    Con base en la tabla 5 podemos concluir, entonces, que aproximadamente a 8 estudiantes no les gustó el libro de texto, a 35 sí les gustó, mientras que 7 estudiantes mantuvieron una posición intermedia. Esta división de los estudiantes en actitudes favorables y desfavorables no depende de la manera particular como se expresaron las preguntas. La misma curva de intensidad, con la misma proporción a la derecha y a la izquierda del punto cero, se habría obtenido si hubiéramos usado otras preguntas u otra forma de expresarlas, con tal que éstas fueran susceptibles de medición escalar con las preguntas presentes.

    Necesidad de una muestra más grande de personas. Es preciso hacer una advertencia importante. El ejemplo empleado debe considerarse muy afortunado para los fines de esta exposición. Ciertamente es raro encontrar un error tan bajo como el que tenemos en la función de intensidad, lo cual da margen a que aparezcan claramente la curva de intensidad y el punto cero con base en una pequeña muestra de 50 casos. En general, es muy difícil que esto suceda. Para realizar sobre seguro un análisis de intensidad, cuando hay un error sustancial -que es el caso habitual- generalmente se necesitan de uno a tres mil casos para obtener medianas estables. Para realizar el análisis de escalograma es también más seguro utilizar más de 50 casos. Lo deseable es utilizar un mínimo de cien casos en el pre-test, así como una docena de reactivos o poco más o menos, en lugar de los siete de nuestro ejemplo. Si el pre-test ha demostrado que para el universo de reactivos es factible hacer una escala, debe hacerse el estudio final con el número acostumbrado de casos que se emplean en las encuestas de opinión, en caso de que se quieran obtener resultados confiables con respecto a la intensidad. La hipótesis de factibilidad de la escala puede probarse en pre-test con un número relativamente pequeño de personas teniéndose en cuenta su carácter especializado. Sin embargo, las proporciones de la población en un rango dado o a un lado del punto cero están sujetas al error de muestreo ordinario; para llegar a resultados confiables con respecto a ellas, deben usarse muestras más grandes.

 

    Desventajas de la técnica de doblar. La técnica de doblar aplicada ala intensidad tiene dos desventajas teóricas, así como álgunas de orden práctico. Primero, las puntuaciones obtenidas por medio de ella no son independientes, experimentalmente, de las puntuaciones de contenido, pues se sirven de las mismas respuestas con respecto a ambas puntuaciones. Esto puede producir una relación algo espuria entre aquéllas. Segundo, se supone que "Completamente de acuerdo" y "Completamente en desacuerdo" son aproximadamente iguales en intensidad y opuestas en dirección; y lo mismo puede decirse de "De acuerdo" y "En desacuerdo", mientras que se supone que "En duda" está aproximadamente en el punto cero. Dichas suposiciones no necesitan ser ciertas en forma absoluta. De hecho, la falsedad ocasional de estas suposiciones es una contribución al error de las puntuaciones de intensidad obtenidas.

    Si las suposiciones fueran verdaderas, las cosas serían mucho más fáciles para los investigadores. No sería necesario formular una serie de preguntas para obtener un intervalo de cero, porque la categoría "En duda", con respecto a cualquier pregunta, suministraría tal intervalo. Pero claro está que en una serie de preguntas sobre el mismo asunto las personas que están "En duda", sobre una pregunta, pueden estar "De acuerdo" en otra. Únicamente porque no podemos interpretar la inclinación de una pregunta al examinar su contenido, es que una técnica como esa necesita de la función de intensidad.

    No obstante que la técnica de doblar posea dos desventajas teóricas, parece promediar los errores implícitos en la violación de las suposiciones anteriores y suministrar una curva adecuada de forma U o J en muchos casos.

    Se le ha encontrado una desventaja práctica a la técnica de doblar, en las situaciones de entrevistas de personas en la calle, donde las personas evitarían casi en absoluto las categorías "Completamente", de modo que no podría obtenerse mucha diferenciación de intensidad. En tal caso es necesaria una técnica de bipartición. Una ventaja de la técnica de doblar sobre la técnica de bipartición es que requiere menos espacio y tiempo para la aplicación de los cuestionarios.

subir índice

Artículo Junio 2008

LA TECNICA CORNELL PARA EL ANÁLISIS DE ESCALAS Y DE INTENSIDAD

 

    La representación de la gráfica de barras

    La técnica de Cornell es un procedimiento para probar la hipótesis de que un universo de datos de cualidades es una escala con respecto a determinada población de personas, por el método de escalograma. Extendiéndose su uso a probar la hipótesis de qué los datos forman una "cuasi" escala. De las varias técnicas existentes para análisis de escalograma, la descrita aquí parece ser una de las más sencillas y convenientes para uso general. No requiere equipo especial; se vale de sencillos procedimientos de oficina, que pueden ser realizados cómodamente por personas sin preparación estadística.

   Las diversas técnicas mencionadas realizan el mismo trabajo, puesto que usan la misma teoría del escalograma; difieren solamente en la manera de llevarla a la práctica.

    En una primera técnica se emplearon las complicadas computaciones de los cuadrados mínimos. El procedimiento empleado por la División de Investigación de la Universidad de Pennsylvania involucra el uso de tablas de escalograma, inventadas especialmente por el autor para este propósito; estas tablas son sencillas de calcularse y fáciles de operar. Otro miembro de la División de Investigación ha inventado una técnica de tabulación.  La técnica de Cornell fue inventada por el autor, al principio con fines didácticos, pero posteriormente ha demostrado su utilidad en propósitos generales de investigación.

    Los pasos iniciales son comunes a todas. Se comienza definiendo el universo de contenido que se va a estudiar. En un estudio de actitud u opinión, esto significa decidir el contenido general de las preguntas que se van a formular. Como segundo paso, se define la población de individuos. En una encuesta de actitud u opinión significa la delimitación de la clase de personas que se van a entrevistar.

    Vienen inmediatamente dos tipos de problemas de muestreo. Uno es el problema ordinario del muestreo aleatorio de personas y otro, el muestreo de reactivos. En estos dos problemas es conveniente distinguir entre la etapa de pre-test de un estudio y la encuesta final. Pueden emplearse mucho menos personas en el pre-test que en la encuesta final; pero pueden usarse menos reactivos en ésta y más en el pre-test.

    En el pre-test de una encuesta, alrededor de 100 personas constituyen por lo común una muestra adecuada de la población para probar la hipótesis de factibilidad de la escala. Si se acepta la hipótesis, los reactivos pueden usarse entonces en el estudio final de 3,000 personas generales poco más a menos, para obtener proporciones confiables dentro de cada rango escalar.

    El otro problema de muestreo es de naturaleza completamente diferente; consiste en muestrear el universo de contenido. En una encuesta de actitud u opinión se hace elaborando algunas preguntas que tienen el contenido general requerido. En un pre-test, cerca de una docena de preguntas constituyen generalmente un muestreo adecuado de contenido. Toda vez que las preguntas son elaboradas por los investigadores, no encajan en ningún esquema estándar de muestreo aleatorio y la teoría estándar de este muestreo no se aplica en este caso. En su lugar, la teoría del análisis escalar muestra que casi cualquier muestra de alrededor de una docena de preguntas tomadas del universo es adecuada para probar la hipótesis de que el universo es factible de ser evaluado por escala, con tal que la amplitud de contenido deseada sea cubierta por las preguntas. Si se acepta la hipótesis de que es posible una escala para ese universo, podrán usarse menos preguntas en el estudio final en caso de que se necesiten efectivamente menos rangos para los propósitos de la investigación.

    Habiendo definido el universo de contenido y la población de individuos y habiendo sacado una muestra de cada uno, el quinto paso es observar a cada persona de la muestra en cada reactivo o pregunta de la muestra de estos. En una encuesta de actitud u opinión, en que se usan cuestionarios, lo anterior quiere decir que cada persona da sus respuestas a cada pregunta del cuestionario.

    La hipótesis de factibilidad de lo escala. El problema ahora es probar la hipótesis, con base en los datos de la muestra de prueba, de que el universo entero de reactivos forma una escala con respecto a la población de individuos. Revisemos lo que implica esta hipótesis para entender lo que trata de hacer la técnica de análisis.

    Se dice que el universo es mensurable por escala con respecto a la población si es posible ordenar a las personas de mayor o menor, de manera que a partir del rango de una persona solamente podamos reproducir su respuesta a cada uno de los reactivos de un modo sencillo. Se entiende que en la práctica no se espera encontrar escalas perfectas. Se considera que los datos son suficientemente adaptables a la es-escala si son reproductibles en cerca del 90% y si se satisfacen otras condiciones (que serán explicadas posteriormente). Para mayor claridad, sin embargo, consideremos primero una escala hipotética perfecta.

    Supongamos que una pregunta perteneciente al universo, concerniente a cierto asunto político, es formulada a una población y que las respuestas son las siguientes:

   Si "En desacuerdo" significa una opinión más favorable que "En duda" y "En duda" más favorable que "En desacuerdo", y si el universo es perfectamente adaptable a una escala, lo siguiente debe ser verdadero. El 60% superior de la gente debe estar formado por quienes contestaron "De acuerdo"; el siguiente 10%, por quienes contestaron "En duda"; y el 30% inferior, por quienes contestaron "En desacuerdo". Si se formula otra pregunta de este universo mensurable por escala y las respuestas son un 20% de "Si"' y un 80% de "No", y si "Sí" indica una respuesta más favorable que "No", entonces el 20% superior de las personas debe haber dicho "Si"' y el 80% inferior debe haber contestado "No". Del rango de una persona podemos deducir ahora cuál debe ser su respuesta a cada una de estas dos preguntas. Cualquier persona en el 20% superior de la población debe haber contestado "De acuerdo" a la primera pregunta y "Sí" a la segunda. Cualquier persona por debajo del 20% superior, pero no por debajo del 60% superior, contestó "De acuerdo" a la primera pregunta y "No" a la segunda. Cualquier persona por debajo del 60%° superior pero no del 70 contestó "En duda" a la primera pregunta y "No" a la segunda, y las personas restantes, el 30% inferior, contestaron "En desacuerdo" a la primera pregunta y "No" a la segunda.

   Las diferentes técnicas de análisis de escalograma son procedimientos para encontrar el orden jerárquico de las personas que reproducirán mejor las respuestas de éstas a cada uno de los reactivos. Si el universo fuera una escala perfecta, todas las técnicas requerirían poco trabajo y no habría mucho que escoger entre ellas. Es la presencia de la imperfecta reproductibilidad lo que plantea el problema de la técnica.

   La técnica de Cornell opera por aproximaciones sucesivas. Generalmente sólo son necesarias dos aproximaciones para rechazar o aceptar la hipótesis de factibilidad de la escala. Se establece un primer orden jerárquico de las personas mediante un esquema sencillo de calificación. Con propósitos ilustrativos, desarrollaremos en detalle un caso real. Este ejemplo no debe considerarse un modelo de investigación perfecta, sino tan sólo una ilustración de los pasos que se seguirán.

   Un ejemplo de la técnica de Cornell. Se deseaba saber si los estudiantes de cierta clase sobre relaciones raciales tenían una actitud que pudiera medirse hacia uno de sus libros de texto, Una Nación de Naciones, de Louis Adamic. Se elaboró un cuestionario de siete preguntas y se aplicó al grupo de 50 estudiantes. Tanto el número de preguntas como el de estudiantes fueron menores a los que se emplean ordinariamente en un pre-test; y se usan aquí por la única razón de que estos pequeños números permiten desplegar los datos completos.

    Las siete preguntas fueron las siguientes: Una Nación de Naciones

    Preguntas

    1.- Una nación de Naciones hace un buen análisis de los grupos étnicos de ese país.

    Completamente de acuerdo.- 4. De acuerdo.- 3. En duda.- 2. En desacuerdo.- 1. Completamente en desacuerdo.- 0

    2.- En general, Una Nación de naciones no es tan bueno como la mayoría de los libros de texto universitarios.

    Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en descuerdo.- 4

    3,- Adamic organiza y presenta perfectamente su material.

    Completamente de acuerdo.- 4 De acuerdo.- 3 En duda.- 2 En desacuerdo.- 1 Completamente en desacuerdo.- 0

    4.- Como tratado de sociología el libro de Adamic no tiene mucho valor.

    Completamente de acuerdo - 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4

    5.- Adamic no estudia ningún grupo con suficiente detalle para que el estudiante pueda lograr una comprensión real de los problemas de las relaciones de los grupos étnicos de ese país.

    Completamente de acuerdo.- 0 De acuerdo.- 1 En duda.- 2 En desacuerdo.- 3 Completamente en desacuerdo.- 4

    6.- Al ofrecer un panorama de los diferentes grupos, Una Nació