Archivo 2007

Virgen de Loreto

Patrona de la Aviación

Este espacio está reservado para los artículos ya publicados

 Índice General Artículos

Artículo diciembre 2007

LOS VALORES ESCALARES

   UN CRITERIO OBJETIVO DE INADECUACIÓN

    En la medida de lo posible, se han probado de forma objetiva este tipo de procedimientos; y se han retenido de forma intencionada algunas aseveraciones de opinión que eran abiertamente ambiguas o de la misma manera inadecuadas para una escala de actitud. Estas se han probado determinar en qué grado podían eliminarse por métodos objetivos. Difícilmente se llegaría a elaborar una escala de actitud útil, aplicando mecánicamente reglas de objetividad. Se puede vaticinar que prevalecerá indefinidamente cierta libertad en lo que concierne a los juicios de los investigadores; pero estos métodos únicamente alcanzarán éxito en la medida en que los juicios individuales del investigador, sobre material de esta clase, puedan comprobarse de modo objetivo.

    El criterio de ambigüedad denota la extensión de una aseveración sobre la escala subjetiva de intervalos aparentemente iguales. Si 300 sujetos colocan una aseveración de opinión en intervalos muy diferentes de la escala citada, el valor Q de aquélla será grande y, por consiguiente, según este criterio objetivo, se la considerará ambigua, pues demuestra tener significados en extremo diversos, para los diferentes sujetos, a lo largo de la escala de actitud. De más está decir que aseveraciones así deben eliminarse. Por simple examen, es posible afirmar en general si una aseveración tendrá un valor Q grande, Es de observarse que este valor de una opinión no refleja las opiniones efectivas que los sujetos mantengan sobre el asunto en consideración. Estos únicamente clasifican las aseveraciones conforme a la actitud que encuentren en aquéllas, sin expresar de modo alguno sus propias actitudes.

    Por otra parte, el criterio de inadecuación atiende a los registros de los votos efectivos. La lista completa de 130 afirmaciones se imprimió y luego se expuso a los 300 sujetos, a quienes se pidió marcar las opiniones que aprobaran o con las cuales estuvieran de acuerdo, y que dejaran en blanco las restantes. Se pasó después a estudiar las respuestas en lo referente a su consistencia interna. Cuando encontramos gran inconsistencia, la atribuimos al descuido de los sujetos que acaso hacían sus marcas al azar, o a defectos de las propias aseveraciones. En los experimentos presentados se encuentran cierta cantidad de inconsistencia a lo largo de toda la lista; podemos atribuirla, indudablemente y por lo menos en parte, a los sujetos mismos. Pero las inconsistencias varían con la aseveración seleccionada como base de comparación de las restantes; y tales diferencias se deben, principal y evidentemente, a defectos de las aseveraciones mismas. Así se han considerado; y se desarrolla un criterio de inadecuación que puede usarse ampliamente para eliminar las afirmaciones inadecuadas de la escala.

    Este criterio se desarrolla como sigue: supongamos que una afirmación de poca ambigüedad se ubica correctamente en el punto 6 de la escala. Si un sujeto tiene una actitud que también se colocó correctamente en el punto 6 de la escala, entonces esperamos que marque esa afirmación. Otro sujeto, que se colocó en el punto 12, con menor probabilidad marcaría esa afirmación; de manera similar habría una probabilidad pequeña de que un sujeto en el punto 0 marcara la aseveración colocada en el 6 de la escala. Para hacer este tipo de análisis cuantitativo, se ha desarrollado un índice más bien neto de semejanza, que se basa en la votación de un número grande de sujetos. El índice de semejanza de un par de aseveraciones se basa en tres hechos, a saber, na = total de sujetos que ratifican la aseveración a en la comparación; nb = número total de sujetos que ratifican la afirmación b en la comparación; nab = número total de sujetos que ratifican tanto a como b.

    Si las dos aseveraciones a y b son prácticamente iguales en cuanto a las actitudes que reflejan, entonces esperamos encontrar que los sujetos que ratifican la afirmación a también ratificarán la b. Por consiguiente, este factor nab será el numerador del índice de semejanza. Por otra parte, las aseveraciones varían considerablemente en popularidad intrínseca aun cuando sean colocadas en puntos idénticos de la escala. Cuanto más popular es una aseveración, tanto mayor es el número de personas que la ratifica, pero no así cualquier otra. Para reducir el índice de semejanza a la misma base de popularidad en todas las aseveraciones, se divide el número de sujetos que ratifican ambas aseveraciones entre el producto del número total de ratificaciones con respecto a cada una de las dos aseveraciones, de manera que el índice de semejanza es

nab/na• nb

    Si tabulamos los índices de la aseveración a con cada uno de las demás en forma sucesiva, tendremos el factor común 1/na que puede descartarse, pues es una constante. Entonces tendremos:

   índice de semejanza de la aseveración: a = Ca = nab/nb

   Este índice sirve para comparar la aseveración a con cada una de las demás. Es evidente que el valor máximo posible de este índice es la unidad y su valor mínimo, cero. Cuando todas las personas que ratifican la aseveración a también ratifican la k, el índice de semejanza es la unidad como debería ser porque las dos aseveraciones son entonces evidentemente muy semejantes en las actitudes que reflejan. Si, por otra parte, ninguno de los que ratifican la aseveración a ratifica la k, entonces el índice es cero; esto se deduce de que las dos aseveraciones son entonces evidentemente muy diferentes en cuanto a las actitudes que describen.

    En la figura 1 tenemos una representación gráfica de los índices de semejanza de la aseveración 96 con cada una de las demás, y en contraste con el valor escalar de cada una de ellas. El valor escalar de la aseveración 96 se indica por la pequeña flecha sobre la línea superior del diagrama. Su índice de semejanza consigo misma, en condiciones ideales, sería la unidad. Se observa inmediatamente que los índices de la aseveración 96, con cada una de las demás aseveraciones, son muy bajos cuando éstas están alejadas de ella. Y esto es precisamente lo que se esperaba. Dicho de otra manera, quienes ratificaron la aseveración 96, que se colocó en 10.5, no ratifican a menudo las aseveraciones que están en los intervalos de clase cuatro o cinco, en el otro extremo de la escala. Los índices son más altos cuando la segunda aseveración se acerca al valor escalar de la aseveración 96. Cada círculo pequeño en este diagrama representa el índice de semejanza entre la aseveración 96 y otra, y está colocado inmediatamente por encima del valor escalar de esa segunda aseveración.

    El criterio de inadecuación se manifiesta en el diagrama entero. Cuando los índices de semejanza son relativamente altos, cerca del valor escalar de la aseveración común o primera, y relativamente bajos para las aseveraciones que están lejos de dicha aseveración, la primera aseveración se considera satisfactoria. Esto significa sencillamente que no es tan probable que las personas que ratifican la aseveración 96 ratifiquen también las aseveraciones que están más alejadas del valor escalar 96. El aspecto de la figura 1 se considera satisfactorio y por consiguiente se conserva la afirmación 96.

    Veamos un análisis semejante de una aseveración que fue descartada por el criterio de inadecuación. En la figura 2 aparecen los índices de semejanza de la aseveración 23. El valor escalar de esta aseveración también se indica por una pequeña flecha sobre la línea superior del diagrama. Considérese el pequeño círculo en el extremo izquierdo del diagrama. Es el índice de semejanza entre la aseveración 23 y la 101, que tiene un valor escalar de .02. El índice es de .56. Los otros círculos se ubicaron de manera semejante y representan el grado de semejanza entre la aseveración 23 y cada una de las demás.

    Observese que las personas que ratifican la aseveración 23 ratifiquen tanto las afirmaciones en cualquier extremo de la escala como las próximas a la afirmación 23. Los puntos se dispersan más o menos horizontalmente en el diagrama. Esto indica que hay algo fundamentalmente erróneo en la aseveración 23 como índice de una actitud particular en la escala. Dicho de otra manera, si una persona ratifica esta afirmación no podemos decir nada acerca de su actitud hacia la iglesia, porque es probable que ratifique no solamente las afirmaciones dentro del intervalo de clase 4-5, sino también las que están en los extremos de la escala, hasta donde puede juzgarse por la propia afirmación 23. La aprobación de esta aseveración no nos ayuda, sin embargo, a ubicar al sujeto en un punto de la escala.

    En la aseveración original se afirmaba lo siguiente: "Estoy interesado en una iglesia que es bella y que destaca el lado estético de la vida". Ahora podemos ver por qué esta afirmación es inadecuada para la variable de actitud que intentamos medir. Sin duda, el miembro devoto de la iglesia puede ratificar conscientemente esta afirmación, pues le interesa que la iglesia sea bella. Pero el ateo también puede ratificar la aseveración porque pueden interesarle los edificios bellos, incluyendo las iglesias, y asimismo interesarle la música religiosa aunque no tome en serio las funciones inherentes a la iglesia. La actitud reflejada por la afirmación 23 no es válida, por consiguiente, como índice de la variable de actitud que está implícita en la lista de aseveraciones como un todo. El hecho de que los índices de la figura 2 se dispersen más o menos horizontalmente a través de la escala entera constituye la razón objetiva para descartar la aseveración 23.

 

    Veamos otras muestras que revelan el criterio de inadecuación en otras aseveraciones. En la figura 3 se han dibujado los índices de semejanza dé la aseveración 7. Esta aseveración se colocó en el 8.2 de la escala y los índices tienen valores muy bajos en el otro extremo de la misma. Por consiguiente, esta aseveración se retuvo en la escala final.

   La figura 4 presenta un dibujo semejante para la aseveración 113 donde los índices de semejanza tienen valores bajos para las segundas aseveraciones en la mitad superior de la escala. Todos los índices están por encima de .90 en varios de los primeros intervalos de clase. Por consiguiente, la afirmación se conservó para la escala final.

    La figura 5 muestra un dibujo semejante para la afirmación 49. Aquí nuevamente los índices se dispersan más o menos horizontalmente a través de la escala entera y, por consiguiente, se descartó la afirmación 49. Veamos la aseveración original. Dice lo siguiente: "Yo creo que uno no tiene que pertenecer a la iglesia para ser religioso". Es muy posible que un miembro devoto de la iglesia ratifique esta afirmación. También es posible que la persona no religiosa la ratifique como una aseveración de hecho, aunque no tenga interés en la iglesia ni en la religión. Es de esperarse que la proporción de ratificaciones a esta aseveración sea más alta en el extremo contrario de la escala y aso es lo que encontramos en la figura 5, pero la discriminación no es de ninguna manera suficiente. Los índices tienen aproximadamente el mismo nivel a lo largo de la escala y, por consiguiente, se descarta la aseveración.

   La figura 6 presenta una discriminación satisfactoria para la aseveración 50 porque los índices están por encima de .90 próximos al valor escalar de la aseveración 50, señalado por la pequeña flecha, y descienden a valores inferiores en el otro extremo de la escala. Por tanto la afirmación se conserva.

   La figura 7 es la gráfica de la afirmación 9, la cual se descarta porque los índices de semejanza no presentan suficiente variación en las diferentes partes de la escala. En efecto, la afirmación dice: "No creo que ir a la iglesia perjudique a nadie". Aquí, podemos suponer otra vez, fácilmente, que el miembro devoto de la iglesia reconocerá la verdad de esta afirmación. El votante contrario a la iglesia también esté posiblemente dispuesto a reconocer que asistir a la iglesia no perjudica a nadie. Este último grupo no ratificará con tanta facilidad la aseveración como el primero; pero el examen del diagrama indica claramente que la discriminación es insatisfactoria. Las personas, a través de toda la escala, ratifican esta aseveración aunque tengan sentimientos o ideas completamente diferentes para hacerlo. La simple ratificación de esta aseveración no nos ayuda a ubicar al votante en la escala; y es por esto que la aseveración se considera inadecuada para la escala, la cual está representada por la lista entera de aseveraciones.

    Indudablemente sería posible cuantificar el criterio de inadecuación de manera mejor. Sin embargo, es conveniente esperar a que se tenga una formulación más general.

    Se han unificado dos criterios objetivos para la selección y ubicación de las aseveraciones de opinión, que son: el criterio de ambigüedad, ó sea el valor Q, que se basa en el grado de uniformidad en la clasificación de las aseveraciones, y el criterio de inadecuación, que se basa en la consistencia de la votación o ratificación efectiva. Estas dos partes fueron realizadas en dos grupos diferentes de sujetos.

    Una aseveración puede ser clasificada uniformemente por todos los sujetos y, no obstante, ser declarada inapropiada por el criterio de inadecuación. Esto se explica de la siguiente manera: cuando leemos una aseveración y después juzgamos la actitud que representaría, podemos concordar completamente y entonces le asignamos un valor Q, bajo, a la aseveración. Cuando pedimos a los sujetos que ratifiquen ésta, encontramos que algunos que difieren ampliamente en sus actitudes tienen razones muy diferentes para hacerlo. Esto es particularmente probable cuando la aseveración puede considerarse ya como una expresión de actitud, ya como descripción de un hecho. Por ejemplo, el devoto de la iglesia probablemente no apoye la aseveración "Ir a la iglesia no perjudica a nadie". Una persona que apoye espontáneamente esa aseveración no es probable que sea un devoto de la iglesia. La situación es muy diferente cuando la aseveración es elaborada por algún otro y presentada para ratificación como si fuera verdadera o falsa. En tal situación, el devoto de la iglesia puede reconocer la aseveración como verdadera, aunque naturalmente no expresa con ello sus propias actitudes. Esta distinción entre lo que decimos espontáneamente al expresar nuestras actitudes y lo que estamos dispuestos a reconocer o ratificar cuando es expresado por algún otro, probablemente explique el hecho de que el criterio de ambigüedad y el criterio de inadecuación no siempre eliminan las mismas aseveraciones.

    De manera ideal, la escala debería construirse quizá solamente por medio de votación. Es posible plantear el problema de modo que los valores escalares de las aseveraciones puedan extraerse de los registros de votación efectiva. Si esto fuera posible, el procedimiento presente para establecer los valores escalares por clasificación sería inútil.

    CRITERIOS INFORMALES PARA LA SELECCIÓN DE OPINIONES

    En esta escala de actitud, se han formulado una lista de criterios informales que se usarán en la construcción de futuras escalas de actitudes. Por medio de estos criterios se encuentra que muchas de las opiniones de la escala experimental presente son defectuosas, y hay que tenerlas presentes al comenzar la construcción de nuestra propia escala, que no tenga, hasta donde sea posible, los defectos que vamos a describir.

    La lista siguiente contiene algunos criterios informales para la selección de opiniones en la elaboración de una escala de actitud; no está completa y posiblemente se opine que no son defectuosas algunas de las características siguientes.

    1. Hasta donde sea posible, las opiniones deben reflejar la actitud presente del sujeto y no sus actitudes pasadas. Expresando las opiniones en tiempo presente se evita que un sujeto pueda ratificar dos opiniones conflictivas, una referente a su actitud pasada y otra a la actual. El valor escalar del sujeto describiría, naturalmente, su actitud presente.

    2. Se ha encontrado que las aseveraciones de significado doble tienden a ser ambiguas. El material debe redactarse de tal manera que cada opinión exprese hasta donde sea posible solamente un pensamiento o idea. El sujeto se confunde al leer una aseveración de doble significado en la que desea ratificar una idea pero no la otra. Ejemplo: "Yo creo en los ideales de la iglesia, pero estoy fastidiado de sectas". Tal vez esta afirmación fuera más útil si se dividiera en dos opiniones.

    3. Uno debe evitar las afirmaciones que son aplicables evidentemente á un grupo muy restringido de sujetos. Ejemplo: "Yo voy a la iglesia porque me gusta la buena música". "Estoy en el coro y aprendo música y cantos corales". La primera aseveración puede ser ratificada por un grupo amplio de sujetos, pero la segunda pueden ratificarla solamente quienes son miembros del coro de una iglesia. Probablemente no vale la pena incluir, en una escala, opiniones que estén limitadas de ese modo por características relativas a hechos precisos. Lo que deseamos medir es la actitud y para hacerlo debemos evitar una influencia tan marcada en la amplitud de los posibles ratificadores. La afirmación precedente acaso mejoraría mucho para nuestros propósitos si solamente se mantuviera la primera afirmación, para incluirla en una escala.

    4. Cada opinión elegida para la escala de actitud debería ser, preferentemente, de tipo tal que no pudieran ratificarla los sujetos de ambos extremos de la tabla. Tales opiniones serían eliminadas por los criterios objetivos; pero cuando este defecto es conspicuo la afirmación puede descartarse desde el principio. Probablemente siempre habría, además, cierto número de opiniones de la lista que tengan este defecto y que no sean reconocidas cuando las lee el investigador. Posteriormente, cuando son descartadas por los criterios objetivos, resulta generalmente fácil saber por qué fueron eliminadas estas aseveraciones. Dicho de otra manera, es más fácil tener una base objetiva para descartar una aseveración y después, al examinarla, ver por qué se descartó, que descubrir estas aseveraciones defectuosas mediante la lectura de la lista completa de aseveraciones originales.

    5. Hasta donde sea posible, las aseveraciones, no deben contener conceptos relacionados y confusos. En el material de la escala de actitud presente tenemos varias aseveraciones que mencionan a la "religión verdadera" y a "la religión de Jesús". Probablemente es difícil interpretar estas aseveraciones, porque además de las afirmaciones acerca de la iglesia contienen conceptos relacionados que deberían evitarse siempre que sea posible. Ejemplo: "Yo creo que la iglesia permite las diferentes sectas para aparecer más grande que la religión verdadera". Una aseveración de este tipo puede reelaborarse para que solo se refiera a las diferencias de secta, demasiado recalcadas por las iglesias, según se afirma, sin incluir la incertidumbre de interpretación de la frase "religión verdadera".

    6. Si las demás cosas son iguales, debe evitarse la jerga, respectiva excepto cuando sirva al propósito de describir una actitud en forma mas breve de la que podría lograrse de otra manera. Por ejemplo, decir que la mayoría de los sermones son "pura habladuría" puede justificarse si se considera una manera natural de expresar la actitud que se va a representar en la escala.

subir índice

Artículo noviembre 2007

MEDIDA DE LAS ACTITUDES

    UNIDAD DE MEDIDA PARA LAS ACTITUDES

   La única manera como podemos identificar las actitudes diferentes (los puntos en la línea base) es utilizando un conjunto de opiniones como marcas, en las diferentes partes o pasos de la escala. La escala final consistirá entonces en una serie de aseveraciones de opinión; y cada una de ellas estará ubicada en un punto particular en la línea base. Si comenzamos con suficientes aseveraciones quizá podamos seleccionar una lista de 20 0 30 opiniones escogidas, de manera que representen una serie de actitudes graduadas de manera uniforme. La separación entre las aseveraciones de opinión sucesivas sería entonces uniforme; pero la escala puede construirse también con una serie de opiniones ubicadas en la línea base aunque sus separaciones sean desiguales. Sin embargo, con el propósito de dibujar distribuciones de frecuencia, es conveniente que los pasos entre las aseveraciones escogidas sean uniformes por la amplitud entera de la escala.

    Considérense las tres aseveraciones a, c y d en la figura 1. Las aseveraciones c y a se colocan muy juntas para indicar su extrema semejanza, mientras que las aseveraciones c y d se colocan con gran separación entre sí para apuntar lo diferentes que son. Es de esperarse que dos individuos colocados en los puntos c y a, respectivamente, concuerden extremadamente al discutir sobre pacifismo y militarismo. Por otra parte, pensamos que es muy fácil expresar la diferencia que hay entre las opiniones de una persona en d y otra en c. Las separaciones escalares de las opiniones deben concordar con nuestras impresiones de ellas.

    Para determinar lo separadas que deben estar las aseveraciones en la escala final, las aplicamos a un grupo de varios cientos de personas, a quienes pedimos que ordenen las aseveraciones desde la más pacifista hasta la más militarista. No les preguntamos sus propias opiniones. Ese es un asunto por entero diferente. Lo que nos interesa es la elaboración de una escala con una unidad válida de medida. Puede haber cien aseveraciones en la lista original y se pide a varios cientos de personas que solamente arreglen las aseveraciones en orden jerárquico conforme a la variable de actitud señalada. Después es posible determinar la proporción de sujetos que consideran la afirmación a más militarista que la c. Si las dos afirmaciones representan actitudes muy similares, no debemos esperar un acuerdo perfecto en el orden jerárquico de las afirmaciones a y c. Si son idénticas en actitud, habrá cerca del 50% de sujetos que digan que la aseveración a es más militarista que la c, mientras que el otro 50% dirá que la aseveración c es más militarista que la a. Es posible usar la proporción de sujetos o jueces que coincidieron con respecto al orden jerárquico de dos afirmaciones cualesquiera como base de la medición efectiva.

    Si el 90% de los jueces o sujetos dicen que la afirmación a es más militarista que la b (pa>b = .90) y si solamente el 60% de los jueces dicen que la afirmación a es más militarista que la c(pa>c =.60), entonces la separación escalar (a - c) es más corta que la separación escalar (a-b).La separación entre dos estímulos cualesquiera en la escala psicológica puede medirse con base en una ley del juicio comparativo.

    Los métodos pormenorizados de manejo de los datos se publicarán conjuntamente con la construcción de cada escala particular. El resultado práctico de este procedimiento es una serie de aseveraciones de opinión colocadas a lo largo de la línea base de la figura 1. La interpretación de las distancias de la línea citada consiste en que la diferencia aparente entre dos opiniones cualesquiera será igual a la diferencia aparente entre otras dos opiniones cualesquiera que estén igualmente espaciadas en la escala. Dicho de otra manera, el cambio de opinión representado por la distancia de una unidad en la línea base parece ser, para la mayoría de las personas, igual al cambio de opinión representado por la distancia de una unidad en cualquiera otra parte de la escala. Los dos individuos que están separados por determinada distancia en la escala parecen diferir en sus actitudes, tanto como otros dos individuos cualesquiera que tengan la misma separación escalar. En este sentido, tenemos una línea base verdaderamente racional; y los diagramas de frecuencia erigidos en tal línea base son susceptibles de interpretación legítima como superficies de frecuencia.

    En contraste con semejante línea base o escala racional está el sencillo procedimiento de enumerar solamente de diez a veinte opiniones, hacer que unos cuantos jueces las ordenen jerárquicamente, para después contar simplemente el número de adhesiones a cada aseveración. Esto puede hacerse, desde luego, siempre que no se interprete el diagrama resultante como una distribución de frecuencia de actitud. Si el diagrama se interpreta de esta manera, puede tomar cualquier forma que queramos con sólo agregar nuevas aseveraciones o eliminar algunas, arreglando la lista resultante en orden jerárquico aproximado, y uniformemente espaciado en la línea base. Los diagramas de opiniones de Allport no son en ninguna forma distribuciones de frecuencia. Deben considerarse como diagramas de barras donde se presenta la frecuencia con que fue respaldada cada una de las aseveraciones. Este método ha mejorado el procedimiento de Allport. Este trata virtualmente con órdenes jerárquicos, en este se pretende transformar en medida, con una unidad racional de medida. Los estudios pioneros de Allport en este campo deben ser leídos por todos los investigadores de este problema.

    La unidad de medida de la escala de actitudes es la desviación estándar de la dispersión proyectada en la escala psicofísica de actitudes, por una aseveración de opinión, seleccionada como estándar. No importa qué afirmación se escoja como estándar; las escalas producidas por diferentes aseveraciones estándares tienen valores escalares proporcionales. Esta unidad mental de medida es aproximadamente semejante, pero no idéntica, a la llamada "diferencia apenas notable" de la medición psicofísica.

    Puede elaborarse un diagrama semejante al de la figura 1 por lo menos de dos maneras diferentes. Puede hacerse que el área de la superficie de frecuencia represente al número total de votos o adhesiones de un grupo de personas, o bien puede representar el número total de individuos del grupo estudiado. Los diagramas de Allport se harían con el último principio si fueran elaborados sobre una línea base racional, de modo que pudiera medirse un área legítima. A cada sujeto se le pediría que seleccionara de la lista la aseveración que fuese más representativa de su propia actitud. En tal caso, por lo menos la suma de las ordenadas sería igual al número de personas del grupo. En este procedimiento se pide a cada sujeto que ratifique todas las afirmaciones con las que esté de acuerdo. Como se tiene una línea base racional, podemos inferir legítimamente que el área de la superficie equivale al número total de ratificaciones hechas por el grupo. Este procedimiento tiene la ventaja de que determina la amplitud de opinión que es aceptable para cada persona, lo cual tiene considerable interés, y no puede determinarse pidiendo al sujeto que ratifique solamente una de las aseveraciones de la lista. Las ordenadas del diagrama de frecuencia pueden dibujarse como proporciones del grupo total. Por consiguiente, se interpretarán como la probabilidad de que la aseveración dada sea ratificada por un miembro del grupo. En otras palabras, el diagrama de frecuencia describe la distribución de actitud del grupo completo; y la ordenada de cada punto de la línea base representa la popularidad relativa de esa actitud.

 

    CONSTRUCCIÓN DE UNA ESCALA DE ACTITUD

    Se han construido fundamentalmente tres escalas para medir la opinión por los principios descritos. Estas tres escalas se han diseñado para medir las actitudes en función de tres variables diferentes, a saber, pacifismo-militarismo, prohibición del alcohol y actitud hacia la iglesia. Dichas escalas se han construido por un procedimiento menos laborioso que aquel que aplica directamente la ley del juicio comparativo; en caso de obtenerse resultados consistentes, el nuevo método se hará extensivo a otras escalas.

    El método es el siguiente. A varios grupos de personas se les pide que escriban sus opiniones sobre el asunto en cuestión; y se buscan en la bibliografía existente aseveraciones adecuadas y breves que puedan servir a los fines de la escala. Al editar este material se prepara una lista de 100 a 150 aseveraciones expresivas de actitudes que cubran lo mejor posible todas las graduaciones desde un extremo a otro de la escala. Algunas veces es necesario conceder atención especial a las aseveraciones neutras. Si una colección al azar de aseveraciones de opinión fallara en producir reactivos neutros existiría el peligro de que la escala se dividiera en dos partes. La amplitud total de actitudes debe cubrirse en toda su extensión, por lo que toca al estudio preliminar, a fin de asegurar que los órdenes jerárquicos de los diferentes lectores se traslapen a lo largo de la escala.

    En la elaboración de la lista inicial de aseveraciones se aplican varios criterios prácticos en el primer trabajo de edición. Algunos de los criterios más importantes son los siguientes:

    a) Las afirmaciones deben ser lo más cortas posible de manera que no fatiguen a los sujetos a quienes sé pida que lean la lista completa.

    b) Las afirmaciones deben ser de tal tipo que puedan ser secundadas o rechazadas conforme a su concordancia o discrepancia con la actitud del lector. Algunas aseveraciones de una muestra al azar estarán redactadas de manera que el lector no pueda expresar ratificación o rechazo definido de ellas.

    c) Cada aseveración debe prever que su aceptación o rechazo indique algo con respecto a la actitud del lector acerca del asunto en cuestión. Si, por ejemplo, se hace la afirmación de que la guerra es un aliciente para el genio inventivo, su aceptación o rechazo no dice nada con respecto a las tendencias pacifistas o militaristas del lector; puede éste considerar que la afirmación es un hecho indiscutible y simplemente la ratifica como un hecho, en cuyo caso tal respuesta no revela nada acerca de la propia actitud sobre el asunto. Sin embargo, solamente los ejemplos conspicuos de este efecto se eliminarían por análisis, porque se dispone de un criterio objetivo para descubrir tales afirmaciones, a. modo de eliminarlas automáticamente de la escala. El juicio personal debe reducirse al mínimo posible en este tipo de trabajo.

    d) Las afirmaciones de doble significado deben evitarse excepto, quizá, como ejemplos de neutralidad cuando no parezca fácil obtener mejores afirmaciones neutras. Las afirmaciones de doble significado tienden a ser muy ambiguas.

    e) Es necesario asegurarse de que por lo menos una rotunda mayoría de las afirmaciones pertenece realmente a la variable de actitud que se va a medir. Si se dejara en la serie un pequeño número de afirmaciones impropias ya sea en forma intencional o no intencional, aquéllas serían eliminadas automáticamente por un criterio objetivo; pero este no tendría éxito a menos que la mayoría de las afirmaciones formaran parte claramente de la variable estipulada.

    Cuando la lista original se edita teniendo presentes estos criterios, quedan quizás de 80 a 100 aseveraciones, con las cuales formar una escala eficaz. Las aseveraciones resultantes se imprimen después en pequeñas tarjetas, a razón de una por tarjeta. Se pide a 200 o 300 sujetos que arreglen las aseveraciones en 11 grupos que vayan desde las opiniones completamente afirmativas hasta las completamente negativas. Las instrucciones detalladas se publicarán junto con la descripción de las escalas separadas. La tarea consiste esencialmente en clasificar las pequeñas tarjetas en 11 grupos de manera que parezcan estar igualmente espaciadas o graduadas. Solamente se rotulan los dos grupos extremos y el de en medio. Este último se destina a las opiniones neutrales. El lector debe decidir, sobre cada aseveración, cuál de los cinco grados subjetivos de afirmación o de negación es el implicado en ella, o, en su caso, si se trata de una opinión neutra.

    Concluida la clasificación realizada por los 200 o 300 lectores, se prepara un diagrama similar al de la figura 2. Vamos a estudiarlo en una escala de pacifismo-militarismo a manera de ejemplo. En la línea base de este diagrama están representados los 11 intervalos aparentemente iguales de la variable de actitud. El intervalo neutral es el comprendido entre 5 y 6; el intervalo más pacifista va de 0 a 1 y el más militarista de 10 a 11. El diagrama es ficticio y se ha dibujado únicamente para ilustrar el principio que se aplica. La curva A indica la manera como podría ser clasificada una de las aseveraciones por parte de los 300 lectores. Ninguno la clasificó debajo del valor 3; la mitad de los lectores lo hizo por debajo del valor 6; y la totalidad, por debajo del valor 9. El valor escalar de la aseveración es el valor por debajo del cual fue colocada justamente por la mitad de los lectores. En otras palabras, el valor escalar asignado a la aseveración se selecciona de manera que la mitad de los lectores lo consideran más militarista que el valor asignado y la otra mitad menos militarista que el mismo valor. El cálculo numérico del valor escalar es similar al cálculo del umbral por medio de la hipótesis fi-gama en la medición psicofísica.

    Habrá de notarse que algunas de las aseveraciones en los extremos de la escala no dan curvas ojivales completas; es por esto que la aseveración C está incompleta en el diagrama. Se comporta como si, para completarse, necesitara espacio más allá de los límites arbitrarios de la escala. Sin embargo, su valor escalar puede determinarse por aquél donde la curva fi-gama dibujada a través de las proporciones experimentales atraviesa el nivel del 50% que está en c. Pueden encontrarse otras aseveraciones, tales como D, que tienen valores escalares más allá de la amplitud arbitraria de la escala. También se les pueden asignar valores escalares, aunque menos exactos por el mismo procedimiento.

    La situación es diferente en el otro extremo de la escala. La aseveración E tiene su valor escalar en e, pero, teniendo la escala el límite en el punto 11, la proporción experimental será de 1.00 en ese punto. Si la escala continuara más allá del punto 11, las proporciones continuarían elevándose gradualmente como lo indica la línea interrumpida. Las proporciones experimentales son todas, necesariamente, de 1.00 para el valor escalar 11 y, por consiguiente, esas proporciones finales deben ignorarse al ajustar las curvas fi-gama y al localizar los valores escalares de las aseveraciones.

 

    VALIDEZ DE LA ESCALA

    a) La escala debe trascender al grupo medido. Antes de aplicarse, este método de medición debe someterse a una prueba experimental decisiva, después de la cual pueda aceptarse su validez. Un instrumento de medida no debe ser afectado seriamente por el objeto, en su función de medir. En el mismo grado en que su función de medir resulte afectada o dañada, se limitará su validez. Si una regla de una medida diferente por el mero hecho de que lo que midió fue una alfombra, un cuadro o un pedazo de papel, entonces, en el grado de tal diferencia, estaría dañada la fidelidad de aquélla en tanto que instrumento de medida. La función del instrumento de medida debe ser independiente de cada uno de los miembros de la clase de objetos para la que fue diseñada.

    Es preciso también que determinemos la amplitud de nuestro método para medir actitudes. La construcción y la aplicación de una escala de actitudes son dos tareas muy diferentes, cosa que debe tenerse en cuenta. Si la escala ha de ser válida, los valores escalares de las aseveraciones no deben ser afectados por las opiniones de quienes hayan colaborado en su construcción. Tal condición puede constituir una severa prueba en la práctica; pero el método de elaboración de escalas debe cumplir con dicho requisito para que merezca aceptarse como algo más que una simple descripción de la propia persona que la haya construido. De cualquier modo, en la misma proporción en que el método para elaborar la escala se vea afectado por las opiniones de los lectores que hayan contribuido a clasificar las aseveraciones originales, así podrá cuestionarse la validez o universalidad de la escala. Hasta no estar en poder de la prueba experimental al respecto, daremos por sentado que los valores escalares de las aseveraciones son independientes de la distribución de actitud, propia de los lectores que las clasifican. En otras palabras, nuestra suposición consiste en que dos afirmaciones de una escala de prohibición del alcohol serán tan fáciles o tan difíciles de discriminar, tanto para las personas que ingieran esa bebida como para las que no la ingieran. Dadas, pues, dos aseveraciones contiguas de tal escala, suponernos que la proporción de bebedores que manifiestan que la aseveración a expresa más simpatía hacia el alcohol que la aseveración b será esencialmente igual a la proporción correspondiente a las mismas aseveraciones, pero desde el punto de vista de un grupo de abstemios. Expresando aún de otra manera nuestra suposición, diremos que tan difícil es para un militarista convencido como para un pacifista intransigente decidir cuál de dos aseveraciones es la más promilitarista. Si declaramos que el 85% de los militaristas señala que la afirmación A es más militarista que la B, entonces, conforme a nuestro postulado fundamental, la misma proporción de pacifistas emitiría el mismo juicio. Y de ser correcta esta suposición, hallaremos, en consecuencia, que la escala es un instrumento de medición independiente de la actitud que se pretende evaluar.

    La prueba experimental de esta suposición consiste sencillamente en elaborar dos escalas referentes al mismo asunto y con el mismo conjunto de aseveraciones. Una de dichas escalas se construiría con las respuestas de cientos de lectores simpatizantes del militarismo; y la otra escala, con las mismas aseveraciones, pero partiendo de las respuestas de otros varios cientos de pacifistas. Si los valores escalares de cada aseveración arrojan, prácticamente, resultados iguales en ambas escalas, la validez del método quedará así correctamente establecida. Pero todavía será necesario usar discretamente las escalas de opinión, habida cuenta de que podrían obtenerse, por ejemplo, resultados extraños con la escala de prohibición en un país donde la prohibición del alcohol no sea un problema.

    b) Un criterio objetivo de ambigüedad. El análisis de las curvas de la figura 2 revela que algunas de las aseveraciones del  diagrama ficticio son más ambiguas que otras. El grado de ambigüedad de una aseveración se aprecia de inmediato y puede medirse con precisión. La ambigüedad de una aseveración es la desviación estándard de la curva fi-gama de mejor ajuste, a través de las proporciones observadas. Cuanto mayor es la pendiente de la curva tanto menor es la amplitud de la escala sobre la cual hicieron su labor de clasificación los lectores y más clara y más precisa es la aseveración. Cuanto más suave es la pendiente de la curva, tanto más ambigua es la aseveración. De ahí que de las dos aseveraciones, A y B, del diagrama ficticio, la aseveración A sea la más ambigua.

   En el caso de que se encuentre que la función fi-gama no describe adecuadamente las curvas de proporciones de la figura 2, el grado de ambigüedad puede medirse sin postular que las proporciones siguen la función fi-gama cuando se dibujan en la escala de actitud. Un método simple para medir la ambigüedad sería entonces determinar la distancia escalar entre el valor escalar donde la curva de proporciones tiene una ordenada de .25 y el valor escalar donde la misma curva tiene una ordenada de .75. También puede definirse el valor escalar de la aseveración misma sin suponer la función fi-gama, tomando el valor escalar donde la curva de proporciones llega a .50. Si no se encuentra proporción real en ese valor, puede interpolarse el valor escalar de la aseveración entre las proporciones experimentales inmediatamente por encima y por debajo del nivel de .50. Para hacer una escala de las aseveraciones cuyos valores escalares caen fuera de las diez divisiones de aquella, será necesario hacer algunas suposiciones con respecto a la naturaleza de la curva y probablemente se encuentre que en la mayoría de las situaciones la función fi-gama constituye una buena aproximación a la verdad.

    c) Un criterio objetivo de inadecuación. Antes de que pueda hacerse la selección de los reactivos para la escala final, todavía debe aplicarse otro criterio: el criterio objetivo de inadecuación. Volviendo a la figura 1, consideremos dos afirmaciones que tengan valores escalares idénticos en el punto f. Supongamos, además, que estas dos afirmaciones se sometieron al juicio de grupo de lectores representados en el diagrama ficticio de la misma figura. Es completamente concebible, y sucede realmente, que una de estas afirmaciones sea secundada muy frecuentemente mientras que la otra solo lo sea rara vez, a pesar de que se hayan colocado adecuadamente en la escala, e impliquen el mismo grado de pacifismo o militarismo. La conclusión inevitable entonces es que la aprobación que un lector da a estas afirmaciones está determinada sólo parcialmente por el grado de pacifismo implicado y parcialmente por otros significados también implicados que pueden o no estar relacionados con la variable de actitud considerada. Es necesario, ahora, desde luego, seleccionar para la escala final de actitud las afirmaciones que son aprobadas o rechazadas fundamentalmente con base en el grado de pacifismo-militarismo que está implícito en ellas y eliminar aquéllas que son aceptadas o rechazadas frecuentemente según otros significados inadecuados más o menos sutiles.

    Se dispone de un criterio objetivo para realizar esta eliminación automáticamente y sin introducir la ecuación personal del investigador. Fundamentalmente es el siguiente: suponemos que la lista total de alrededor de 100 afirmaciones se ha sometido a varios cientos de lectores para votación efectiva. No necesitan ser los mismos lectores que clasificaron las afirmaciones con el propósito de formular la escala. Se pide a estos lectores que marquen con un signo de más cada afirmación que ratifiquen y con un signo de menos cada afirmación que rechacen.

    Si deseamos investigar el grado de inadecuación de una afirmación particular que, por ejemplo, podría tener un valor escalar de 4.0, en la figura 3, debemos primero determinar cuántos lectores la aprobaron. Encontramos, por ejemplo, que fueron 260 lectores. Este total se representa en el diagrama como el 100%, y levantamos tal ordenada en el valor escalar de dicha afirmación. Ahora podemos determinar la proporción de estos 260 lectores que también ratificaron cada una de las demás afirmaciones. Si los lectores aprobaron y rechazaron las afirmaciones basándose mayormente en el grado de pacifismo militarismo implicado, entonces los lectores que ratificaron afirmaciones próximas a 4.0, en la escala, no ratificarán a menudo las afirmaciones que están muy lejos de ese punto de la escala. Siguiendo el ejemplo, muy pocos ratificarían una afirmación que está ubicada en el punto 8.0 de la escala. Si una gran proporción de los 60 lectores que ratifican la aseveración básica en el 4.0 de la escala, también ratifica una afirmación en el punto 8.0 de la misma, debemos inferir entonces que su votación en estas dos afirmaciones ha sido influida por factores diferentes al grado de pacifismo implicado por dichas afirmaciones. Es posible representar gráficamente este tipo de análisis.

    En este diagrama, cada una de las demás afirmaciones se representará por un punto. Su valor "x" será el valor escalar de la afirmación y su valor "y" será la proporción de los 260 lectores que la hayan aprobado. Por tanto, si de los 260 lectores que ratificaron la afirmación básica hubiera 130 que ratificaron la afirmación número 14, que tiene un valor escalar 5.0, por ejemplo, entonces la afirmación número 14 estará representada por el punto A de la figura 3.

    Si la afirmación básica, cuyo grado de inadecuación está representado en la figura 3, es de carácter ideal, que la gente aceptará o rechazará debido principalmente a la actitud sobre el pacifismo que expresa, debemos esperar entonces que las 100 afirmaciones se representen por puntos más o menos elevados cerca de la línea interrumpida de la figura 3. Es obvio que el diagrama puede estar más contraído o más extendido, pero su aspecto general sería el de la figura 3. Si, por otra parte, la afirmación básica tiene implicaciones que conducen a su aceptación o rechazo, y son aquéllas completamente independientes del grado de pacifismo que expresan, hallaremos que la proporción de ratificaciones de las aseveraciones no sería una función continua de sus distancias escalares desde la afirmación básica. Así que el centenar de puntos podría dispersarse ampliamente en el diagrama. Este criterio de inadecuación es objetivo y probablemente pueda expresarse en forma algebraica precisa para eliminar totalmente la ecuación personal del investigador.

    Se han desarrollado otros dos criterios objetivos de inadecuación. Se describirán junto con las escalas de actitudes que se están elaborando.

 

   RESUMEN DEL MÉTODO DE ELABORACIÓN DE ESCALAS

    Es posible ahora seleccionar las aseveraciones que habrán de incluirse en la escala final. Para una aplicación eficaz, debe seleccionarse una lista corta de 20 0 30 aseveraciones. Hemos descrito ya tres criterios para efectuar la selección mencionada. Estos criterios san:

    1. Las aseveraciones de la escala final deben seleccionarse de manera que constituyan al máximo posible una serie graduada y uniforme de valores escalares.

    2. Por medio del criterio objetivo de ambigüedad, se eliminan las afirmaciones que proyecten demasiada dispersión en el continuo de actitud. La medida objetiva de ambigüedad es la desviación estándar de la curva fi-gama, de mejor ajuste, que se ilustra en la figura 2.

    3. Mediante los criterios objetivos de inadecuación, es posible eliminar, las afirmaciones cuya aceptación o rechazo provenga principalmente de factores diferentes al grado de la variable de actitud que representan. Uno de estos criterios se ilustra en la figura 3.

    Los pasos para elaborar una escala de actitud pueden resumirse de la manera siguiente:

    1. La especificación de la variable de actitud que se va a medir.

    2. La recolección de una amplia variedad de opiniones acerca de la variable de actitud especificada.

    3 La edición de este material en una lista de alrededor de cien breves aseveraciones de opinión.

    4. La clasificación de las aseveraciones en una escala imaginaria que represente a la variable de actitud. Esta tarea deben realizarla cerca de 300 lectores.

    5. Cálculo del valor escalar de cada aseveración.

    6. Eliminación de algunas aseveraciones con el criterio de ambigüedad.

    7.Eliminación de algunas aseveraciones con los criterios de inadecuación.

    8. Selección de una lista pequeña de cerca de 20 aseveraciones graduadas uniformemente en la escala.

 

    MEDICIÓN CON UNA ESCALA DE ACTITUD

    La aplicación práctica de la técnica de medida presente consiste en mostrar la lista final de alrededor de 25 aseveraciones de opinión al grupo de interés, pidiéndoles a los sujetos que marquen con signos de más todas las aseveraciones con las que estén de acuerdo y con signos de menos aquéllas con las que discrepen. La calificación de cada persona es el valor escalar promedio de todas las afirmaciones que ha ratificado. Con el fin de que la escala sea efectiva en los extremos, es aconsejable que se extiendan las aseveraciones de la escala en ambas direcciones, mucho más allá de las actitudes que se encontrarán como valores medios de los individuos. Una vez determinada la calificación de cada persona, por la simple suma indicada, puede dibujarse una distribución de frecuencia con respecto a las actitudes de cualquier grupo especificado.

    La confiabilidad de la escala puede determinarse preparando dos formas paralelas del mismo material y presentándolas a los mismos individuos. La correlación entre las dos calificaciones obtenidas por cada persona de un grupo indicará, entonces, la confiabilidad de la escala. Puesto que la heterogeneidad del grupo afecta al coeficiente de confiabilidad, es necesario especificar la desviación estándar de las puntuaciones del grupo donde se determinó el coeficiente de confiabilidad. También puede calcularse, por un procedimiento análogo, el error estándar de una puntuación individual.

    La unidad de medida de la escala construida por el procedimiento descrito no es e{ error estándar discriminativo proyectado por una sola aseveración en el continuo psicológico. La unidad de medida puede obtenerse por la aplicación directa de la ley del juicio comparativo, aunque esto es mucho más laborioso que por el método descrito aquí. La unidad de fa escala presente es más arbitraria, a saber, un décimo de la amplitud del continuo psicológico que cubre la distancia que hay entre lo que los lectores consideran la ratificación y la negación absolutas de la lista particular de afirmaciones iniciales. Por supuesto, pueden determinarse los valores escalares junto con la confiabilidad de partes fraccionarias de esta unidad. Esperamos que pueda demostrarse experimentalmente que esta unidad es proporcional a una unidad de medida más precisa y universal que el error estándar universal de una sola aseveración de opinión.

    Es lícito determinar la tendencia central de la distribución de frecuencia de las actitudes en un grupo. Después pueden compararse varios grupos de individuos con respecto a las medias de sus distribuciones de frecuencias respectivas de actitudes. Las diferencias entre las medias de las diferentes distribuciones pueden compararse directamente porque se ha establecido una línea base racional. Estas comparaciones no son posibles cuando se determinan las actitudes contando simplemente el número de ratificaciones para separarlas de las afirmaciones cuyas diferencias escalares no se han medido.

    Además de especificar la media de actitud de cada uno de los diferentes grupos, también es posible medir su relativa heterogeneidad con respecto al asunto considerado. Es posible así, por medio de nuestros actuales métodos de medida, descubrir, por ejemplo, que un grupo es 1.6 veces más heterogéneo en sus actitudes acerca de la prohibición del alcohol que algún otro grupo. La heterogeneidad de un grupo se indica quizá mejor por la desviación estándar de los valores escalares de todas las opiniones que fueron ratificadas por el grupo como un todo y no por la desviación estándar de la distribución de las puntuaciones individuales medias. Quizás tengan que adoptarse nombres diferentes para estos dos tipos de medida.

    La tolerancia que una persona revela en cualquier asunto particular también se puede sujetar a medición cuantitativa Es la desviación estándar de los valores escalares de las afirmaciones que ratifica. La tolerancia máxima posible es, naturalmente, la indiferencia completa, en la que todas las aseveraciones son ratificadas a lo largo de la amplitud entera de la escala.

    Si se desea saber cuál de dos formas de apelación es la más efectiva en un asunto particular, puede determinarse usando la escala antes y después de aquéllas. La diferencia entre las puntuaciones individuales, antes y después, puede tabularse para medir el cambio promedio de actitud después de cualquier forma concreta de apelación.

    La característica esencial del presente método de medida es la escala de opiniones, graduadas uniformemente, y ordenadas de manera que los pasos o intervalos iguales de la escala parezcan representar, para la mayoría de la gente, cambios igualmente notables de actitud.

subir índice

Artículo octubre 2007

LAS ACTITUDES PUEDEN MEDIRSE

    GENERALIDADES

    Fundándose en su experiencia en la medición de capacidades y rasgos, Thurstone propuso un método para medir la actitud. Se dijo que las aseveraciones de opinión simbolizaban las actitudes y estas podían medirse desarrollando escalas con tal tipo de aseveraciones. Con tales escalas los individuos podrían diferenciarse con respecto a sus actitudes de la misma manera que se podían determinar las diferencias individuales en inteligencia, capacidades o rasgos. Y así, en el principio de la historia de la medición de actitudes, Thurstone adoptó una posición que favorecía el uso de muestras de informes sobre sí mismo. Debido quizá al gran aprecio que los psicólogos tenían a Thurstone y a la creciente popularidad del operacionalismo entre los psicólogos, la técnica de aquel se adoptó rápidamente. También es importante hacer ver que su procedimiento de elaboración de escalas incorporó técnicas establecidas de la psicofísica.

   El método de Thurstone, para elaborar escalas de actitud contenía varías suposiciones estadísticas no verificadas, por lo que su aplicación resultó en extremo laboriosa. En 1932, Likert publicó una monografía que procuró superar estas dos dificultades. Propuso un método más sencillo que no requería el empleo de suposiciones estadísticas sin verificar.

   Si el método de Likert es adecuado, tal vez superior y alterno al método de Thurstone, ha sido asunto de discusión desde que apareció la citada monografía de Likert. Por desgracia, como a menudo ocurre en tales cuestiones, no hay corroboración empírica que pueda usarse para esclarecer el punto. Seiler y Hough han emprendido la búsqueda de tales pruebas empíricas. Mientras que persiste claramente la necesidad de investigación adicional antes de que la cuestión pueda resolverse, parecen estar ya esclarecidos dos asuntos:

    a) "el método de Likert de calificación de una escala de actitud, con determinado numero de reactivos, produce consistentemente resultados más confiables que el método de Thurstone para calificar la escala"

    b) el método de Likert para elaborar y calificar la escala requiere menos reactivos y produce la misina confiabilidad que el método de Thurstone.

    Un psicólogo dijo una vez que, sin las dos guerras mundiales, la psicología social habría muerto en la infancia. Sea o no cierta esta afirmación, mientras estaba asignado al Departamento del Ejército el sociólogo Louis Gutman ideó un método de elaboración de escalas que se basa en suposiciones completamente diferentes a las de Thurstone y de Likert, además de tener un uso más diversificado. Su popularidad es mayor entre los investigadores de la actitud, pero es adecuado para medir por escala muchos otros universos de objetos.

    Una de las limitaciones de los métodos de Thurstone y de Likert es que pueden obtenerse calificaciones idénticas de varias maneras. Así, no puede afirmarse que personas con la misma calificación, ya sea en una escala de Thurstone o de Likert, tengan la misma actitud. El método de elaboración de escalas, de Guttman, supera esta limitación, Conociendo la puntuación de una persona, en una escala perfecta de Guttman, es posible reproducir la estructura entera de las respuestas de la persona a los reactivos de la escala. Esto se debe a que los reactivos están ordenados por nivel de dificultad y la puntuación de la escala representa el nivel donde se falló. Desafortunadamente, las escalas perfectas de Guttman nunca se logran en la práctica. Por consiguiente, es necesario estimar el error de reproductibilidad. Desde la primera presentación de los procedimientos de construcción de escalas de Guttman, se han hecho muchos esfuerzos para extender, modificar y afinar el método, así como desarrollar técnicas más eficientes y sencillas con el mismo propósito.

    La discriminación escalar, desarrollada por Edwards y Kilpatrick. Es una técnica "nueva" solamente porque combina los métodos de Thurstone, Likert y Guttman. Sostienen que los métodos de Thurstone y Likert proporcionan la base para seleccionar los reactivos que se incluyen en una escala, mientras que el método de Guttman permite evaluar los reactivos; presentan también un procedimiento para seleccionar reactivos, primero, por el método de jueces, de Thurstone, y después, sometiendo los reactivos conservados a los criterios de selección de Likert. Los reactivos que satisfacen ambos grupos de criterios se examinan, finalmente, en cuanto a su reproductibilidad.

 

    LA POSIBILIDAD DE MEDIR LAS ACTITUDES

    El propósito de este trabajo es estudiar el problema de la medición de actitudes y opiniones, con miras a ofrecer una solución. El mismo hecho de ofrecer una solución a un problema tan complejo como el de medir las diferencias de opinión o actitud sobre asuntos sociales en disputa, hace evidente desde el principio que la solución está más o menos limitada y se aplica solamente bajo ciertas suposiciones que, sin embargo, serán también descritas. Al proponerme hallar un método para medir las actitudes, he procurado echar a andar con las menos restricciones posibles porque, a veces, uno se siente tentado a menospreciar tantos factores que desaparece el problema original. Yo espero que no se me acusará de eludir el problema.

    Para medir las actitudes algunas suposiciones de sentido común que serán expresadas, desde un principio, buscándose siempre que la discusión subsecuente no se vea ensombrecida a causa de ellas. Si el lector no está dispuesto a aceptar estas suposiciones, entonces no tendremos nada que ofrecerle. Si las acepta, podemos proceder a describir algunos métodos de medición que deben dar lugar a resultados interesantes.

    Es necesario expresar desde ahora lo que queremos significar por los términos "actitud" y "opinión". Esto es del todo necesario porque la primera impresión es que estos dos conceptos no son susceptibles de medida en ningún sentido real. Se aceptará que una actitud es un asunto complejo que no puede describirse totalmente con ningún índice numérico aislado. En cuanto al problema de medir, esta afirmación es análoga a la observación de que una mesa ordinaria es una cosa compleja que no puede describirse totalmente con ningún índice numérico aislado. De la misma manera, un hombre es de tal complejidad que no puede representarse completamente con un sólo índice. Sin embargo, no vacilamos en decir que medimos la mesa. El contexto generalmente señala lo que nos proponemos medir de la mesa. Decimos sin vacilación que medimos a un individuo cuando tomamos algunas medidas antropométricas de él. El contexto puede implicar correctamente qué aspecto del individuo estamos midiendo, sin declaración explícita, por ejemplo, su índice cefálico, su altura o su peso. Justamente en ese mismo sentido hablamos aquí de medir las actitudes. Expresaremos o implicaremos por el contexto qué aspecto de las actitudes, de las personas nos proponemos medir. El interrogante estriba en que tan legítimo es decir que medimos actitudes como afirmar que medimos mesas u hombres.

    El concepto de "actitud" se usará aquí para denotar la suma total de inclinaciones y sentimientos, prejuicios o distorsiones, nociones preconcebidas, ideas, temores, amenazas y convicciones de un individuo acerca de cualquier asunto específico. La actitud de una persona acerca del pacifismo significa todo lo que piensa y siente acerca de la paz y la guerra. Aceptase asimismo que esto es un asunto subjetivo y personal.

    El concepto "opinión" significará aquí la expresión verbal de la actitud. Si una persona dice que cometimos un error ál entrar en la guerra contra Alemania, ésa afirmación será considerada aquí como una opinión. El término "opinión" se restringirá a la expresión verbal. Pero ¿de qué es una expresión? Supuestamente expresa una actitud. No tiene por qué haber dificultad para entender el empleo de los dos términos. La expresión verbal es la opinión. Nuestra interpretación de la opinión expresada es que la actitud del individuo es pro-germana. Una opinión simboliza una actitud.

    Nuestro siguiente punto se refiere a qué deseamos medir. Cuando una persona dice que cometimos un error al entrar a la guerra contra Alemania, lo que nos interesa no es realmente la secuencia de palabras como tales y ni siquiera el significado inmediato que la oración implica, sino más bien la actitud de quien la dijo, sus pensamientos y sentimientos acerca de los Estados Unidos, de la guerra y de Alemania. Es la actitud lo que realmente interesa. La opinión tiene interés únicamente si la interpretamos como símbolo de la actitud. Por consiguiente, es alguna cosa propia de las actitudes lo que deseamos medir. Usaremos las opiniones como medios para medir las actitudes.

    Pero nos viene a la mente la incertidumbre de usar una opinión como índice de actitud, pues el individuo puede ser un embustero. Si no deforma intencionalmente su actitud real sobre un asunto en disputa, puede modificar, sin embargo, su expresión, por razones de cortesía, especialmente en situaciones donde la expresión franca de la actitud puede no ser bien recibida. Esto ha conducido a la idea de que, por encima de lo que dice, la acción de un individuo es un índice más seguro de su actitud. Pero sus acciones también pueden ser distorsiones de su actitud. Un político comunica amistad y hospitalidad en la acción manifiesta, mientras que esconde otra actitud que expresa más fielmente a un amigo íntimo. Ni sus opiniones ni sus actos manifiestos constituyen, en ningún sentido, una guía infalible de las inclinaciones subjetivas y preferencias que constituyen su actitud. Por consiguiente, debemos conformarnos con usar las opiniones, u otras formas de acción, como simples índices de actitud. Debe reconocerse que existe cierta discrepancia, algún error de medida, entre la opinión o acción manifiesta que usamos como índice y la actitud que inferimos de tal índice.

    Pero esta discrepancia entre el índice y la "verdad" es universal. Cuando desea saber la temperatura de su habitación, la persona ve el termómetro y usa la lectura como índice de la temperatura, como si no hubiera error en el índice y como si hubiera una sola lectura que fuera la "correcta" de la habitación. Cuando se desea determinar el volumen de un vaso de papel, se postula que el volumen es un atributo del vaso, aunque aquél sea, en realidad, una abstracción. Se mide indirectamente observando las dimensiones del vaso o sumergiéndolo en agua para apreciar cuánto líquido desplaza. Estos dos procedimientos dan dos índices que podrían no concordar exactamente. En casi cualquier situación de medición se postula un continuo abstracto como el volumen o la temperatura; y la ubicación de la cosa medida dentro de ese continuo se realiza generalmente por medios indirectos, a través de uno o más índices. La verdad se infiere solamente por la consistencia relativa de los diferentes índices, ya que nunca se conoce de modo directo. Y nos enfrentamos al mismo tipo de situación cuando intentamos medir la actitud. Necesitamos postular una variable de actitud que es, prácticamente, semejante a todos los demás atributos mensurables de la esencia de un continuo abstracto, y debemos encontrar uno o más índices, los cuales nos satisfarán en el grado en que tengan consistencia interna.

    En el presente estudio mediremos la actitud del sujeto según sea expresada por la aceptación o rechazo de opiniones. Pero este enunciado no significa que ese sujeto necesariamente actuará conforme a las opiniones que haya apoyado. Aclaremos esta limitación. La medición de actitudes, expresada por las opiniones de un individuo, no constituye a la vez, y forzosamente la predicción de lo que hará. Que sus opiniones expresadas y sus acciones sean inconsistentes, es algo que no nos concierne ahora, porque no manifestamos que nos proponemos predecir la conducta abierta. Supondremos que es de interés saber lo que las personas dicen que creen aunque su conducta sea inconsistente con las opiniones que expresen. Incluso en el caso de que distorsionen intencionalmente sus actitudes, por lo menos mediremos las actitudes que tratan de hacer creer a los demás.

    Concedemos, por otra parte, que las actitudes de las personas están sujetas a cambio. Cuando medimos la actitud de un individuo, sobre un asunto como el pacifismo, no afirmamos que tal medida sea en ningún sentido una constante permanente o constitucional. Su actitud puede cambiar, por supuesto, de un día para otro; y es nuestra tarea medir tales cambios que acaso resulten de causas desconocidas o de la presencia de algún factor persuasivo conocido, como la lectura de una disertación sobre el asunto en cuestión. Sin embargo, tales fluctuaciones pueden también atribuirse, en parte, a error en las medidas mismas. Para aislar los errores del instrumento de medida, por la fluctuación real de la actitud, debemos calcular el error estándar de medida de la escala misma, lo cual puede realizarse por métodos bien conocidos en la medición mental.

    Supondremos que una escala de actitud se usa solamente en las situaciones en que se puede esperar razonablemente que las personas digan la verdad sobre sus opiniones o convicciones. Si una escuela religiosa fuera aplicar a sus estudiantes una escala de actitudes acerca de la iglesia, difícilmente se esperaría que los estudiantes inteligentes dijeran la verdad acerca de sus convicciones, si éstas estuviesen desviadas de las creencias ortodoxas. Lo menos que podría hacerse sería analizar los resultados, si la situación en que se expresasen las actitudes contuviera presión o amenaza implícita, basadas directamente en la actitud que se va a medir. De manera similar sería difícil descubrir las actitudes sobre la libertad sexual por medio de un cuestionario escrito, debido a la presión universal a ocultar tales actitudes cuando se desvían de las convenciones supuestas. Se admite que las escalas de actitud se usarán solamente en las situaciones que ofrezcan un mínimo de presión sobre la actitud que va a medirse. Tales situaciones son bastante comunes.

    Todo lo que podemos hacer con una escala de actitud es medir la actitud expresada efectivamente, con la comprensión plena de que el sujeto puede estar escondiendo conscientemente su actitud verdadera o que la presión social de la situación le ha hecho creer realmente lo que está expresando. Este es asunto de interpretación, y probablemente valioso en tanto se mide una actitud expresada en opiniones. Otro problema es el de interpretar en cada caso el grado en que los sujetos han expresado lo que realmente creen. Todo lo que podemos hacer es reducir cuanto sea posible las condiciones que impiden que los sujetos digan la verdad, o en vez de eso ajustar nuestras interpretaciones de acuerdo a esas condiciones.

    Cuando discutimos opiniones, por ejemplo acerca de la prohibición del alcohol, pronto encontramos que estas opiniones son multidimensionales, es decir, que no pueden representarse en un continuo lineal. Las diferentes opiniones no pueden describirse, completamente, sólo con "más" o "menos". Se dispersan en muchas dimensiones, pero la misma idea de medida implica un continuo lineal de alguna clase como longitud, precio, volumen, peso, edad. Cuando la idea de medida se aplica al logro académico, por ejemplo, es necesario forzar las variaciones cualitativas en una escala lineal académica de alguna clase. Juzgamos, de manera semejante, cualidades como destreza mecánica, calidad de la escritura a mano y la cantidad de educación de un individuo, como si estos rasgos se extendieran sobre una sola escala, aunque en el terreno de los hechos se dispersen en muchas direcciones. Cierto es que avanzamos adecuadamente con el concepto de escala, al describir rasgos todavía cualitativos, como educación, posición social y económica o belleza. Pero se impone una escala o continuo lineal cuando decimos que un individuo tiene más educación que otro o que una mujer es más bella que otra, aunque, si somos presionados, admitimos que quizá el par de que constan cada una de las comparaciones tiene poco en común. Resulta claro que el continuo lineal implícito en un juicio de "más o menos" puede ser conceptual; y no necesariamente ha de tener la existencia física de una regla.

    Y lo mismo sucede con las actitudes. No hay que dudar en compararlas por medio del tipo de juicio de "más o menos"; se dice, por ejemplo, que un individuo está más en favor de una prohibición que de otra; y tal juicio comunica su significado claramente, con la implicación de una escala lineal en la que pueden ubicarse las personas o las opiniones.

 

    LA VARIABLE DE ACTITUD

    La primera restricción en el problema de la medición de actitudes es especificar una variable de actitud y hasta allí limitar la medida. Vamos a ilustrarlo considerando la cuestión de la prohibición del alcohol y tomemos como variable de actitud el grado de restricción que debe imponerse a la libertad individual en el consumo de esa bebida. Este grado de restricción puede considerarse un continuo que va desde la libertad completa y grado hasta la restricción igualmente completa y absoluta, e incluiría, desde luego, actitudes neutrales e indiferentes.

    Al recolectar muestras para elaborar una escala, pediríamos a cien personas que escribieran sus opiniones acerca de la prohibición. Encontraremos entre ellas a quienes expresen la creencia de que la prohibición ha incrementado el uso del tabaco. Indudablemente esta es una opinión concerniente a la prohibición, pero no sería útil en absoluto para medir la variable de actitud mencionada. Por tanto, sería inadecuada. Otra persona podría expresar la opinión de que la prohibición ha eliminado una fuente importante de impuestos gubernamentales. Esta también es una opinión referente a la producción, pero no pertenecería a la variable de actitud particular que hemos manifestado medir o evaluar por escala. Es preferible usar un criterio objetivo y experimental para eliminar las opiniones que no pertenezcan al continuo especificado que se va a medir, y creo que tal criterio existe.

    Esta restricción en el problema de la medición de actitudes es necesaria por la misma naturaleza de la medida; y se presupone en toda medida ordinaria, por lo que debe quedar claro que se aplica también donde las características multidimensionales todavía no se hayan separado abiertamente. Por ejemplo, sería casi ridículo decir que no puede medirse una mesa a menos que uno diga o implique lo que se va a medir de ella, es decir, si es su altura, costo, belleza, grado de adecuación o el tiempo requerido para hacerla. El contexto implica ordinariamente esta restricción en la medida. Cuando la noción de medida se aplica a un fenómeno tan complejo como las opiniones y actitudes, también debemos restringirnos a un continuo específico o implicado dentro del cual se va a medir.

    Para especificar la variable de actitud, el primer requisito es expresarla de tal modo que se la pueda aludir en términos de "más" y "menos", como es el caso cuando comparamos las actitudes de las personas diciendo que una de ellas es más pacifista, que esta aboga más por la prohibición, que aquélla apoya más fuertemente la pena capital, o que es más religiosa que otra persona.

    La figura 1 representa la variable de actitud militarismo pacifismo, con una zona neutral. Una persona que generalmente habla en favor de prepararse militarmente, por ejemplo, se representaría en algún punto a la derecha de la zona neutral. Una persona que está más interesada en el desarme se representaría a la izquierda de la zona neutral. Es posible concebir una curva de frecuencia que represente la distribución de la actitud en un grupo especificado sobre el asunto de pacifismo-militarismo.

    Consideremos la ordenada de la distribución de frecuencia en un punto de la línea de base. El punto y su vecindad inmediata representa una actitud, y deseamos saber relativamente qué tan común es ese grado de sentimiento en favor o en Pacifismo Naturalidad Militarismo contra del pacifismo dentro del grupo en estudio. Es de interés secundario saber que una declaración particular de opinión es ratificada por cierta proporción de ese grupo. Y solamente en el grado en que la opinión sea representativa de una actitud, será útil para nuestros propósitos. Posteriormente consideraremos la posibilidad de que una opinión. declarada pueda ubicarse en la escala coma pacifista y, sin embargo, sea ratificada por una persona de simpatías militaristas muy pronunciadas. En el grado en que la aseveración sea apoyada o rechazada por factores distintos a la variable de actitud que representa, tal aseveración no servirá para nuestros propósitos. También consideraremos un criterio efectivo para descubrir semejantes aseveraciones de manera que puedan eliminarse de la escala. Entonces, en nuestro estudio, trataremos con opiniones, no principalmente por su contenido cognoscitivo sino porque sirven de portadores o símbolos de las actitudes de las personas que las expresa o respalda.

    Hay alguna ambigüedad al usar el término actitud en plural. Una actitud se representa como un punto en el continuo de actitud. Consecuentemente, hay un número infinito de actitudes que pueden representarse en la escala. Sin embargo, en la práctica no diferenciamos tan finamente. En realidad, una actitud, prácticamente hablando, consiste en cierta amplitud o cercanía estrecha dentro de la escala. Cuando se obtiene una distribución de frecuencia de una variable continua, como la estatura, clasificamos dicha variable en pasos o intervalos de clase, con propósitos descriptivos. La variable de actitud también puede dividirse en intervalos de clase y contarse la frecuencia en cada intervalo. Cuando hablemos de "una" actitud, significaremos un punto o una vecindad en el continuo de la actitud. Diferentes actitudes se considerarán no como un conjunto de entidades distintas sino como una serie de intervalos de clase en la escala de actitud.

 

   UNA DISTRIBUCIÓN DE FRECUENCIA DE ACTITUDES

    La principal argumentación ha sido hasta ahora mostrar que ya que en la conversación ordinaria describimos rápida y comprensiblemente a los individuos como más o menos pacifistas o más o menos militaristas en actitud, podemos representar abiertamente esta linealidad en la forma de una escala monodimensional; y así se ha hecho, en forma de diagrama, en la figura 1. Describiremos primero nuestro objetivo y después mostraremos cómo puede adoptarse una unidad de medida racional para la escala entera.

    Sea la línea base de la figura 1 la representación de una amplitud continua de actitudes, desde el pacifismo extremo, a la izquierda, hasta el militarismo extremo a la derecha.

    Si se definieran varios pasos en semejante escala, la actitud de una persona hacia el militarismo-pacifismo podría representarse por un punto de esa escala. La fuerza y dirección de las simpatías de un individuo particular podrían indicarse por el punto a, que muestra opiniones más bien militaristas. Otro individuo podría quedar en el punto b, indicador de que, aunque es ligeramente militarista en sus opiniones, no lo es al extremo de la persona que se colocó en el punto a. Una tercera persona se colocaría en el punto c, indicándose así que es completamente militarista y que la diferencia entre a y c es muy pequeña. Es posible una interpretación similar que se extendiera a cualquier punto de la escala continua, desde el extremo militarismo hasta el extremo pacifismo, con una región neutral o de indiferencia entre ellos.

   Una segunda característica podría igualmente indicarse gráficamente por medio de la escala, a saber, la amplitud de las opiniones que determinado individuo esté dispuesto a respaldar. Por supuesto, no debe esperarse que cada persona encuentre solamente una sola opinión, a la que esté dispuesto a dar su apoyo, en la escala completa, ni tampoco que rechace todas las demás. En realidad, nosotros mismos probablemente nos encontraríamos dispuestos a ratificar gran número de opiniones que cubren cierta amplitud de la escala. Entonces, es concebible que una persona pacifista esté dispuesta a ratificar todas o la mayoría de las opiniones en la amplitud de "d a e" y que rechace como demasiado pacifistas la mayoría de las opiniones a la izquierda de d, y que también rechace la amplitud entera de opiniones militaristas. Su actitud se indicaría entonces por el promedio o media de la amplitud que ratifica, a menos que tenga el cuidado de seleccionar una opinión particular que represente muy cercanamente su propia actitud. La misma clase de razonamiento puede extenderse con la misma certidumbre a la amplitud total de la escala, así que tendríamos por lo menos dos, o posiblemente tres, características distintivas de cada persona con base en la escala. Estas características serían:

    a) la posición media que ocupa en la escala;

    b) la amplitud de opiniones que está dispuesto a aceptar, y

    c) la opinión que selecciona porque representa con mayor aproximación su propia actitud sobre el asunto planteado.

   Asimismo, sería posible describir a un grupo de individuos por medio de la escala. Este tipo de descripción ha sido representado en forma de diagrama por el perfil de frecuencia.

   Cualquier ordenada de la curva representaría el número de individuos, o el porcentaje del grupo total, que secunda la opinión correspondiente. Por ejemplo, la ordenada, en b, representaría el número de personas del grupo que ratifican el grado de militarismo representado por el punto b de la escala. Una mirada a la curva de frecuencia muestra que en el grupo ficticio de este diagrama, las opiniones militaristas son ratificadas más frecuentemente que las pacifistas. Claro está que el área de este diagrama de frecuencia representa el número total de ratificaciones hechas por el grupo. El diagrama puede arreglarse de varias maneras diferentes que estudiaremos por separado. En este momento, basta con que nos percatemos de que en una escala válida de opiniones es posible comparar varios grupos diferentes de acuerdo a sus opiniones sobre una cuestión en disputa.

    Un segundo tipo de comparación de grupo puede hacerse con respecto a la amplitud o extensión que presentan las superficies de frecuencia. Si uno de los grupos se representa por un diagrama de frecuencia de considerable amplitud o dispersión, entonces ese grupo será más heterogéneo respecto al asunto planteado, que algún otro grupo cuyo diagrama de frecuencia de actitudes presente una amplitud o dispersión más pequeña. Lo anterior no significa que la suposición de una distribución normal, de uso frecuente en la elaboración de escalas educativas, tenga alguna aplicación aquí, porque no hay razón para suponer que un grupo de personas esté distribuido normalmente en sus opiniones acerca de alguna cosa.

   Por consiguiente, es posible hacer cuatro tipos de descripciones por medio de una escala de actitudes. Estás son:

    a) la actitud promedio o media de un individuo particular sobre el asunto en cuestión;

    b) la amplitud de opiniones que está dispuesto a aceptar o a tolerar;

    c) la popularidad rélativa de cada actitud de la escala dentro de un grupo señalado como lo indica la distribución de frecuencia de ese grupo, y

    d) el grado de homogeneidad o heterogeneidad de las actitudes de un grupo señalado acerca del asunto, como lo indica el grado de dispersión o extensión de su distribución de frecuencia.

   Este es el objetivo. El centro del problema está en la unidad de medida de la línea base, que es lo que veremos en el siguiente articulo

subir índice

Artículo septiembre 2007

   Las estimaciones en el estudio de evaluación de psicólogos clínicos

    Los ejemplos hasta aquí presentados presentan un lamentable cuadro sobre la validez de las medidas de las diferencias individuales consideradas. El caso típico exhibe una cantidad excesiva de varianza de método, que suele exceder la cantidad de varianza de rasgo. Este cuadro no se debe a un esfuerzo deliberado de seleccionar ejemplos ostensiblemente malos. Los estudios no publicados muestran el mismo cuadro. Si parecen más desalentadores que la tendencia general de los datos de validez informados en las revistas, puede ser porque la apariencia de validez que proporcionan los valores aislados que se desprenden de la diagonal de validez es engañosa e imposible de interpretar al margen de la matriz total. Sin embargo, claro está que pocos de los ejemplos clásicos de buena medición de las diferencias individuales intervienen y que en muchos de los casos la calidad de los datos pudo haber magnificado los factores de aparato, etcétera. Un conjunto de datos de personalidad más ideal para ejemplificar el método, por tanto, se encontró en la aplicación múltiple de un conjunto de escalas de estimación al estudiar la evaluación de los psicólogos clínicos (Kelly y Fiske, 1951). 

    En este estudio, la "escala de estimación A" contenía 22 rasgos referentes a "la conducta que puede observarse directamente en la superficie". En el uso de la escala se instruyó a los estimadores para que "descartaran cualesquiera inferencias acerca de dinámicas o causas subyacentes". Los sujetos, estudiantes de psicología clínica de primer año, se estimaron a sí mismos y también a sus tres compañeros de equipo con los que habían participado en varios procedimientos de evaluación y habían vivido durante seis días. Se usó la mediana de las estimaciones de los tres compañeros de equipo para la puntuación de compañero de equipo. Los sujetos también fueron estimados con respecto a los 22 rasgos por la dirección de evaluación. El análisis usa las estimaciones finales combinadas que fueron convenidas por tres miembros de la dirección después de la discusión y revisión de la enorme cantidad de datos y las muchas otras estimaciones de cada sujeto. Desafortunadamente, los miembros de la dirección vieron las estimaciones de sí mismo y las de los compañeros de equipo antes de hacer las suyas, aunque presumiblemente fueron poco influidos por estos datos, pues tenían a su alcance otras señales de evidencia. (Kelly y Fiske, 1951). Las estimaciones de sí mismo y las de los compañeros de equipo representan enteramente "métodos" distintos y se les puede dar mayor importancia al evaluar los datos que van a ser presentados.

    En un análisis previo de estos datos (Fiske, 1949), cada uno de los tres triángulos heterorrasgo-monométodo fue computado y factorizado. Para proporcionar una matriz multirrasgo-multimétodo, las 1 452 correlaciones de heterométodo fueron computadas especialmente para este informe. La matriz completa de 66 X 66 con sus 2 145 coeficientes es obviamente demasiado grande para presentarla aquí, pero será usada en el análisis que sigue. Para proporcionar una muestra ilustrativa, la tabla 12 presenta las interrelaciones entre cinco variables, seleccionando la que representa mejor cada uno de los cinco factores recurrentes descubiertos en el análisis previo de las matrices monométodo de Fiske (1949). (Fueron escogidas independientemente de su validez indicada en los bloques heterométodos. "Asertivo" -reflejado en el núm. 3- fue seleccionado para representar el factor recurrente 5, debido a que "locuaz" también obtuvo una alta carga en el primer factor recurrente).

    El cuadro presentado en la tabla 12 es representativo de la mejor validez de las estimaciones de rasgo de personalidad que la psicología puede ofrecer actualmente. Es confortante advertir que el cuadro es mejor que el de la mayoría de los previamente examinados. Nótese que los valores de validez de "asertivo" exceden los valores de heterorrasgo de los triángulos monométodo y heterométodo. "Alegre", "de intereses amplios" y "serio" tienen validez que excede los valores de heterorrasgo-heterométodo con dos excepciones. Solamente para "equilibrio inmutable" la evidencia de validez parece trivial. La elevación de las confiabilidades por encima de los triángulos heterorrasgo- mono método es la evidencia más amplia de validez discriminante.

    Una comparación de la tabla 12 con la matriz completa muestra que el procedimiento de una sola variable que represente cada factor ha acrecentado la apariencia de validez, aunque no necesariamente de un modo engañoso. Donde varias variables son influidas altamente por el mismo factor, su nivel "verdadero" de intercorrelación es alto. En estas condiciones, los errores de muestreo pueden hacer disminuir los valores de la diagonal de validez y agrandar otros para producir excepciones ocasionales al cuadro de validez, tanto en la matriz heterorrasgo-monométodo como en los triángulos heterométodo-heterorrasgo. En este caso, con una N de 124, el error de muestreo es apreciable, y de esta manera puede esperarse que se exagera el grado de invalidez.

    Dentro de las secciones de monométodo, los errores de medida se correlacionan al elevar el nivel general de los valores encontrados, mientras que dentro de los bloques de heterométodo, los errores de medida son independientes, y a lo largo de la diagonal de validez y los triángulos de heterorrasgo la validez tiende a decrecer. Estos efectos, que también pueden ser establecidos en términos de factores de método o insignificancias comunes de confusión operan fuertemente en estos datos, como probablemente en todos los datos que contienen estimaciones. Cuando diversas variables representan a cada factor, ninguna de las variables satisface consistentemente el criterio de que los valores de validez exceden los valores correspondientes en los triángulos de monométodo, cuando se examina la matriz completa.

    Como resumen del cuadro de validación con respecto a las comparaciones de valores de validez con otros valores de heterométodo en cada bloque, se ha preparado la tabla 13. Para cada rasgo y para cada uno de los tres bloques de heterométodo, el valor de fa diagonal de validez presenta el valor heterorrasgo más alto que lo incluye y el número de los 42 valores heterorrasgo semejantes que exceden a la diagonal de validez en magnitud. (El número 42 procede de la agrupación de los 21 valores de las otras columnas y de los 21 valores de los otros renglones para la columna y el renglón que interceptan al valor diagonal dado).

    Acerca del requisito de que la diagonal de validez exceda a todas las otras en su bloque de heterométodo, ninguno de los rasgos tiene un registro completamente perfecto, aunque algunos se acercan bastante. "Asertivo" tiene solamente una excepción trivial en el bloque "compañeros de equipo-sí mismo". "Locuaz" tiene casi un registro tan bueno como "imaginativo". Serio tiene solo dos excepciones inconsecuentes e "interés en las mujeres", tres. Estos rasgos se destacan como sumamente válidos de la descripción de sí mismo y la reputación. Nótese que los coeficientes de validez reales de estos cuatro rasgos se extienden desde .22 a .82, o si nos concentramos en el bloque "compañero de equipo-sí mismo", que seguramente representa métodos más independientes, desde .31 a .46. Aunque estos son los mejores rasgos, parece que la mayoría de ellos tienen una validez más que fortuita. Todos los que tienen 10 o menos excepciones poseen un grado de validez significativo en el nivel .001, estimado a bulto por la prueba de tos signos de una cola.  Si tomamos el valor de la validez como fijo (ignorando sus fluctuaciones muéstrales), podemos determinar si el número de valores más grandes que él en su renglón y columna es menor que el esperado sobre la hipótesis de nulidad de que la mitad de los valores estará por encima de él. Este procedimiento requiere la suposición de que la posición (por encima o por debajo del valor de la validez) de cualquiera de estos valores de comparación es independiente de la posición de cada uno de los demás, una suposición dudosa cuando se emplean los métodos comunes y la varianza de rasgo. Con la excepción de una variable, todas satisficieron este nivel en el bloque "dirección-compañero de equipo", todas menos cuatro en el bloque "dirección-sí mismo", todas menos cinco en el bloque más independiente, "compañero de equipo-sí mismo". Sin embargo, las excepciones a la validez significativa no son paralelas de columna a columna, y solamente 12 de las 22 variables tienen validez significativa de .001 en los tres bloques. Estas se indican por un asterisco en la tabla 13.

    Este nivel general de alta significación de la validez no debe oscurecer el interesante problema creado por las excepciones ocasionales, aun ante las mejores variables. Los excelentes rasgos de "asertivo" y "locuaz" proporcionan un caso a propósito. En término del análisis original de Fiske, ambos tienen fuertes cargas en el factor recurrente "seguro de sí mismo" (representado por "asertivo" en la tabla 12). "Locuaz" también tuvo una fuerte carga en el factor recurrente de "adaptabilidad social" (representado por "alegre" en la tabla 12). Esperaríamos, por consiguiente, una correlación alta entre ellos, así como discriminación significativa. Incluso en el nivel del sentido común, la mayoría de los psicólogos esperarían que sus colegas discriminen válidamente entre la asertividad o positividad (no sumisión) y la locuacidad. Sin embargo, en el bloque "compañero-sí mismo", "asertivo" estimado por sí mismo correlaciona .48 con "locuaz" por compañeros de equipo, más altamente que cualquiera de sus valores de validez en este bloque, .43 y .46.

    En términos del promedio de los valores de validez y la frecuencia de las excepciones, hay una clara tendencia del bloque "dirección-compañero" a mostrar el más alto acuerdo. Esto puede atribuirse a varios factores. Ambos representan estimaciones desde el punto de vista externo. Ambos son promediados para los tres jueces, y así se reducen al mínimo las distorsiones individuales e indudablemente se incrementan las confiabilidades. Además, las estimaciones de los compañeros de equipo fueron asequibles a la dirección al hacer sus estimaciones. Otro efecto contribuyente a la convergencia y discriminación menos adecuadas de las estimaciones de sí mismo fue un conjunto de respuestas hacia el polo favorable que redujo grandemente el rango de estas medidas (Fiske, 1949). El análisis de los detalles de los casos de invalidez que se resumen en la tabla 13 muestra que la mayoría de los casos el efecto es atribuible a la alta especificidad y baja comunalidad para la forma de estimación de sí mismo. En estos casos, la columna y el renglón que intersecan la diagonal de validez baja son asimétricas hasta donde se relaciona el nivel general de correlación, hecho que apoya la condensación que proporciona la tabla 13.

    El psicólogo de la personalidad está inicialmente predispuesto a reinterpretar las estimaciones de sí mismo, a tratarlas como síntomas en vez de interpretarlas literalmente. Se tuvo cuidado con los casos en que las estimaciones de sí mismo no fueron literalmente interpretables, pero no dejaron de tener un significado de diagnóstico cuando se "tradujeron" apropiadamente. De cualquier modo, los casos de invalidez de las descripciones de sí mismo del estudio de evaluación no son de este tipo, sino más bien se explican en términos de la ausencia de comunidad para una de las variables involucradas. En general, donde estas descripciones de sí mismo son interpretables de alguna manera, lo son tan literalmente como las descripciones de los compañeros de equipo. Tal hallazgo, por supuesto, puede reflejar un grado sustancial de penetración por parte de los sujetos.

    El éxito general con respecto a la validación discriminante junto con los patrones factoriales paralelos del análisis inicial de Fiske de las tres matrices intramétodo pareció justificar el análisis de la validez del patrón factorial en este caso. Un procedimiento posible consiste en hacer un solo análisis de la matriz total de 66 x 66. Otros enfoques centrados en la factorización por separado de bloques de heterométodo, matriz por matriz, también es sugerible. Pero tales métodos no solo serían extremadamente tediosos, sino, además, dejarían indeterminada la comparación precisa de la similitud del patrón factorial. La correlación de las cargas factoriales sobre la población de variables fue empleada con este propósito por Fiske (1949), pero si bien proporcionó la identificación de los factores recurrentes, ningún índice único total de la similitud del patrón factorial fue generado. Puesto que nuestro interés inmediato era confirmar un patrón de interrelaciones y no describirlo, escogimos el método corto y eficiente: probar la similitud de los conjuntos de valores de heterorrasgo mediante los coeficientes de correlación en los que cada anotación representaba el tamaño de los valores de los coeficientes de heterorrasgo dados en dos matrices diferentes. Para la matriz completa, las correlaciones se basarían en el valor de N de las 22 x 21/2 ó 231 combinaciones de heterorrasgo específicas. Las correlaciones se computaron entre las matrices monométodo "compañero de equipo" y "sí mismo", seleccionadas como de independencia máxima. (Los valores que siguen fueron computados a partir de la matriz original de correlación y son un poco más altos que los que se habrían obtenido de una matriz reflejada). La similitud entre las dos matrices monométodo fue de .84, lo que corrobora la similitud del patrón factorial entre estas matrices que Fiske describe más completamente en el análisis factorial paralelo que hizo de ellas. Al realizar este análisis, el bloque de heterométodo fue tratado como si estuviera dividido en dos por la diagonal de validez, de modo que los valores por encima y por debajo de la diagonal representaban la validación más independiente del patrón de correlación de heterorrasgo. Se correlacionaron a .63, un valor que aunque es bajo, muestra un sensible grado de confirmación. Examinemos ahora la cuestión de que el patrón con el que concuerdan los dos triángulos de heterométodo-heterorrasgo sea el mismo que se encontró común a los dos triángulos monométodo. La matriz intra-compañero de equipo se correlacionó con los dos triángulos de heterométodo a .71 y .71. La matriz intra-sí mismo se correlacionó a .57 y .63. Por tanto, en general, los resultados experimentales apoyan la validez del patrón de relaciones interrasgo.

 

    Relación con la validez de constructo

    Aun cuando los criterios de validación presentados se encuentren explícita o implícitamente en los estudios de la validez de constructo (Cronbach y Meehl, 1955; APA, 1954), el artículo se interesa primordialmente en la adecuación de los tests como medidas de un constructo y no tanto en la adecuación de un constructo como lo determina la confirmación de asociaciones previstas teóricamente que se hace por medio de las medidas de otros constructos. Antes de probar la relación entre un rasgo concreto y otros rasgos, se debe tener confianza en las medidas de ese rasgo. La confianza puede provenir de la validación convergente y discriminante. En otras palabras, cualquier formulación conceptual de un rasgo suele incluir implícitamente la proposición de que el rasgo es una tendencia a responder observable en más de una condición experimental y el rasgo puede ser diferenciado significativamente de otros rasgos: La prueba de estas proposiciones debe ser anterior a la prueba de otras proposiciones, de modo que evitemos la aceptación de conclusiones erróneas. Por ejemplo, un marco conceptual puede postular una gran correlación entre los rasgos A y B y ninguna entre los rasgos A y C. Si el experimentador mide A y B por un método (por ejemplo, un cuestionario) y C por otro método (como la medida de conducta abierta en una situación de prueba), sus hallazgos pueden ser consecuentes con su hipótesis únicamente como una función de la varianza común de método a sus medidas de A y B, pero no a C.

    Se entiende que los requisitos de este artículo son adecuados para los esfuerzos relativamente ateoréticos típicos de los tests y de la medición como para intentos más teóricos. Esta insistencia en los criterios validacionales de nuestro nivel ateorético de la construcción del test, no es en absoluto incompatible con un reconocimiento de las bondades de incrementar el grado de consideraciones teóricas que determinan todos los aspectos de un test y de la situación de prueba, como afirman Jessor y Hammond (Jessor y Hammond, 1957).

    Relación con el operacionalismo. (Underwood 1957), en su efectiva presentación del punto de vista operacional¡sta, señala de modo realista el tipo amorfo de teoría con la que trabaja la mayoría de los psicólogos. Compara la concepción "literaria" de un psicólogo con su definición operacional representada por sus tests u otros instrumentos de medida. Reconoce la importancia de la definición literaria en la comunicación y producción de la ciencia y advierte que la definición operacional "puede no medir en absoluto el proceso que se desea medir; puede medir incluso un objeto por completo diferente". Sin embargo, no indica cómo saber que se comete ese error.

    Los requisitos de nuestro artículo pueden verse como extensivos de la clase de operacionalismo que Underwood ha expresado. Al elaborador de test no se le pide engendrar de su concepción literaria o constructo privado una formulación operacional, sino dos o aún más, cada una tan diferente en cuanto al vehículo de investigación como sea posíble. Además, se le pide hacer explícita la distinción entre su nueva variable y otras variables, distinciones que intervienen en su definición literaria. Es aconsejable que en los primeros esfuerzos de validación, antes de imprimirlos, aplique los métodos y los rasgos diferentes. Su definición literaria, su concepción, quedará mejor representada en la concordancia de sus medidas independientes del rasgo. La matriz multirrasgo-multimétodo es un primer paso de importancia práctica para evitar "el peligro... de que el investigador piense que al partir de una concepción artística o literaria... para llegar a la construcción de los itemes de una escala que la mida, ha validado su concepción artística" (Underwood, 1957). En contraste con el operacionalismo individual que domina en la psicología, abogan por un operacionalismo múltiple, un operacionalismo convergente (Garner, 1954; Garner, Hake y Eriksen, 1956), una triangulación metodológica (Campbell, 1953, 1956), una delineación operacional (Campbell, 1954) y una validación convergente.

    La presentación de Underwood implica desplazarse del concepto a la operación, cosa frecuente y característica de la ciencia. Se puede indicar lo mismo, sin embargo, al analizar una transición de la operación al constructo. Para cualquier cuerpo de datos tomados de una sola operación hay una subínfinidad de interpretaciones posibles, es decir, una subinfinidad de conceptos o combinaciones de conceptos que la representan. Una sola operación es equívoca como representativa de conceptos. De un modo análogo, cuando examinamos el cuarto distorsionado de Ames desde un punto fijo y a través de un solo ojo, los datos del patrón retinal son equívocos en cuanto a la subinfinidad de hexaedrones que puede engendrar el mismo patrón. La adición de un segundo punto de vista, a través del paralaje binocular, reduce mucho su ambigüedad y limita considerablemente las construcciones de ambos conjuntos de datos. En el estudio de Garner (1954), las medidas de fraccionamiento de un solo método fueron equívocas, es decir, tal vez eran función de la distancia fraccionada del estímulo de comparación del proceso de juicio. Un operacionalismo convergente múltiple redujo la ambigüedad al señalar que la última conceptualización era la apropiada, y al revelar la preponderancia de una varianza de los métodos. Lo mismo sucede en los estudios de aprendizaje: al identificar los constructos con los datos de respuesta de animales en un arreglo operacional concreto hay ambigüedad, que se reduce operacionalmente al introducir pruebas de transposición, a saber, (as diferentes operaciones proyectadas para hacer comparaciones entre las conceptualizaciones rivales (Campbell, 1954).

    El operacionalismo convergente de Garner y nuestra insistencia en más de un método para medir cada concepto se separa de la primera posición de Bridgman: "si tenemos más de un conjunto de operaciones, hay más de un concepto y estrictamente hay un nombre diferente para cada conjunto de operaciones" (Bridgman, 1927). En la etapa presente de la psicología, el problema crucial consiste en la demostración de convergencia, aunque no de completa congruencia, entre dos conjuntos distintos de operaciones. Con solo un método, no hay manera de distinguir la varianza de rasgo de la indeseada varianza de método. Cuando la medición y la conceptualización psicológicas lleguen a estar mejor desarrolladas, puede ser muy adecuada la diferencia conceptual entre la unidad A1 de rasgo-método y la unidad A2 de rasgo-método, donde el rasgo A se mide por diferentes métodos. Más probablemente, la varianza de método se concretará teóricamente en términos de un conjunto de constructos. Entonces se sabrá que los procedimientos de medición suelen incluir varios constructos teóricos en aplicación conjunta. Para que las medidas obtenidas estimen valores para un solo constructo bajo esta condición se requiere también la comparación de medidas complejas que varían en su composición de rasgo, de manera algo semejante a una matriz multirrasgo. El método de unión de Mill de las semejanzas y las diferencias abrevia demasiado la efectiva clarificación experimental de los conceptos.

    La evaluación de una motriz multirrasgo-multimétodo. La evaluación de la matriz de correlación que se forma al intercorrelacionar varias unidades de rasgo-método, debe tener en consideración los factores que, según se sabe, afectan la magnitud de las correlaciones. Un valor de la diagonal de validez debe ser evaluado a la luz de las confiabilidades de las dos medidas involucradas; por ejemplo, una baja confiabilidad para el test A2 exagera la varianza de método manifiesta en el test A1. Además, el enfoque global supone que el muestreo de los individuos es adecuado: la reducción de la muestra con respecto a uno o más rasgos harán disminuir los coeficientes de confiabilidad y las intercorrelaciones que contengan estos rasgos. Aunque las restricciones de rango sobre todos los rasgos produce serias dificultades en la interpretación de la matriz multirrasgo-multimétodo y deben evitarse siempre que se pueda, la presencia de diferentes grados de restricción en distintos rasgos es el peligro más serio de la interpretación significativa.

    Se pueden desarrollar varios tratamientos estadísticos para las matrices multirrasgomultimétodo. Se han considerado pruebas elementales de la elevación de un valor en la diagonal de validez por encima de los valores de comparación en su renglón y columna. Se ha propuesto el uso de correlaciones entre las columnas de variables que miden el mismo rasgo, el análisis de varianza y el análisis factorial. El desarrollo de tales métodos estadísticos está más allá del propósito de esta exposición. Los psicólogos no deben interesarse en evaluar los tests como si fueran fijos y definitivos, sino más bien en desarrollar mejores tests. Un examen cuidadoso de una matriz multirrasgo-multimétodo indicará al experimentador los pasos que debe dar; le indicará qué métodos debe descartar o reemplazar, los conceptos que necesitan una delineación más definida y los que son más pobremente medidos a causa de la excesiva o desconcertante varianza de método. Los juicios de validez basados en tal matriz deben tener en cuenta la etapa de desarrollo de los constructos, las relaciones postuladas entre ellos, el nivel de afinamiento técnico de los métodos, la relativa independencia de estos y cualquier característica pertinente de la muestra de sujetos. Estamos proponiendo que el proceso de validación sea considerado un aspecto de un programa de mejoramiento de los procedimientos de medición, y que los "coeficientes de validez" obtenidos en cualquier etapa del proceso sean interpretados como ganancia sobre las etapas precedentes y señales de hacia dónde dirigir los esfuerzos ulteriores.

    El diseño de una matriz multirrasgo-multimétodo. Los diferentes métodos y rasgos incluidos en una matriz de validación deben seleccionarse con cuidado. Los diversos métodos que miden cada rasgo deben ser adecuados a cómo se ha conceptualizado el rasgo. Aunque esta perspectiva reducirá el rango de métodos adecuados, rara vez restringirá la medición a un procedimiento operacional.

    Siempre que se pueda, los diversos métodos en una matriz deben ser completamente independientes entre sí; no debe haber ninguna razón previa para creer que comparten varianza de método. Este requisito es necesario para que los valores en los triángulos de hsterométodo-heterorrasgo se acerquen a cero. Si la naturaleza de los rasgos excluye la independencia de métodos, deben hacerse esfuerzos para obtener diversidad en cuanto a las fuentes de datos y a los procesos de clasificación. De este modo, las clases de estímulos o las situaciones de fondo, es decir, los contextos experimentales, deben ser diferentes. Además, las personas que proporcionen las observaciones deberán tener diferentes papeles o los procedimientos de calificación deberán ser variados.

    Los planes para una matriz de validación deben tener en cuenta la diferencia entre las interpretaciones con respecto a la convergencia y a la discriminación. Basta con demostrar convergencia entre dos métodos claramente distintos que muestran poco traslapamiento en los triángulos de heterorrasgo-heterométodo. Mientras el acuerdo entre varios métodos sea deseable, la convergencia de dos es un requisito mínimo satisfactorio. La validación discriminativa no se logra con facilidad. Así como es imposible comprobar la hipótesis de nulidad, o que un objeto no existe, no se puede establecer que un rasgo, como es medido, se diferencia de todos los demás. Solamente se puede mostrar que la medida del rasgo A tiene poco traslapamiento con las medidas de B y C, y ninguna generalización segura puede hacerse más allá de B y C. Por ejemplo, el equilibrio social probablemente pudiera discriminarse fácilmente de los intereses estéticos, pero también debe ser diferenciado de liderazgo.

    En cuanto a los rasgos relacionados y que se espera se correlacionen entre sí, las correlaciones de monométodo serán sustanciales y las de heterométodo entre rasgos también serán positivas. Si se quiere facilidad e interpretación, es mejor incluir en la matriz por lo menos dos rasgos y preferiblemente dos conjuntos de rasgos que sean postulados independientes entre sí.

    Muchas matrices multirrasgo-multimétodo no mostrarán validación convergente; puede no haber ninguna relación entre dos métodos de medición de un rasgo. En esta situación común, el experimentador debe examinar las pruebas a favor de varias alternativas:

    a) ningún método es adecuado para medir el rasgo;

    b) uno de los dos métodos no mide realmente el rasgo. (Cuando las pruebas indican que un método no mide el rasgo postulado, puede indicar que mide otro rasgo. Las altas correlaciones en los triángulos de heterorrasgo-heterométodo pueden ofrecer sugerencias a tales posibilidades).

    c), el rasgo no es una unidad funcional, es decir, las tendencias de respuesta que intervienen son propias de los atributos y no del rasgo de cada test. El fracaso al demostrar la convergencia puede llevar a desarrollos conceptuales en lugar de abandonar el test.

 

   RESUMEN

    Se propone un proceso de validación que utiliza una matriz de intercorrelaciones entre los tests que representan por lo menos dos rasgos, cada uno medido por un mínimo de dos métodos. Las medidas del mismo rasgo deben correlacionarse más entre sí que con medidas de diferentes rasgos que involucren distintos métodos. Idealmente, estos valores de validez también deben ser más altos que las correlaciones entre los diferentes rasgos medidos por el mismo método.

   Ejemplos hallados en la bibliografía muestran que estas condiciones deseables, como grupo, rara vez son satisfechas. Los factores de método o de aparato contribuyen grandemente a las medidas psicológicas.

   Las nociones de convergencia entre las medidas independientes del mismo rasgo y la discriminación entre las medidas de diferentes rasgos son comparadas con las formulaciones publicadas anteriormente, como la validez de constructo y el operacionalismo convergente. Los problemas de la aplicación de este proceso de validación ya se consideraron.

BIBLIOGRAFIA

subir índice

Artículo agosto 2007

Las Validaciones Convergente y Discriminante Mediante la Matriz Multirrasgo-Multimétodo

 

    La experiencia acumulada en la medida de las diferencias individuales durante los últimos 50 años, señala que los tests han sido aceptados o descartados en cuanto a su validez gracias a muchas clases de experiencias de investigación. Los criterios que sugiere este trabajo se encuentran en dichas evaluaciones acumulativas, así como también en los recientes estudios acerca de la validez. Estos criterios se aclaran y aumentan su eficacia cuando se consideran conjuntamente en el contexto de una matriz multirrasgo-multimétodo. Los aspectos más estudiados del proceso de validación son los siguientes:

    1. La validación es característicamente convergente, es decir, una corroboración por procedimientos de medición independientes. La independencia de los métodos es el denominador común de los principales tipos de validez (con la excepción de la validez de contenido) en la medida en que se distinguen de la confiabilidad.

    2. Ya sea para justificar las mediciones de nuevos rasgos, para la validación de la interpretación de tests, o para el establecimiento de la validez de construcción, se requiere la validación discriminante, así como también la validación convergente. Los tests pueden ser invalidados por tener correlaciones demasiado altas con otros, cuando la intención ha sido que difieran.

    3. Cada test o cada tarea empleados con propósitos de medición es una unidad rasgo-método, una unión del contenido de un rasgo particular con procedimientos de medida que no son propios de ese contenido. La varianza sistemática entre las puntuaciones de un test puede deberse a la respuesta frente a las cualidades de la medición, así como de la respuesta al contenido del rasgo.

    4. Para examinar la validez discriminante y para estimar las contribuciones relativas de la varianza del método y del rasgo, debe emplearse mós de un rasgo y más de un método, en el proceso de validación. En muchos casos será conveniente realizarlo a través de una matriz multirrasgo-multimétodo , que presenta todas las intercorrelaciones resultantes cuando cada uno de los diferentes rasgos se mide por cada uno de los distintos métodos.

    Para ilustrar el proceso de validación sugerido, se presenta un ejemplo sintético en la tabla 1. En este ejemplo intervienen tres rasgos diferentes, cada uno medido por tres métodos, que generan nueve variables distintas. Es conveniente nombrar las diferentes regiones de la matriz, como se hace en la tabla 1. Las confiabilidades se mencionan en términos de tres diagonales de confiabilidad, una para cada método. Las confiabilidades también podrán designarse como valores de monorrasgo-monométodo. El triángulo adyacente a cada diagonal de confiabilidad se llama triángulo heterorrasgo-monométodo. La diagonal de confiabilidad y el triángulo adyacente heterorrasgo-mono método forman un bloque monométodo. Un bloque heterométodo está formado por una diagonal de validez (que también puede designarse como valores de monorrasgo-heterométodo) y los dos triángulos heterorrasgo-heterométodo) que están a cada lado de ella. Nótese que los dos triángulos heterorrasgo-heterométodo no son idénticos.

    En términos de este diagrama, la cuestión de la validez radica en cuatro aspectos. En primer lugar, las anotaciones de la, diagonal de validez deben ser significativamente diferentes de cero y suficientemente grandes para estimular un examen más amplio de la validez este requisito es una señal de validez convergente. En segundo lugar, un valor de la diagonal de validez debe ser mayor que los de su columna y renglón en los triángulos heterorrasgo-heterométodo. Es décir, el valor de la validez de una variab