Virgen de Loreto
Este espacio está reservado para los artículos ya publicados
LOS VALORES ESCALARES UN CRITERIO OBJETIVO DE INADECUACIÓN
En la medida de lo posible, se han probado de forma objetiva este tipo de procedimientos; y se han retenido de forma intencionada algunas aseveraciones de
opinión que eran abiertamente ambiguas o de la misma manera inadecuadas para una escala de actitud. Estas se han probado determinar en qué grado podían
eliminarse por métodos objetivos. Difícilmente se llegaría a elaborar una escala de actitud útil, aplicando mecánicamente reglas de objetividad. Se puede
vaticinar que prevalecerá indefinidamente cierta libertad en lo que concierne a los juicios de los investigadores; pero estos métodos únicamente alcanzarán
éxito en la medida en que los juicios individuales del investigador, sobre material de esta clase, puedan comprobarse de modo objetivo.
El criterio de ambigüedad denota la extensión de una aseveración sobre la escala subjetiva de
intervalos aparentemente iguales. Si 300 sujetos colocan una aseveración de opinión en intervalos muy diferentes de la escala citada, el valor Q de aquélla
será grande y, por consiguiente, según este criterio objetivo, se la considerará ambigua, pues demuestra tener significados en extremo diversos, para los
diferentes sujetos, a lo largo de la escala de actitud. De más está decir que aseveraciones así deben eliminarse. Por simple examen, es posible afirmar en
general si una aseveración tendrá un valor Q grande, Es de observarse que este valor de una opinión no refleja las opiniones efectivas que los sujetos
mantengan sobre el asunto en consideración. Estos únicamente clasifican las aseveraciones conforme a la actitud que encuentren en aquéllas, sin expresar de
modo alguno sus propias actitudes. Por otra parte, el criterio de inadecuación atiende a los registros de los votos
efectivos. La lista completa de 130 afirmaciones se imprimió y luego se expuso a los 300 sujetos, a quienes se pidió marcar las opiniones que aprobaran o con las
cuales estuvieran de acuerdo, y que dejaran en blanco las restantes. Se pasó después a estudiar las respuestas en lo referente a su consistencia interna.
Cuando encontramos gran inconsistencia, la atribuimos al descuido de los sujetos que acaso hacían sus marcas al azar, o a defectos de las propias aseveraciones.
En los experimentos presentados se encuentran cierta cantidad de inconsistencia a lo largo de toda la lista; podemos atribuirla, indudablemente y por lo menos en
parte, a los sujetos mismos. Pero las inconsistencias varían con la aseveración seleccionada como base de comparación de las restantes; y tales diferencias se
deben, principal y evidentemente, a defectos de las aseveraciones mismas. Así se han considerado; y se desarrolla un criterio de inadecuación que puede
usarse ampliamente para eliminar las afirmaciones inadecuadas de la escala. Este criterio se desarrolla como sigue: supongamos que una afirmación de poca
ambigüedad se ubica correctamente en el punto 6 de la escala. Si un sujeto tiene una actitud que también se colocó correctamente en el punto 6 de la escala,
entonces esperamos que marque esa afirmación. Otro sujeto, que se colocó en el punto 12, con menor probabilidad marcaría esa afirmación; de manera similar
habría una probabilidad pequeña de que un sujeto en el punto 0 marcara la aseveración colocada en el 6 de la escala. Para hacer este tipo de análisis
cuantitativo, se ha desarrollado un índice más bien neto de semejanza, que se basa en la votación de un número grande de sujetos. El índice de semejanza de un
par de aseveraciones se basa en tres hechos, a saber, na = total de sujetos que
ratifican la aseveración a en la comparación; nb = número total de sujetos que ratifican la afirmación b en la comparación; nab = número total
de sujetos que ratifican tanto a como b. Si las dos aseveraciones a y b son prácticamente iguales en cuanto a las actitudes que
reflejan, entonces esperamos encontrar que los sujetos que ratifican la afirmación a también ratificarán la b. Por consiguiente, este factor
nab será el numerador del índice de semejanza. Por otra parte, las aseveraciones varían considerablemente en popularidad intrínseca aun cuando sean colocadas en puntos
idénticos de la escala. Cuanto más popular es una aseveración, tanto mayor es el número de personas que la ratifica, pero no así cualquier otra. Para reducir el
índice de semejanza a la misma base de popularidad en todas las aseveraciones, se divide el número de sujetos que ratifican ambas aseveraciones entre el
producto del número total de ratificaciones con respecto a cada una de las dos aseveraciones, de manera que el índice de semejanza es
nab/na• nb Si tabulamos los índices de la
aseveración a con cada uno de las demás en forma sucesiva, tendremos el factor común 1/na que puede descartarse, pues es una constante. Entonces tendremos:
índice de semejanza de la aseveración: a = Ca = nab/nb
Este índice sirve para comparar la aseveración a con cada una de las demás. Es evidente que el valor máximo posible de este índice es la unidad y su valor
mínimo, cero. Cuando todas las personas que ratifican la aseveración a también ratifican la k, el índice de semejanza es la unidad como debería ser porque las
dos aseveraciones son entonces evidentemente muy semejantes en las actitudes que reflejan. Si, por otra parte, ninguno de los que ratifican la aseveración a
ratifica la k, entonces el índice es cero; esto se deduce de que las dos aseveraciones son entonces evidentemente muy diferentes en cuanto a las
actitudes que describen. En la figura 1
tenemos una representación gráfica de los índices de semejanza de la aseveración 96 con cada una de las demás, y en contraste con el valor escalar de cada una de
ellas. El valor escalar de la aseveración 96 se indica por la pequeña flecha sobre la línea superior del diagrama. Su índice de semejanza consigo misma, en
condiciones ideales, sería la unidad. Se observa inmediatamente que los índices de la aseveración 96, con cada una de las demás aseveraciones, son muy bajos
cuando éstas están alejadas de ella. Y esto es precisamente lo que se esperaba. Dicho de otra manera, quienes ratificaron la aseveración 96, que se colocó en
10.5, no ratifican a menudo las aseveraciones que están en los intervalos de clase cuatro o cinco, en el otro extremo de la escala. Los índices son más altos
cuando la segunda aseveración se acerca al valor escalar de la aseveración 96. Cada círculo pequeño en este diagrama representa el índice de semejanza entre la
aseveración 96 y otra, y está colocado inmediatamente por encima del valor escalar de esa segunda aseveración. El
criterio de inadecuación se manifiesta en el diagrama entero. Cuando los índices de semejanza son relativamente altos, cerca del valor escalar de la aseveración
común o primera, y relativamente bajos para las aseveraciones que están lejos de dicha aseveración, la primera aseveración se considera satisfactoria. Esto
significa sencillamente que no es tan probable que las personas que ratifican la aseveración 96 ratifiquen también las aseveraciones que están más alejadas del
valor escalar 96. El aspecto de la figura 1 se considera satisfactorio y por consiguiente se conserva la afirmación 96.
Veamos un análisis semejante de una aseveración que fue
descartada por el criterio de inadecuación. En la figura 2 aparecen los índices de semejanza de la aseveración 23. El valor escalar de esta aseveración también
se indica por una pequeña flecha sobre la línea superior del diagrama. Considérese el pequeño círculo en el extremo izquierdo del diagrama. Es el
índice de semejanza entre la aseveración 23 y la 101, que tiene un valor escalar de .02. El índice es de .56. Los otros círculos se ubicaron de manera semejante
y representan el grado de semejanza entre la aseveración 23 y cada una de las demás. Observese que las personas que ratifican la aseveración 23 ratifiquen tanto las
afirmaciones en cualquier extremo de la escala como las próximas a la afirmación 23. Los puntos se dispersan más o menos horizontalmente en el diagrama. Esto
indica que hay algo fundamentalmente erróneo en la aseveración 23 como índice de una actitud particular en la escala. Dicho de otra manera, si una persona
ratifica esta afirmación no podemos decir nada acerca de su actitud hacia la iglesia, porque es probable que ratifique no solamente las afirmaciones dentro
del intervalo de clase 4-5, sino también las que están en los extremos de la escala, hasta donde puede juzgarse por la propia afirmación 23. La aprobación de
esta aseveración no nos ayuda, sin embargo, a ubicar al sujeto en un punto de la escala. En la
aseveración original se afirmaba lo siguiente: "Estoy interesado en una iglesia que es bella y que destaca el lado estético de la vida". Ahora podemos ver por qué esta afirmación
es inadecuada para la variable de actitud que intentamos medir. Sin duda, el miembro devoto de la iglesia puede ratificar conscientemente esta afirmación,
pues le interesa que la iglesia sea bella. Pero el ateo también puede ratificar la aseveración porque pueden interesarle los edificios bellos,
incluyendo las iglesias, y asimismo interesarle la música religiosa aunque no tome en serio las funciones inherentes a la iglesia. La actitud reflejada por la
afirmación 23 no es válida, por consiguiente, como índice de la variable de actitud que está implícita en la lista de aseveraciones como un todo. El hecho
de que los índices de la figura 2 se dispersen más o menos horizontalmente a través de la escala entera constituye la razón objetiva para descartar la
aseveración 23.
Veamos otras muestras que revelan el criterio de inadecuación en otras aseveraciones. En la figura 3 se han dibujado los índices de semejanza dé
la aseveración 7. Esta aseveración se colocó en el 8.2 de la escala y los índices tienen valores muy bajos en el otro
extremo de la misma. Por consiguiente, esta aseveración se retuvo en la escala final.
La figura 4 presenta un dibujo semejante para la aseveración 113 donde los índices de semejanza tienen valores bajos para las segundas aseveraciones en la
mitad superior de la escala. Todos los índices están por encima de .90 en varios de los primeros intervalos de clase. Por consiguiente, la afirmación se conservó
para la escala final. La figura 5
muestra un dibujo semejante para la afirmación 49. Aquí nuevamente los índices se dispersan más o menos horizontalmente a través de la escala entera y, por
consiguiente, se descartó la afirmación 49. Veamos la aseveración original. Dice lo siguiente: "Yo creo que uno no tiene que pertenecer a la iglesia para
ser religioso". Es muy posible que un miembro devoto de la iglesia ratifique esta afirmación. También es posible que la persona no religiosa la ratifique
como una aseveración de hecho, aunque no tenga interés en la iglesia ni en la religión. Es de esperarse que la proporción de ratificaciones a esta aseveración
sea más alta en el extremo contrario de la escala y aso es lo que encontramos en la figura 5, pero la discriminación no es de ninguna manera suficiente. Los
índices tienen aproximadamente el mismo nivel a lo largo de la escala y, por consiguiente, se descarta la aseveración.
La figura 6 presenta una discriminación satisfactoria para la aseveración 50
porque los índices están por encima de .90 próximos al valor escalar de la aseveración 50, señalado por la pequeña flecha, y descienden a valores
inferiores en el otro extremo de la escala. Por tanto la afirmación se conserva.
La figura 7 es la gráfica de la afirmación 9, la cual se descarta porque los índices de semejanza no presentan suficiente variación en las diferentes partes
de la escala. En efecto, la afirmación dice: "No creo que ir a la iglesia perjudique a nadie". Aquí, podemos suponer otra vez, fácilmente, que el miembro
devoto de la iglesia reconocerá la verdad de esta afirmación. El votante contrario a la iglesia también esté posiblemente dispuesto a reconocer que
asistir a la iglesia no perjudica a nadie. Este último grupo no ratificará con tanta facilidad la aseveración como el primero; pero el examen del diagrama
indica claramente que la discriminación es insatisfactoria. Las personas, a través de toda la escala, ratifican esta aseveración aunque tengan sentimientos
o ideas completamente diferentes para hacerlo. La simple ratificación de esta aseveración no nos ayuda a ubicar al votante en la escala; y es por esto que la
aseveración se considera inadecuada para la escala, la cual está representada por la lista entera de aseveraciones.
Indudablemente sería posible cuantificar el criterio de inadecuación de manera mejor. Sin embargo, es conveniente esperar a que se tenga una formulación más
general. Se han unificado dos criterios objetivos para la selección y ubicación de las aseveraciones de opinión, que
son: el criterio de ambigüedad, ó sea el valor Q, que se basa en el grado de uniformidad en la clasificación de las aseveraciones, y el criterio de
inadecuación, que se basa en la consistencia de la votación o ratificación efectiva. Estas dos partes fueron realizadas en dos
grupos diferentes de sujetos. Una aseveración puede ser clasificada uniformemente por todos los
sujetos y, no obstante, ser declarada inapropiada por el criterio de inadecuación. Esto se explica de la siguiente manera: cuando leemos una
aseveración y después juzgamos la actitud que representaría, podemos concordar completamente y entonces le asignamos un valor Q, bajo, a la aseveración. Cuando
pedimos a los sujetos que ratifiquen ésta, encontramos que algunos que difieren ampliamente en sus actitudes tienen razones muy diferentes para hacerlo. Esto es
particularmente probable cuando la aseveración puede considerarse ya como una expresión de actitud, ya como descripción de un hecho. Por ejemplo, el devoto de
la iglesia probablemente no apoye la aseveración "Ir a la iglesia no perjudica a nadie". Una persona que apoye espontáneamente esa aseveración no es probable que
sea un devoto de la iglesia. La situación es muy diferente cuando la aseveración es elaborada por algún otro y presentada para ratificación como si fuera
verdadera o falsa. En tal situación, el devoto de la iglesia puede reconocer la aseveración como verdadera, aunque naturalmente no expresa con ello sus propias
actitudes. Esta distinción entre lo que decimos espontáneamente al expresar nuestras actitudes y lo que estamos dispuestos a reconocer o ratificar cuando es
expresado por algún otro, probablemente explique el hecho de que el criterio de ambigüedad y el criterio de inadecuación no siempre eliminan las mismas
aseveraciones. De manera ideal, la escala debería construirse quizá solamente por medio de votación. Es posible
plantear el problema de modo que los valores escalares de las aseveraciones puedan extraerse de los registros de votación efectiva. Si esto fuera posible,
el procedimiento presente para establecer los valores escalares por clasificación sería inútil.
CRITERIOS INFORMALES PARA LA SELECCIÓN DE OPINIONES En esta escala de actitud, se han
formulado una lista de criterios informales que se usarán en la construcción de futuras escalas de actitudes. Por medio de estos criterios se encuentra que
muchas de las opiniones de la escala experimental presente son defectuosas, y hay que tenerlas presentes al comenzar la construcción de nuestra propia escala,
que no tenga, hasta donde sea posible, los defectos que vamos a describir. La lista siguiente contiene algunos criterios informales para la selección de opiniones
en la elaboración de una escala de actitud; no está completa y posiblemente se opine que no son defectuosas algunas de las características siguientes.
1. Hasta donde sea posible, las opiniones deben reflejar la actitud presente del sujeto y no sus actitudes pasadas. Expresando las opiniones en tiempo presente
se evita que un sujeto pueda ratificar dos opiniones conflictivas, una referente a su actitud pasada y otra a la actual. El valor escalar del sujeto describiría,
naturalmente, su actitud presente. 2. Se ha encontrado que las aseveraciones de significado doble tienden a ser
ambiguas. El material debe redactarse de tal manera que cada opinión exprese hasta donde sea posible solamente un pensamiento o idea. El sujeto se confunde al leer una aseveración
de doble significado en la que desea ratificar una idea pero no la otra. Ejemplo: "Yo creo en los ideales de la iglesia, pero estoy fastidiado de
sectas". Tal vez esta afirmación fuera más útil si se dividiera en dos opiniones. 3. Uno debe evitar las
afirmaciones que son aplicables evidentemente á un grupo muy restringido de sujetos. Ejemplo: "Yo voy a la iglesia porque me gusta la buena música". "Estoy
en el coro y aprendo música y cantos corales". La primera aseveración puede ser ratificada por un grupo amplio de sujetos, pero la segunda pueden ratificarla
solamente quienes son miembros del coro de una iglesia. Probablemente no vale la pena incluir, en una escala, opiniones que estén limitadas de ese modo por
características relativas a hechos precisos. Lo que deseamos medir es la actitud y para hacerlo debemos evitar una influencia tan marcada en la amplitud
de los posibles ratificadores. La afirmación precedente acaso mejoraría mucho para nuestros propósitos si solamente se mantuviera la primera afirmación, para
incluirla en una escala. 4. Cada opinión elegida para la escala de actitud debería ser, preferentemente, de tipo
tal que no pudieran ratificarla los sujetos de ambos extremos de la tabla. Tales opiniones serían eliminadas por los criterios objetivos; pero cuando este
defecto es conspicuo la afirmación puede descartarse desde el principio. Probablemente siempre habría, además, cierto número de opiniones de la lista que
tengan este defecto y que no sean reconocidas cuando las lee el investigador. Posteriormente, cuando son descartadas por los criterios objetivos, resulta
generalmente fácil saber por qué fueron eliminadas estas aseveraciones. Dicho de otra manera, es más fácil tener una base objetiva para descartar una aseveración
y después, al examinarla, ver por qué se descartó, que descubrir estas aseveraciones defectuosas mediante la lectura de la lista completa de
aseveraciones originales. 5. Hasta donde sea posible, las aseveraciones, no deben contener conceptos relacionados y
confusos. En el material de la escala de actitud presente tenemos varias aseveraciones que mencionan a la "religión verdadera" y a "la religión de
Jesús". Probablemente es difícil interpretar estas aseveraciones, porque además de las afirmaciones acerca de la iglesia contienen conceptos relacionados que
deberían evitarse siempre que sea posible. Ejemplo: "Yo creo que la iglesia permite las diferentes sectas para aparecer más grande que la religión verdadera". Una aseveración de este tipo puede reelaborarse para que solo se
refiera a las diferencias de secta, demasiado recalcadas por las iglesias, según se afirma, sin incluir la incertidumbre de interpretación de la frase "religión
verdadera". 6. Si las demás cosas son iguales, debe evitarse la jerga, respectiva excepto cuando sirva al propósito de
describir una actitud en forma mas breve de la que podría lograrse de otra manera. Por ejemplo, decir que la mayoría de los
sermones son "pura habladuría" puede justificarse si se considera una manera natural de expresar la actitud que se va a representar en la escala.
MEDIDA DE LAS ACTITUDES
UNIDAD DE MEDIDA PARA LAS ACTITUDES La única manera como podemos identificar las actitudes diferentes (los puntos en
la línea base) es utilizando un conjunto de opiniones como marcas, en las diferentes partes o pasos de la escala. La escala final consistirá entonces en
una serie de aseveraciones de opinión; y cada una de ellas estará ubicada en un punto particular en la línea base. Si comenzamos con suficientes aseveraciones
quizá podamos seleccionar una lista de 20 0 30 opiniones escogidas, de manera que representen una serie de actitudes graduadas de manera uniforme. La
separación entre las aseveraciones de opinión sucesivas sería entonces uniforme; pero la escala puede construirse también con una serie de opiniones ubicadas en
la línea base aunque sus separaciones sean desiguales. Sin embargo, con el propósito de dibujar distribuciones de frecuencia, es conveniente que los pasos
entre las aseveraciones escogidas sean uniformes por la amplitud entera de la escala.
Considérense las tres aseveraciones a, c y d en la figura 1. Las aseveraciones c y a se colocan muy juntas para indicar su extrema semejanza, mientras que las
aseveraciones c y d se colocan con gran separación entre sí para apuntar lo diferentes que son. Es de esperarse que dos individuos colocados en los puntos c
y a, respectivamente, concuerden extremadamente al discutir sobre pacifismo y militarismo. Por otra parte, pensamos que es muy fácil expresar la diferencia
que hay entre las opiniones de una persona en d y otra en c. Las separaciones escalares de las opiniones deben concordar con nuestras impresiones de ellas.
Para determinar lo separadas que deben estar las aseveraciones en la escala final, las aplicamos a un grupo de varios cientos de personas, a quienes pedimos
que ordenen las aseveraciones desde la más pacifista hasta la más militarista. No les preguntamos sus propias opiniones. Ese es un asunto por entero diferente.
Lo que nos interesa es la elaboración de una escala con una unidad válida de medida. Puede haber cien aseveraciones en la lista original y se pide a varios
cientos de personas que solamente arreglen las aseveraciones en orden jerárquico conforme a la variable de actitud señalada. Después es posible determinar la
proporción de sujetos que consideran la afirmación a más militarista que la c. Si las dos afirmaciones representan actitudes muy similares, no debemos esperar
un acuerdo perfecto en el orden jerárquico de las afirmaciones a y c. Si son idénticas en actitud, habrá cerca del 50% de sujetos que digan que la
aseveración a es más militarista que la c, mientras que el otro 50% dirá que la aseveración c es más militarista que la a. Es posible usar la proporción de
sujetos o jueces que coincidieron con respecto al orden jerárquico de dos afirmaciones cualesquiera como base de la medición efectiva.
Si el 90% de los jueces o sujetos dicen que la afirmación a es más militarista que la b (pa>b = .90) y si solamente el 60% de los jueces dicen que la
afirmación a es más militarista que la c(pa>c =.60), entonces la separación escalar (a - c) es más corta que la separación escalar
(a-b).La separación entre dos estímulos cualesquiera en la escala psicológica puede medirse con base en una ley del juicio comparativo.
Los métodos pormenorizados de manejo de los datos se publicarán conjuntamente con la construcción de cada escala particular. El resultado práctico de este
procedimiento es una serie de aseveraciones de opinión colocadas a lo largo de la línea base de la figura 1. La interpretación de las distancias de la línea
citada consiste en que la diferencia aparente entre dos opiniones cualesquiera será igual a la diferencia aparente entre otras dos opiniones cualesquiera que
estén igualmente espaciadas en la escala. Dicho de otra manera, el cambio de opinión representado por la distancia de una unidad en la línea base parece ser,
para la mayoría de las personas, igual al cambio de opinión representado por la distancia de una unidad en cualquiera otra parte de la escala. Los dos
individuos que están separados por determinada distancia en la escala parecen diferir en sus actitudes, tanto como otros dos individuos cualesquiera que
tengan la misma separación escalar. En este sentido, tenemos una línea base verdaderamente racional; y los diagramas de frecuencia erigidos en tal línea
base son susceptibles de interpretación legítima como superficies de frecuencia. En contraste con semejante línea base o escala racional está el sencillo
procedimiento de enumerar solamente de diez a veinte opiniones, hacer que unos cuantos jueces las ordenen jerárquicamente, para después contar simplemente el
número de adhesiones a cada aseveración. Esto puede hacerse, desde luego, siempre que no se interprete el diagrama resultante como una distribución de
frecuencia de actitud. Si el diagrama se interpreta de esta manera, puede tomar cualquier forma que queramos con sólo agregar nuevas aseveraciones o eliminar
algunas, arreglando la lista resultante en orden jerárquico aproximado, y uniformemente espaciado en la línea base. Los diagramas de opiniones de Allport
no son en ninguna forma distribuciones de frecuencia. Deben considerarse como diagramas de barras donde se presenta la frecuencia con que fue respaldada cada
una de las aseveraciones. Este método ha mejorado el procedimiento de Allport. Este trata virtualmente con órdenes jerárquicos, en este se pretende transformar
en medida, con una unidad racional de medida. Los estudios pioneros de Allport en este campo deben ser leídos por todos los investigadores de este problema.
La unidad de medida de la escala de actitudes es la desviación estándar de la dispersión proyectada
en la escala psicofísica de actitudes, por una aseveración de opinión, seleccionada como estándar. No importa qué afirmación se escoja como estándar;
las escalas producidas por diferentes aseveraciones estándares tienen valores escalares proporcionales. Esta unidad mental de medida es aproximadamente
semejante, pero no idéntica, a la llamada "diferencia apenas notable" de la medición psicofísica.
Puede elaborarse un diagrama semejante al de la figura 1 por lo menos de dos maneras diferentes.
Puede hacerse que el área de la superficie de frecuencia represente al número total de votos o adhesiones de un grupo de personas, o bien puede representar el
número total de individuos del grupo estudiado. Los diagramas de Allport se harían con el último principio si fueran elaborados sobre una línea base
racional, de modo que pudiera medirse un área legítima. A cada sujeto se le pediría que seleccionara de la lista la aseveración que fuese más representativa
de su propia actitud. En tal caso, por lo menos la suma de las ordenadas sería igual al número de personas del grupo. En este procedimiento se pide a cada
sujeto que ratifique todas las afirmaciones con las que esté de acuerdo. Como se tiene una línea base racional, podemos inferir legítimamente que el área de la
superficie equivale al número total de ratificaciones hechas por el grupo. Este procedimiento tiene la ventaja de que determina la amplitud de opinión que es
aceptable para cada persona, lo cual tiene considerable interés, y no puede determinarse pidiendo al sujeto que ratifique solamente una de las aseveraciones
de la lista. Las ordenadas del diagrama de frecuencia pueden dibujarse como proporciones del grupo total. Por consiguiente, se interpretarán como la
probabilidad de que la aseveración dada sea ratificada por un miembro del grupo. En otras palabras, el diagrama de frecuencia describe la distribución de actitud
del grupo completo; y la ordenada de cada punto de la línea base representa la popularidad relativa de esa actitud.
CONSTRUCCIÓN DE UNA ESCALA DE ACTITUD Se han construido fundamentalmente tres escalas para
medir la opinión por los principios descritos. Estas tres escalas se han diseñado para medir las actitudes en función de tres variables diferentes, a
saber, pacifismo-militarismo, prohibición del alcohol y actitud hacia la iglesia. Dichas escalas se han construido por un procedimiento menos laborioso
que aquel que aplica directamente la ley del juicio comparativo; en caso de obtenerse resultados consistentes, el nuevo método se hará extensivo a otras
escalas. El método es el siguiente. A varios grupos de personas se les pide que escriban sus
opiniones sobre el asunto en cuestión; y se buscan en la bibliografía existente aseveraciones adecuadas y breves que puedan servir a los fines de la escala. Al
editar este material se prepara una lista de 100 a 150 aseveraciones expresivas de actitudes que cubran lo mejor posible todas las graduaciones desde un extremo
a otro de la escala. Algunas veces es necesario conceder atención especial a las aseveraciones neutras. Si una colección al azar de aseveraciones de opinión
fallara en producir reactivos neutros existiría el peligro de que la escala se dividiera en dos partes. La amplitud total de actitudes debe cubrirse en toda su
extensión, por lo que toca al estudio preliminar, a fin de asegurar que los órdenes jerárquicos de los diferentes lectores se traslapen a lo largo de la
escala. En la elaboración de la lista inicial de aseveraciones se aplican varios criterios
prácticos en el primer trabajo de edición. Algunos de los criterios más importantes son los siguientes:
a) Las afirmaciones deben ser lo más cortas posible de manera que no fatiguen a los sujetos a quienes sé pida que lean la lista completa.
b) Las afirmaciones deben ser de tal tipo que puedan ser secundadas o rechazadas conforme a su
concordancia o discrepancia con la actitud del lector. Algunas aseveraciones de una muestra al azar estarán redactadas de manera que el lector no pueda expresar
ratificación o rechazo definido de ellas. c) Cada aseveración debe prever que su aceptación o rechazo indique algo con respecto a la actitud
del lector acerca del asunto en cuestión. Si, por ejemplo, se hace la afirmación de que la guerra es un aliciente para el genio inventivo, su aceptación o
rechazo no dice nada con respecto a las tendencias pacifistas o militaristas del lector; puede éste considerar que la afirmación es un hecho indiscutible y
simplemente la ratifica como un hecho, en cuyo caso tal respuesta no revela nada acerca de la propia actitud sobre el asunto. Sin embargo, solamente los ejemplos
conspicuos de este efecto se eliminarían por análisis, porque se dispone de un criterio objetivo para descubrir tales afirmaciones, a. modo de eliminarlas
automáticamente de la escala. El juicio personal debe reducirse al mínimo posible en este tipo de trabajo.
d) Las afirmaciones de doble significado deben evitarse excepto, quizá, como ejemplos de neutralidad
cuando no parezca fácil obtener mejores afirmaciones neutras. Las afirmaciones de doble significado tienden a ser muy ambiguas.
e) Es necesario asegurarse de que por lo menos una rotunda mayoría de las afirmaciones pertenece
realmente a la variable de actitud que se va a medir. Si se dejara en la serie un pequeño número de afirmaciones impropias ya sea en forma intencional o no
intencional, aquéllas serían eliminadas automáticamente por un criterio objetivo; pero este no tendría éxito a menos que la mayoría de las afirmaciones
formaran parte claramente de la variable estipulada. Cuando la lista original se edita teniendo presentes estos criterios, quedan
quizás de 80 a 100 aseveraciones, con las cuales formar una escala eficaz. Las aseveraciones resultantes se imprimen después en pequeñas tarjetas, a razón de
una por tarjeta. Se pide a 200 o 300 sujetos que arreglen las aseveraciones en 11 grupos que vayan desde las opiniones completamente afirmativas hasta las
completamente negativas. Las instrucciones detalladas se publicarán junto con la descripción de las escalas separadas. La tarea consiste esencialmente en
clasificar las pequeñas tarjetas en 11 grupos de manera que parezcan estar igualmente espaciadas o graduadas. Solamente se rotulan los dos grupos extremos
y el de en medio. Este último se destina a las opiniones neutrales. El lector debe decidir, sobre cada aseveración, cuál de los cinco grados subjetivos de
afirmación o de negación es el implicado en ella, o, en su caso, si se trata de una opinión neutra.
Concluida la clasificación realizada por los 200 o 300 lectores, se prepara un diagrama similar al de la figura 2. Vamos a estudiarlo en una escala de
pacifismo-militarismo a manera de ejemplo. En la línea base de este diagrama están representados los 11 intervalos aparentemente iguales de la variable de
actitud. El intervalo neutral es el comprendido entre 5 y 6; el intervalo más pacifista va de 0 a 1 y el más militarista de 10 a 11. El diagrama es ficticio y
se ha dibujado únicamente para ilustrar el principio que se aplica. La curva A indica la manera como podría ser clasificada una de las aseveraciones por parte
de los 300 lectores. Ninguno la clasificó debajo del valor 3; la mitad de los lectores lo hizo por debajo del valor 6; y la totalidad, por debajo del valor 9.
El valor escalar de la aseveración es el valor por debajo del cual fue colocada justamente por la mitad de los lectores. En otras palabras, el valor escalar
asignado a la aseveración se selecciona de manera que la mitad de los lectores lo consideran más militarista que el valor asignado y la otra mitad menos
militarista que el mismo valor. El cálculo numérico del valor escalar es similar al cálculo del umbral por medio de la hipótesis fi-gama en la medición
psicofísica.
Habrá de notarse que algunas de las aseveraciones en los extremos de la escala no dan curvas ojivales completas; es por esto que la aseveración C está
incompleta en el diagrama. Se comporta como si, para completarse, necesitara espacio más allá de los límites arbitrarios de la escala. Sin embargo, su valor
escalar puede determinarse por aquél donde la curva fi-gama dibujada a través de las proporciones experimentales atraviesa el nivel del 50% que está en c. Pueden
encontrarse otras aseveraciones, tales como D, que tienen valores escalares más allá de la amplitud arbitraria de la escala. También se les pueden asignar
valores escalares, aunque menos exactos por el mismo procedimiento. La situación es diferente en el otro extremo de la escala. La aseveración E
tiene su valor escalar en e, pero, teniendo la escala el límite en el punto 11, la proporción experimental será de 1.00 en ese punto. Si la escala continuara
más allá del punto 11, las proporciones continuarían elevándose gradualmente como lo indica la línea interrumpida. Las proporciones experimentales son todas,
necesariamente, de 1.00 para el valor escalar 11 y, por consiguiente, esas proporciones finales deben ignorarse al ajustar las curvas fi-gama y al
localizar los valores escalares de las aseveraciones. VALIDEZ DE LA ESCALA
a) La escala debe trascender al grupo medido. Antes de aplicarse, este método de medición debe someterse a una prueba experimental decisiva, después de
la cual pueda aceptarse su validez. Un instrumento de medida no debe ser afectado seriamente por el objeto, en su función de medir. En el mismo grado en
que su función de medir resulte afectada o dañada, se limitará su validez. Si una regla de una medida diferente por el mero hecho de que lo que midió fue una
alfombra, un cuadro o un pedazo de papel, entonces, en el grado de tal diferencia, estaría dañada la fidelidad de aquélla en tanto que instrumento de
medida. La función del instrumento de medida debe ser independiente de cada uno de los miembros de la clase de objetos para la que fue diseñada.
Es preciso también que determinemos la amplitud de nuestro método para medir actitudes. La construcción y la aplicación de una escala de actitudes son dos
tareas muy diferentes, cosa que debe tenerse en cuenta. Si la escala ha de ser válida, los valores escalares de las aseveraciones no deben ser afectados por
las opiniones de quienes hayan colaborado en su construcción. Tal condición puede constituir una severa prueba en la práctica; pero el método de elaboración
de escalas debe cumplir con dicho requisito para que merezca aceptarse como algo más que una simple descripción de la propia persona que la haya construido. De
cualquier modo, en la misma proporción en que el método para elaborar la escala se vea afectado por las opiniones de los lectores que hayan contribuido a
clasificar las aseveraciones originales, así podrá cuestionarse la validez o universalidad de la escala. Hasta no estar en poder de la prueba experimental al
respecto, daremos por sentado que los valores escalares de las aseveraciones son independientes de la distribución de actitud, propia de los lectores que las
clasifican. En otras palabras, nuestra suposición consiste en que dos afirmaciones de una escala de prohibición del alcohol serán tan fáciles o tan
difíciles de discriminar, tanto para las personas que ingieran esa bebida como para las que no la ingieran. Dadas, pues, dos aseveraciones contiguas de tal
escala, suponernos que la proporción de bebedores que manifiestan que la aseveración a expresa más simpatía hacia el alcohol que la aseveración b será
esencialmente igual a la proporción correspondiente a las mismas aseveraciones, pero desde el punto de vista de un grupo de abstemios. Expresando aún de otra
manera nuestra suposición, diremos que tan difícil es para un militarista convencido como para un pacifista intransigente decidir cuál de dos
aseveraciones es la más promilitarista. Si declaramos que el 85% de los militaristas señala que la afirmación A es más militarista que la B, entonces,
conforme a nuestro postulado fundamental, la misma proporción de pacifistas emitiría el mismo juicio. Y de ser correcta esta suposición, hallaremos, en
consecuencia, que la escala es un instrumento de medición independiente de la actitud que se pretende evaluar. La
prueba experimental de esta suposición consiste sencillamente en elaborar dos escalas referentes al mismo asunto y con el mismo conjunto de aseveraciones. Una
de dichas escalas se construiría con las respuestas de cientos de lectores simpatizantes del militarismo; y la otra escala, con las mismas aseveraciones,
pero partiendo de las respuestas de otros varios cientos de pacifistas. Si los valores escalares de cada aseveración arrojan, prácticamente, resultados iguales
en ambas escalas, la validez del método quedará así correctamente establecida. Pero todavía será necesario usar discretamente las escalas de opinión, habida
cuenta de que podrían obtenerse, por ejemplo, resultados extraños con la escala de prohibición en un país donde la prohibición del alcohol no sea un problema.
b) Un criterio objetivo de ambigüedad. El análisis de las curvas de la figura 2 revela que algunas de las aseveraciones del diagrama ficticio son más ambiguas
que otras. El grado de ambigüedad de una aseveración se aprecia de inmediato y puede medirse con precisión. La ambigüedad de una aseveración es la desviación estándard de la curva fi-gama de mejor ajuste, a través de las proporciones
observadas. Cuanto mayor es la pendiente de la curva tanto menor es la amplitud de la escala sobre la cual hicieron su labor de clasificación los lectores y más
clara y más precisa es la aseveración. Cuanto más suave es la pendiente de la curva, tanto más ambigua es la aseveración. De ahí que de las dos aseveraciones,
A y B, del diagrama ficticio, la aseveración A sea la más ambigua. En el caso de que se encuentre que la función fi-gama no describe adecuadamente
las curvas de proporciones de la figura 2, el grado de ambigüedad puede medirse sin postular que las proporciones siguen la función fi-gama cuando se dibujan en
la escala de actitud. Un método simple para medir la ambigüedad sería entonces determinar la distancia escalar entre el valor escalar donde la curva de
proporciones tiene una ordenada de .25 y el valor escalar donde la misma curva tiene una ordenada de .75. También puede definirse el valor escalar de la
aseveración misma sin suponer la función fi-gama, tomando el valor escalar donde la curva de proporciones llega a .50. Si no se encuentra proporción real en ese
valor, puede interpolarse el valor escalar de la aseveración entre las proporciones experimentales inmediatamente por encima y por debajo del nivel de
.50. Para hacer una escala de las aseveraciones cuyos valores escalares caen fuera de las diez divisiones de aquella, será necesario hacer algunas
suposiciones con respecto a la naturaleza de la curva y probablemente se encuentre que en la mayoría de las situaciones la función fi-gama constituye una
buena aproximación a la verdad. c) Un criterio objetivo de inadecuación. Antes de que pueda hacerse la selección
de los reactivos para la escala final, todavía debe aplicarse otro criterio: el criterio objetivo de inadecuación. Volviendo a la figura 1, consideremos dos
afirmaciones que tengan valores escalares idénticos en el punto f. Supongamos, además, que estas dos afirmaciones se sometieron al juicio de grupo de lectores
representados en el diagrama ficticio de la misma figura. Es completamente concebible, y sucede realmente, que una de estas afirmaciones sea secundada muy
frecuentemente mientras que la otra solo lo sea rara vez, a pesar de que se hayan colocado adecuadamente en la escala, e impliquen el mismo grado de
pacifismo o militarismo. La conclusión inevitable entonces es que la aprobación que un lector da a estas afirmaciones está determinada sólo parcialmente por el
grado de pacifismo implicado y parcialmente por otros significados también implicados que pueden o no estar relacionados con la variable de actitud
considerada. Es necesario, ahora, desde luego, seleccionar para la escala final de actitud las afirmaciones que son aprobadas o rechazadas fundamentalmente con
base en el grado de pacifismo-militarismo que está implícito en ellas y eliminar aquéllas que son aceptadas o rechazadas frecuentemente según otros significados
inadecuados más o menos sutiles. Se dispone de un criterio objetivo para realizar esta eliminación
automáticamente y sin introducir la ecuación personal del investigador. Fundamentalmente es el siguiente: suponemos que la lista total de alrededor de
100 afirmaciones se ha sometido a varios cientos de lectores para votación efectiva. No necesitan ser los mismos lectores que clasificaron las afirmaciones
con el propósito de formular la escala. Se pide a estos lectores que marquen con un signo de más cada afirmación que ratifiquen y con un signo de menos cada
afirmación que rechacen. Si deseamos investigar el grado de inadecuación de una afirmación particular
que, por ejemplo, podría tener un valor escalar de 4.0, en la figura 3, debemos primero determinar cuántos lectores la aprobaron. Encontramos, por ejemplo, que
fueron 260 lectores. Este total se representa en el diagrama como el 100%, y levantamos tal ordenada en el valor escalar de dicha afirmación. Ahora podemos
determinar la proporción de estos 260 lectores que también ratificaron cada una de las demás afirmaciones. Si los lectores aprobaron y rechazaron las
afirmaciones basándose mayormente en el grado de pacifismo militarismo implicado, entonces los lectores que ratificaron afirmaciones próximas a 4.0, en
la escala, no ratificarán a menudo las afirmaciones que están muy lejos de ese punto de la escala. Siguiendo el ejemplo, muy pocos ratificarían una afirmación
que está ubicada en el punto 8.0 de la escala. Si una gran proporción de los 60 lectores que ratifican la aseveración básica en el 4.0 de la escala, también
ratifica una afirmación en el punto 8.0 de la misma, debemos inferir entonces que su votación en estas dos afirmaciones ha sido influida por factores
diferentes al grado de pacifismo implicado por dichas afirmaciones. Es posible representar gráficamente este tipo de análisis.
En este diagrama, cada una de las demás afirmaciones se representará por un punto. Su valor "x" será el valor escalar de la afirmación y su valor "y" será
la proporción de los 260 lectores que la hayan aprobado. Por tanto, si de los 260 lectores que ratificaron la afirmación básica hubiera 130 que ratificaron la
afirmación número 14, que tiene un valor escalar 5.0, por ejemplo, entonces la afirmación número 14 estará representada por el punto A de la figura 3.
Si la afirmación básica, cuyo grado de inadecuación está representado en la
figura 3, es de carácter ideal, que la gente aceptará o rechazará debido principalmente a la actitud sobre el pacifismo que expresa, debemos esperar
entonces que las 100 afirmaciones se representen por puntos más o menos elevados cerca de la línea interrumpida de la figura 3. Es obvio que el diagrama puede
estar más contraído o más extendido, pero su aspecto general sería el de la figura 3. Si, por otra parte, la afirmación básica tiene implicaciones que
conducen a su aceptación o rechazo, y son aquéllas completamente independientes del grado de pacifismo que expresan, hallaremos que la proporción de
ratificaciones de las aseveraciones no sería una función continua de sus distancias escalares desde la afirmación básica. Así que el centenar de puntos
podría dispersarse ampliamente en el diagrama. Este criterio de inadecuación es objetivo y probablemente pueda expresarse en forma algebraica precisa para
eliminar totalmente la ecuación personal del investigador. Se han desarrollado otros dos criterios objetivos de inadecuación. Se
describirán junto con las escalas de actitudes que se están elaborando. RESUMEN DEL MÉTODO DE ELABORACIÓN DE ESCALAS
Es posible ahora seleccionar las aseveraciones que habrán de incluirse en la escala final. Para una aplicación eficaz, debe seleccionarse una lista corta de
20 0 30 aseveraciones. Hemos descrito ya tres criterios para efectuar la selección mencionada. Estos criterios san:
1. Las aseveraciones de la escala final deben seleccionarse de manera que constituyan al máximo posible una serie graduada y uniforme de valores
escalares. 2. Por medio del criterio objetivo de ambigüedad, se eliminan las afirmaciones que
proyecten demasiada dispersión en el continuo de actitud. La medida objetiva de ambigüedad es la desviación estándar de la curva fi-gama, de mejor ajuste, que
se ilustra en la figura 2. 3. Mediante los criterios objetivos de inadecuación, es posible eliminar, las
afirmaciones cuya aceptación o rechazo provenga principalmente de factores diferentes al grado de la variable de actitud que representan. Uno de estos
criterios se ilustra en la figura 3. Los pasos para elaborar una escala de actitud pueden resumirse de la manera siguiente:
1. La especificación de la variable de actitud que se va a medir. 2. La recolección de una amplia variedad de opiniones acerca de la variable de
actitud especificada. 3 La edición de este material en una lista de alrededor de cien breves aseveraciones de opinión.
4. La clasificación de las aseveraciones en una escala imaginaria que represente a la variable de actitud. Esta tarea deben realizarla cerca de 300 lectores.
5. Cálculo del valor escalar de cada aseveración. 6. Eliminación de algunas aseveraciones con el criterio de ambigüedad.
7.Eliminación de algunas aseveraciones con los criterios de inadecuación.
8. Selección de una lista pequeña de cerca de 20 aseveraciones graduadas uniformemente en la escala.
MEDICIÓN CON UNA ESCALA DE ACTITUD La aplicación práctica de la técnica de medida
presente consiste en mostrar la lista final de alrededor de 25 aseveraciones de opinión al grupo de interés, pidiéndoles a los sujetos que marquen con signos de
más todas las aseveraciones con las que estén de acuerdo y con signos de menos aquéllas con las que discrepen. La calificación de cada persona es el valor
escalar promedio de todas las afirmaciones que ha ratificado. Con el fin de que la escala sea efectiva en los extremos, es aconsejable que se extiendan las
aseveraciones de la escala en ambas direcciones, mucho más allá de las actitudes que se encontrarán como valores medios de los individuos. Una vez determinada la
calificación de cada persona, por la simple suma indicada, puede dibujarse una distribución de frecuencia con respecto a las actitudes de cualquier grupo
especificado. La confiabilidad de la escala puede determinarse preparando dos formas paralelas
del mismo material y presentándolas a los mismos individuos. La correlación entre las dos calificaciones obtenidas por cada persona de un grupo indicará,
entonces, la confiabilidad de la escala. Puesto que la heterogeneidad del grupo afecta al coeficiente de confiabilidad, es necesario especificar la desviación
estándar de las puntuaciones del grupo donde se determinó el coeficiente de confiabilidad. También puede calcularse, por un procedimiento análogo, el error
estándar de una puntuación individual. La unidad de medida de la escala construida por el procedimiento descrito no es
e{ error estándar discriminativo proyectado por una sola aseveración en el continuo psicológico. La unidad de medida puede obtenerse por la aplicación
directa de la ley del juicio comparativo, aunque esto es mucho más laborioso que por el método descrito aquí. La unidad de fa escala presente es más arbitraria,
a saber, un décimo de la amplitud del continuo psicológico que cubre la distancia que hay entre lo que los lectores consideran la ratificación y la
negación absolutas de la lista particular de afirmaciones iniciales. Por supuesto, pueden determinarse los valores escalares junto con la confiabilidad
de partes fraccionarias de esta unidad. Esperamos que pueda demostrarse experimentalmente que esta unidad es proporcional a una unidad de medida más
precisa y universal que el error estándar universal de una sola aseveración de opinión. Es lícito
determinar la tendencia central de la distribución de frecuencia de las actitudes en un grupo. Después pueden compararse varios grupos de individuos con
respecto a las medias de sus distribuciones de frecuencias respectivas de actitudes. Las diferencias entre las medias de las diferentes distribuciones
pueden compararse directamente porque se ha establecido una línea base racional. Estas comparaciones no son posibles cuando se determinan las actitudes contando
simplemente el número de ratificaciones para separarlas de las afirmaciones cuyas diferencias escalares no se han medido.
Además de especificar la media de actitud de cada uno de los diferentes grupos, también es posible medir su relativa heterogeneidad con respecto al asunto
considerado. Es posible así, por medio de nuestros actuales métodos de medida, descubrir, por ejemplo, que un grupo es 1.6 veces más heterogéneo en sus
actitudes acerca de la prohibición del alcohol que algún otro grupo. La heterogeneidad de un grupo se indica quizá mejor por la desviación estándar de
los valores escalares de todas las opiniones que fueron ratificadas por el grupo como un todo y no por la desviación estándar de la distribución de las
puntuaciones individuales medias. Quizás tengan que adoptarse nombres diferentes para estos dos tipos de medida.
La tolerancia que una persona revela en cualquier asunto particular también se puede sujetar a medición cuantitativa Es la desviación estándar de los valores
escalares de las afirmaciones que ratifica. La tolerancia máxima posible es, naturalmente, la indiferencia completa, en la que todas las aseveraciones son
ratificadas a lo largo de la amplitud entera de la escala. Si se desea saber cuál de dos formas de apelación es la más efectiva en un
asunto particular, puede determinarse usando la escala antes y después de aquéllas. La diferencia entre las puntuaciones individuales, antes y después,
puede tabularse para medir el cambio promedio de actitud después de cualquier forma concreta de apelación.
La característica esencial del presente método de medida es la escala de opiniones, graduadas uniformemente, y ordenadas de manera que los pasos o
intervalos iguales de la escala parezcan representar, para la mayoría de la gente, cambios igualmente notables de actitud.
LAS ACTITUDES PUEDEN MEDIRSE GENERALIDADES
Fundándose en su experiencia en la medición de capacidades y rasgos, Thurstone propuso un método para medir la actitud. Se dijo que las aseveraciones
de opinión simbolizaban las actitudes y estas podían medirse desarrollando escalas con tal tipo de aseveraciones. Con tales escalas los individuos podrían
diferenciarse con respecto a sus actitudes de la misma manera que se podían determinar las diferencias individuales en inteligencia, capacidades o rasgos. Y
así, en el principio de la historia de la medición de actitudes, Thurstone adoptó una posición que favorecía el uso de muestras de informes sobre sí mismo.
Debido quizá al gran aprecio que los psicólogos tenían a Thurstone y a la creciente popularidad del operacionalismo entre los psicólogos, la técnica de
aquel se adoptó rápidamente. También es importante hacer ver que su procedimiento de elaboración de escalas incorporó técnicas establecidas de la
psicofísica. El método de Thurstone, para elaborar escalas de actitud contenía varías
suposiciones estadísticas no verificadas, por lo que su aplicación resultó en extremo laboriosa. En 1932, Likert publicó una
monografía que procuró superar estas dos dificultades. Propuso un método más sencillo que no requería el empleo de suposiciones estadísticas sin verificar.
Si el método de Likert es adecuado, tal vez superior y alterno al método de Thurstone, ha sido asunto de discusión
desde que apareció la citada monografía de Likert. Por desgracia, como a menudo ocurre en tales cuestiones, no hay corroboración empírica que pueda usarse para
esclarecer el punto. Seiler y Hough han emprendido la búsqueda de tales pruebas empíricas. Mientras que persiste
claramente la necesidad de investigación adicional antes de que la cuestión pueda resolverse, parecen estar ya esclarecidos dos asuntos:
a) "el método de Likert de calificación de una escala de actitud, con determinado numero de reactivos,
produce consistentemente resultados más confiables que el método de Thurstone para calificar la escala"
b) el método de Likert para elaborar y calificar la escala requiere menos reactivos y produce la misina
confiabilidad que el método de Thurstone. Un psicólogo dijo una vez que, sin las dos guerras mundiales, la psicología
social habría muerto en la infancia. Sea o no cierta esta afirmación, mientras estaba asignado al Departamento del Ejército el sociólogo Louis Gutman ideó un
método de elaboración de escalas que se basa en suposiciones completamente diferentes a las de Thurstone y de Likert, además de tener un uso más
diversificado. Su popularidad es mayor entre los investigadores de la actitud, pero es adecuado para medir por escala muchos otros universos de objetos.
Una de las limitaciones de los métodos de Thurstone y de Likert es que pueden obtenerse calificaciones idénticas de varias maneras. Así, no puede afirmarse que personas con la misma calificación, ya sea en una escala de Thurstone o de
Likert, tengan la misma actitud. El método de elaboración de escalas, de Guttman, supera esta limitación, Conociendo la puntuación de una persona, en una
escala perfecta de Guttman, es posible reproducir la estructura entera de las respuestas de la persona a los reactivos de la escala. Esto se debe a que los
reactivos están ordenados por nivel de dificultad y la puntuación de la escala representa el nivel donde se falló. Desafortunadamente, las escalas perfectas de
Guttman nunca se logran en la práctica. Por consiguiente, es necesario estimar el error de reproductibilidad. Desde la primera presentación de los
procedimientos de construcción de escalas de Guttman, se han hecho muchos esfuerzos para extender, modificar y afinar el método, así como desarrollar
técnicas más eficientes y sencillas con el mismo propósito.
La discriminación escalar, desarrollada por Edwards y Kilpatrick. Es una técnica "nueva" solamente
porque combina los métodos de Thurstone, Likert y Guttman. Sostienen que los métodos de Thurstone y Likert proporcionan la base para seleccionar los
reactivos que se incluyen en una escala, mientras que el método de Guttman permite evaluar los reactivos; presentan también un procedimiento para
seleccionar reactivos, primero, por el método de jueces, de Thurstone, y después, sometiendo los reactivos conservados a los criterios de selección de
Likert. Los reactivos que satisfacen ambos grupos de criterios se examinan, finalmente, en cuanto a su reproductibilidad.
LA POSIBILIDAD DE MEDIR LAS ACTITUDES
El propósito de este trabajo es estudiar el problema de la medición de actitudes y opiniones, con miras a ofrecer una solución. El mismo
hecho de ofrecer una solución a un problema tan complejo como el de medir las diferencias de opinión o actitud sobre asuntos sociales en disputa, hace
evidente desde el principio que la solución está más o menos limitada y se aplica solamente bajo ciertas suposiciones que, sin embargo, serán también
descritas. Al proponerme hallar un método para medir las actitudes, he procurado echar a andar con las menos restricciones posibles porque, a veces, uno se
siente tentado a menospreciar tantos factores que desaparece el problema original. Yo espero que no se me acusará de eludir el problema.
Para medir las actitudes algunas suposiciones de sentido
común que serán expresadas, desde un principio, buscándose siempre que la discusión subsecuente no se vea ensombrecida a causa de ellas. Si el lector no
está dispuesto a aceptar estas suposiciones, entonces no tendremos nada que ofrecerle. Si las acepta, podemos proceder a describir algunos métodos de
medición que deben dar lugar a resultados interesantes. Es necesario expresar desde ahora lo que queremos significar
por los términos "actitud" y "opinión". Esto es del todo necesario porque la primera impresión es que estos dos conceptos no son susceptibles de medida en
ningún sentido real. Se aceptará que una actitud es un asunto complejo que no puede describirse totalmente con ningún índice numérico aislado. En cuanto al
problema de medir, esta afirmación es análoga a la observación de que una mesa ordinaria es una cosa compleja que no puede describirse totalmente con ningún
índice numérico aislado. De la misma manera, un hombre es de tal complejidad que no puede representarse completamente con un sólo índice. Sin embargo, no
vacilamos en decir que medimos la mesa. El contexto generalmente señala lo que nos proponemos medir de la mesa. Decimos sin vacilación que medimos a un
individuo cuando tomamos algunas medidas antropométricas de él. El contexto puede implicar correctamente qué aspecto del individuo estamos midiendo, sin
declaración explícita, por ejemplo, su índice cefálico, su altura o su peso. Justamente en ese mismo sentido hablamos aquí de medir las actitudes.
Expresaremos o implicaremos por el contexto qué aspecto de las actitudes, de las personas nos proponemos medir. El interrogante estriba en que tan legítimo es
decir que medimos actitudes como afirmar que medimos mesas u hombres.
El concepto de "actitud" se usará aquí para denotar la suma total de inclinaciones y sentimientos, prejuicios o distorsiones, nociones
preconcebidas, ideas, temores, amenazas y convicciones de un individuo acerca de cualquier asunto específico. La actitud de una persona acerca del pacifismo
significa todo lo que piensa y siente acerca de la paz y la guerra. Aceptase asimismo que esto es un asunto subjetivo y personal.
El concepto "opinión" significará aquí la expresión verbal de
la actitud. Si una persona dice que cometimos un error ál entrar en la guerra contra Alemania, ésa afirmación será considerada aquí como una opinión. El
término "opinión" se restringirá a la expresión verbal. Pero ¿de qué es una expresión? Supuestamente expresa una actitud. No tiene por qué haber dificultad
para entender el empleo de los dos términos. La expresión verbal es la opinión. Nuestra interpretación de la opinión expresada es que la actitud del individuo
es pro-germana. Una opinión simboliza una actitud. Nuestro siguiente punto se refiere a qué deseamos medir. Cuando una persona dice que cometimos un error al entrar a la guerra contra
Alemania, lo que nos interesa no es realmente la secuencia de palabras como tales y ni siquiera el significado inmediato que la oración implica, sino más
bien la actitud de quien la dijo, sus pensamientos y sentimientos acerca de los Estados Unidos, de la guerra y de Alemania. Es la actitud lo que realmente
interesa. La opinión tiene interés únicamente si la interpretamos como símbolo de la actitud. Por consiguiente, es alguna cosa propia de las actitudes lo que
deseamos medir. Usaremos las opiniones como medios para medir las actitudes.
Pero nos viene a la mente la incertidumbre de usar una opinión como índice de actitud, pues el individuo puede ser un embustero. Si no
deforma intencionalmente su actitud real sobre un asunto en disputa, puede modificar, sin embargo, su expresión, por razones de cortesía, especialmente en
situaciones donde la expresión franca de la actitud puede no ser bien recibida. Esto ha conducido a la idea de que, por encima de lo que dice, la acción de un
individuo es un índice más seguro de su actitud. Pero sus acciones también pueden ser distorsiones de su actitud. Un político comunica amistad y
hospitalidad en la acción manifiesta, mientras que esconde otra actitud que expresa más fielmente a un amigo íntimo. Ni sus opiniones ni sus actos
manifiestos constituyen, en ningún sentido, una guía infalible de las inclinaciones subjetivas y preferencias que constituyen su actitud. Por
consiguiente, debemos conformarnos con usar las opiniones, u otras formas de acción, como simples índices de actitud. Debe reconocerse que existe cierta
discrepancia, algún error de medida, entre la opinión o acción manifiesta que usamos como índice y la actitud que inferimos de tal índice.
Pero esta discrepancia entre el índice y la "verdad" es universal. Cuando desea saber la temperatura de su habitación, la persona ve el
termómetro y usa la lectura como índice de la temperatura, como si no hubiera error en el índice y como si hubiera una sola lectura que fuera la "correcta" de
la habitación. Cuando se desea determinar el volumen de un vaso de papel, se postula que el volumen es un atributo del vaso, aunque aquél sea, en realidad,
una abstracción. Se mide indirectamente observando las dimensiones del vaso o sumergiéndolo en agua para apreciar cuánto líquido desplaza. Estos dos
procedimientos dan dos índices que podrían no concordar exactamente. En casi cualquier situación de medición se postula un continuo abstracto como el volumen
o la temperatura; y la ubicación de la cosa medida dentro de ese continuo se realiza generalmente por medios indirectos, a través de uno o más índices. La
verdad se infiere solamente por la consistencia relativa de los diferentes índices, ya que nunca se conoce de modo directo. Y nos enfrentamos al mismo tipo
de situación cuando intentamos medir la actitud. Necesitamos postular una variable de actitud que es, prácticamente, semejante a todos los demás atributos
mensurables de la esencia de un continuo abstracto, y debemos encontrar uno o más índices, los cuales nos satisfarán en el grado en que tengan consistencia
interna. En el presente estudio mediremos la actitud del sujeto según
sea expresada por la aceptación o rechazo de opiniones. Pero este enunciado no significa que ese sujeto necesariamente actuará conforme a las opiniones que
haya apoyado. Aclaremos esta limitación. La medición de actitudes, expresada por las opiniones de un individuo, no constituye a la vez, y forzosamente la
predicción de lo que hará. Que sus opiniones expresadas y sus acciones sean inconsistentes, es algo que no nos concierne ahora, porque no manifestamos que
nos proponemos predecir la conducta abierta. Supondremos que es de interés saber lo que las personas dicen que creen aunque su conducta sea inconsistente con las
opiniones que expresen. Incluso en el caso de que distorsionen intencionalmente sus actitudes, por lo menos mediremos las actitudes que tratan de hacer creer a
los demás. Concedemos, por otra parte, que las actitudes de las personas
están sujetas a cambio. Cuando medimos la actitud de un individuo, sobre un asunto como el pacifismo, no afirmamos que tal medida sea en ningún sentido
una constante permanente o constitucional. Su actitud puede cambiar, por supuesto, de un día para otro; y es nuestra tarea medir tales cambios que acaso
resulten de causas desconocidas o de la presencia de algún factor persuasivo conocido, como la lectura de una disertación sobre el asunto en cuestión. Sin
embargo, tales fluctuaciones pueden también atribuirse, en parte, a error en las medidas mismas. Para aislar los errores del instrumento de medida, por la
fluctuación real de la actitud, debemos calcular el error estándar de medida de la escala misma, lo cual puede realizarse por métodos bien conocidos en la
medición mental. Supondremos que una escala de actitud se usa solamente en las
situaciones en que se puede esperar razonablemente que las personas digan la verdad sobre sus opiniones o convicciones. Si una escuela religiosa fuera
aplicar a sus estudiantes una escala de actitudes acerca de la iglesia, difícilmente se esperaría que los estudiantes inteligentes dijeran la verdad
acerca de sus convicciones, si éstas estuviesen desviadas de las creencias ortodoxas. Lo menos que podría hacerse sería analizar los resultados, si la
situación en que se expresasen las actitudes contuviera presión o amenaza implícita, basadas directamente en la actitud que se va a medir. De manera
similar sería difícil descubrir las actitudes sobre la libertad sexual por medio de un cuestionario escrito, debido a la presión universal a ocultar tales
actitudes cuando se desvían de las convenciones supuestas. Se admite que las escalas de actitud se usarán solamente en las situaciones que ofrezcan un mínimo
de presión sobre la actitud que va a medirse. Tales situaciones son bastante comunes.
Todo lo que podemos hacer con una escala de actitud es medir la actitud expresada efectivamente, con la comprensión plena de que el sujeto
puede estar escondiendo conscientemente su actitud verdadera o que la presión social de la situación le ha hecho creer realmente lo que está expresando. Este
es asunto de interpretación, y probablemente valioso en tanto se mide una actitud expresada en opiniones. Otro problema es el de interpretar en cada caso
el grado en que los sujetos han expresado lo que realmente creen. Todo lo que podemos hacer es reducir cuanto sea posible las condiciones que impiden que los
sujetos digan la verdad, o en vez de eso ajustar nuestras interpretaciones de acuerdo a esas condiciones.
Cuando discutimos opiniones, por ejemplo acerca de la prohibición del alcohol, pronto encontramos que estas opiniones son
multidimensionales, es decir, que no pueden representarse en un continuo lineal. Las diferentes opiniones no pueden describirse, completamente, sólo con "más" o
"menos". Se dispersan en muchas dimensiones, pero la misma idea de medida implica un continuo lineal de alguna clase como longitud, precio, volumen, peso,
edad. Cuando la idea de medida se aplica al logro académico, por ejemplo, es necesario forzar las variaciones cualitativas en una escala lineal académica de
alguna clase. Juzgamos, de manera semejante, cualidades como destreza mecánica, calidad de la escritura a mano y la cantidad de educación de un individuo, como
si estos rasgos se extendieran sobre una sola escala, aunque en el terreno de los hechos se dispersen en muchas direcciones. Cierto es que avanzamos
adecuadamente con el concepto de escala, al describir rasgos todavía cualitativos, como educación, posición social y económica o belleza. Pero se
impone una escala o continuo lineal cuando decimos que un individuo tiene más educación que otro o que una mujer es más bella que otra, aunque, si somos
presionados, admitimos que quizá el par de que constan cada una de las comparaciones tiene poco en común. Resulta claro que el continuo lineal
implícito en un juicio de "más o menos" puede ser conceptual; y no necesariamente ha de tener la existencia física de una regla.
Y lo mismo sucede con las actitudes. No hay que dudar en
compararlas por medio del tipo de juicio de "más o menos"; se dice, por ejemplo, que un individuo está más en favor de una prohibición que de otra; y tal juicio
comunica su significado claramente, con la implicación de una escala lineal en la que pueden ubicarse las personas o las opiniones.
LA VARIABLE DE ACTITUD
La primera restricción en el problema de la medición de actitudes es especificar una variable de actitud y hasta allí limitar la medida.
Vamos a ilustrarlo considerando la cuestión de la prohibición del alcohol y tomemos como variable de actitud el grado de restricción que debe imponerse a la
libertad individual en el consumo de esa bebida. Este grado de restricción puede considerarse un continuo que va desde la libertad completa y grado hasta la
restricción igualmente completa y absoluta, e incluiría, desde luego, actitudes neutrales e indiferentes.
Al recolectar muestras para elaborar una escala, pediríamos a cien personas que escribieran sus opiniones acerca de la prohibición.
Encontraremos entre ellas a quienes expresen la creencia de que la prohibición ha incrementado el uso del tabaco. Indudablemente esta es una opinión
concerniente a la prohibición, pero no sería útil en absoluto para medir la variable de actitud mencionada. Por tanto, sería inadecuada. Otra persona podría
expresar la opinión de que la prohibición ha eliminado una fuente importante de impuestos gubernamentales. Esta también es una opinión referente a la
producción, pero no pertenecería a la variable de actitud particular que hemos manifestado medir o evaluar por escala. Es preferible usar un criterio objetivo
y experimental para eliminar las opiniones que no pertenezcan al continuo especificado que se va a medir, y creo que tal criterio existe.
Esta restricción en el problema de la medición de actitudes
es necesaria por la misma naturaleza de la medida; y se presupone en toda medida ordinaria, por lo que debe quedar claro que se aplica también donde las
características multidimensionales todavía no se hayan separado abiertamente. Por ejemplo, sería casi ridículo decir que no puede medirse una mesa a menos que
uno diga o implique lo que se va a medir de ella, es decir, si es su altura, costo, belleza, grado de adecuación o el tiempo requerido para hacerla. El
contexto implica ordinariamente esta restricción en la medida. Cuando la noción de medida se aplica a un fenómeno tan complejo como las opiniones y actitudes,
también debemos restringirnos a un continuo específico o implicado dentro del cual se va a medir.
Para especificar la variable de actitud, el primer requisito es expresarla de tal modo que se la pueda aludir en términos de "más" y "menos",
como es el caso cuando comparamos las actitudes de las personas diciendo que una de ellas es más pacifista, que esta aboga más por la prohibición, que aquélla
apoya más fuertemente la pena capital, o que es más religiosa que otra persona.
La figura 1 representa la variable de actitud militarismo pacifismo, con una zona neutral. Una persona que generalmente habla en favor de
prepararse militarmente, por ejemplo, se representaría en algún punto a la derecha de la zona neutral. Una persona que está más interesada en el desarme se
representaría a la izquierda de la zona neutral. Es posible concebir una curva de frecuencia que represente la distribución de la actitud en un grupo
especificado sobre el asunto de pacifismo-militarismo.
Consideremos la ordenada de la distribución de frecuencia en un punto de la línea de base. El punto y su vecindad inmediata representa una
actitud, y deseamos saber relativamente qué tan común es ese grado de sentimiento en favor o en Pacifismo Naturalidad Militarismo
contra del pacifismo dentro del grupo en estudio. Es de interés secundario saber que una declaración particular de opinión es ratificada por cierta proporción de
ese grupo. Y solamente en el grado en que la opinión sea representativa de una actitud, será útil para nuestros propósitos. Posteriormente consideraremos la
posibilidad de que una opinión. declarada pueda ubicarse en la escala coma pacifista y, sin embargo, sea ratificada por una persona de simpatías
militaristas muy pronunciadas. En el grado en que la aseveración sea apoyada o rechazada por factores distintos a la variable de actitud que representa, tal
aseveración no servirá para nuestros propósitos. También consideraremos un criterio efectivo para descubrir semejantes aseveraciones de manera que puedan
eliminarse de la escala. Entonces, en nuestro estudio, trataremos con opiniones, no principalmente por su contenido cognoscitivo sino porque sirven de portadores
o símbolos de las actitudes de las personas que las expresa o respalda.
Hay alguna ambigüedad al usar el término actitud en plural. Una actitud se representa como un punto en el continuo de actitud. Consecuentemente, hay un
número infinito de actitudes que pueden representarse en la escala. Sin embargo, en la práctica no diferenciamos tan finamente. En realidad, una actitud,
prácticamente hablando, consiste en cierta amplitud o cercanía estrecha dentro de la escala. Cuando se obtiene una distribución de frecuencia de una variable
continua, como la estatura, clasificamos dicha variable en pasos o intervalos de clase, con propósitos descriptivos. La variable de actitud también puede
dividirse en intervalos de clase y contarse la frecuencia en cada intervalo. Cuando hablemos de "una" actitud, significaremos un punto o una vecindad en el
continuo de la actitud. Diferentes actitudes se considerarán no como un conjunto de entidades distintas sino como una serie de intervalos de clase en la
escala de actitud. UNA DISTRIBUCIÓN DE FRECUENCIA DE ACTITUDES
La principal argumentación ha sido hasta ahora mostrar que ya que en la conversación ordinaria describimos rápida y comprensiblemente a los individuos
como más o menos pacifistas o más o menos militaristas en actitud, podemos representar abiertamente esta linealidad en la forma de una escala
monodimensional; y así se ha hecho, en forma de diagrama, en la figura 1. Describiremos primero nuestro objetivo y después mostraremos cómo puede
adoptarse una unidad de medida racional para la escala entera.
Sea la línea base de la figura 1 la representación de una amplitud continua de actitudes, desde el pacifismo extremo, a la izquierda, hasta el militarismo
extremo a la derecha. Si se definieran varios pasos en semejante escala, la
actitud de una persona hacia el militarismo-pacifismo podría representarse por un punto de esa escala. La fuerza y dirección de las simpatías de un individuo
particular podrían indicarse por el punto a, que muestra opiniones más bien militaristas. Otro individuo podría quedar en el punto b, indicador de que,
aunque es ligeramente militarista en sus opiniones, no lo es al extremo de la persona que se colocó en el punto a. Una tercera persona se colocaría en el
punto c, indicándose así que es completamente militarista y que la diferencia entre a y c es muy pequeña. Es posible una interpretación similar que se
extendiera a cualquier punto de la escala continua, desde el extremo militarismo hasta el extremo pacifismo, con una región neutral o de indiferencia entre
ellos. Una segunda característica podría igualmente indicarse gráficamente por medio de
la escala, a saber, la amplitud de las opiniones que determinado individuo esté dispuesto a respaldar. Por supuesto, no debe esperarse que cada persona encuentre
solamente una sola opinión, a la que esté dispuesto a dar su apoyo, en la escala completa, ni tampoco que rechace todas las demás. En realidad, nosotros mismos
probablemente nos encontraríamos dispuestos a ratificar gran número de opiniones que cubren cierta amplitud de la escala. Entonces, es concebible que una persona
pacifista esté dispuesta a ratificar todas o la mayoría de las opiniones en la amplitud de "d a e" y que rechace como demasiado pacifistas la mayoría de las
opiniones a la izquierda de d, y que también rechace la amplitud entera de opiniones militaristas. Su actitud se indicaría entonces por el promedio o media
de la amplitud que ratifica, a menos que tenga el cuidado de seleccionar una opinión particular que represente muy cercanamente su propia actitud. La misma
clase de razonamiento puede extenderse con la misma certidumbre a la amplitud total de la escala, así que tendríamos por lo menos dos, o posiblemente tres,
características distintivas de cada persona con base en la escala. Estas características serían:
a) la posición media que ocupa en la escala;
b) la amplitud de opiniones que está dispuesto a aceptar, y
c) la opinión que selecciona porque representa con mayor aproximación su propia actitud sobre el
asunto planteado. Asimismo, sería posible describir a un grupo de individuos por medio de la
escala. Este tipo de descripción ha sido representado en forma de diagrama por el perfil de frecuencia.
Cualquier ordenada de la curva representaría el número de individuos, o el porcentaje del grupo total, que secunda la opinión correspondiente. Por ejemplo,
la ordenada, en b, representaría el número de personas del grupo que ratifican el grado de militarismo representado por el punto b de la escala. Una mirada a
la curva de frecuencia muestra que en el grupo ficticio de este diagrama, las opiniones militaristas son ratificadas más frecuentemente que las pacifistas.
Claro está que el área de este diagrama de frecuencia representa el número total de ratificaciones hechas por el grupo. El diagrama puede arreglarse de varias
maneras diferentes que estudiaremos por separado. En este momento, basta con que nos percatemos de que en una escala válida de opiniones es posible comparar
varios grupos diferentes de acuerdo a sus opiniones sobre una cuestión en disputa.
Un segundo tipo de comparación de grupo puede hacerse con respecto a la amplitud o extensión que presentan las superficies de frecuencia. Si uno de los grupos se
representa por un diagrama de frecuencia de considerable amplitud o dispersión, entonces ese grupo será más heterogéneo respecto al asunto planteado, que algún
otro grupo cuyo diagrama de frecuencia de actitudes presente una amplitud o dispersión más pequeña. Lo anterior no significa que la suposición de una
distribución normal, de uso frecuente en la elaboración de escalas educativas, tenga alguna aplicación aquí, porque no hay razón para suponer que un grupo de
personas esté distribuido normalmente en sus opiniones acerca de alguna cosa. Por consiguiente, es posible hacer cuatro tipos de descripciones por medio de una escala de actitudes. Estás son:
a) la actitud promedio o media de un individuo particular sobre el asunto en cuestión;
b) la amplitud de opiniones que está dispuesto a aceptar o a tolerar; c) la popularidad rélativa de cada actitud de la escala dentro de un grupo señalado como lo indica la
distribución de frecuencia de ese grupo, y d) el grado de homogeneidad o heterogeneidad de las actitudes de un grupo señalado acerca del asunto, como lo indica el grado de dispersión
o extensión de su distribución de frecuencia. Este es el objetivo. El centro del problema está en la unidad de medida de la línea base, que es lo que veremos en el siguiente articulo
Las estimaciones en el estudio de evaluación de psicólogos clínicos Los ejemplos hasta aquí presentados presentan un lamentable cuadro sobre la validez de las medidas de las diferencias individuales
consideradas. El caso típico exhibe una cantidad excesiva de varianza de método, que suele exceder la cantidad de varianza de rasgo. Este cuadro no se debe a un
esfuerzo deliberado de seleccionar ejemplos ostensiblemente malos. Los estudios no publicados muestran el mismo cuadro. Si parecen
más desalentadores que la tendencia general de los datos de validez informados en las revistas, puede ser porque la apariencia de validez que proporcionan los
valores aislados que se desprenden de la diagonal de validez es engañosa e imposible de interpretar al margen de la matriz total. Sin embargo, claro está
que pocos de los ejemplos clásicos de buena medición de las diferencias individuales intervienen y que en muchos de los casos la calidad de los datos
pudo haber magnificado los factores de aparato, etcétera. Un conjunto de datos de personalidad más ideal para ejemplificar el método, por tanto, se encontró en
la aplicación múltiple de un conjunto de escalas de estimación al estudiar la evaluación de los psicólogos clínicos (Kelly y Fiske, 1951).
En este estudio, la "escala de estimación A" contenía 22 rasgos referentes a "la conducta que puede observarse directamente en la
superficie". En el uso de la escala se instruyó a los estimadores para que "descartaran cualesquiera inferencias acerca de dinámicas o causas subyacentes". Los sujetos, estudiantes de psicología clínica de primer año, se
estimaron a sí mismos y también a sus tres compañeros de equipo con los que habían participado en varios procedimientos de evaluación y habían vivido
durante seis días. Se usó la mediana de las estimaciones de los tres compañeros de equipo para la puntuación de compañero de equipo. Los sujetos también fueron
estimados con respecto a los 22 rasgos por la dirección de evaluación. El análisis usa las estimaciones finales combinadas que fueron convenidas por tres
miembros de la dirección después de la discusión y revisión de la enorme cantidad de datos y las muchas otras estimaciones de cada sujeto.
Desafortunadamente, los miembros de la dirección vieron las estimaciones de sí mismo y las de los compañeros de equipo antes de hacer
las suyas, aunque presumiblemente fueron poco influidos por estos datos, pues tenían a su alcance otras señales de evidencia. (Kelly y Fiske, 1951). Las estimaciones de sí mismo y las de los compañeros
de equipo representan enteramente "métodos" distintos y se les puede dar mayor importancia al evaluar los datos que van a ser presentados.
En un análisis previo de estos datos (Fiske, 1949), cada uno de los tres triángulos heterorrasgo-monométodo fue computado y factorizado. Para
proporcionar una matriz multirrasgo-multimétodo, las 1 452 correlaciones de heterométodo fueron computadas especialmente para este informe. La matriz
completa de 66 X 66 con sus 2 145 coeficientes es obviamente demasiado grande para presentarla aquí, pero será usada en el análisis que sigue. Para
proporcionar una muestra ilustrativa, la tabla 12 presenta las interrelaciones entre cinco variables, seleccionando la que representa mejor cada uno de los
cinco factores recurrentes descubiertos en el análisis previo de las matrices monométodo de Fiske (1949). (Fueron escogidas independientemente de su validez
indicada en los bloques heterométodos. "Asertivo" -reflejado en el núm. 3- fue seleccionado para representar el factor recurrente 5, debido a que "locuaz"
también obtuvo una alta carga en el primer factor recurrente).
El cuadro presentado en la tabla 12 es
representativo de la mejor validez de las estimaciones de rasgo de personalidad que la psicología puede ofrecer actualmente. Es confortante advertir que el
cuadro es mejor que el de la mayoría de los previamente examinados. Nótese que los valores de validez de "asertivo" exceden los valores de heterorrasgo de los
triángulos monométodo y heterométodo. "Alegre", "de intereses amplios" y "serio"
tienen validez que excede los valores de heterorrasgo-heterométodo con dos excepciones. Solamente para "equilibrio inmutable" la evidencia de validez
parece trivial. La elevación de las confiabilidades por encima de los triángulos heterorrasgo- mono método es la evidencia más amplia de validez discriminante.
Una comparación de la tabla 12 con la matriz completa muestra que el procedimiento de una sola variable que represente cada factor ha
acrecentado la apariencia de validez, aunque no necesariamente de un modo engañoso. Donde varias variables son influidas altamente por el mismo factor, su
nivel "verdadero" de intercorrelación es alto. En estas condiciones, los errores de muestreo pueden hacer disminuir los valores de la diagonal de validez y
agrandar otros para producir excepciones ocasionales al cuadro de validez, tanto en la matriz heterorrasgo-monométodo como en los triángulos heterométodo-heterorrasgo.
En este caso, con una N de 124, el error de muestreo es apreciable, y de esta manera puede esperarse que se exagera el grado de invalidez.
Dentro de las secciones de monométodo, los errores de medida se correlacionan al elevar el nivel general de los valores encontrados, mientras
que dentro de los bloques de heterométodo, los errores de medida son independientes, y a lo largo de la diagonal de validez y los triángulos de
heterorrasgo la validez tiende a decrecer. Estos efectos, que también pueden ser establecidos en términos de factores de método o insignificancias comunes de
confusión operan fuertemente en estos datos, como probablemente en todos los datos que contienen estimaciones. Cuando diversas variables representan a cada
factor, ninguna de las variables satisface consistentemente el criterio de que los valores de validez exceden los valores correspondientes en los triángulos de
monométodo, cuando se examina la matriz completa. Como resumen del cuadro de validación con respecto a las
comparaciones de valores de validez con otros valores de heterométodo en cada bloque, se ha preparado la tabla 13. Para cada rasgo y para cada uno de los tres
bloques de heterométodo, el valor de fa diagonal de validez presenta el valor heterorrasgo más alto que lo incluye y el número de los 42 valores heterorrasgo
semejantes que exceden a la diagonal de validez en magnitud. (El número 42 procede de la agrupación de los 21 valores de las otras columnas y de los 21
valores de los otros renglones para la columna y el renglón que interceptan al valor diagonal dado).
Acerca del requisito de que la diagonal de validez exceda a todas las otras en su bloque de heterométodo, ninguno de los rasgos tiene un registro completamente
perfecto, aunque algunos se acercan bastante. "Asertivo" tiene solamente una excepción trivial en el bloque "compañeros de equipo-sí mismo". "Locuaz" tiene
casi un registro tan bueno como "imaginativo". Serio tiene solo dos excepciones inconsecuentes e "interés en las mujeres", tres. Estos rasgos se destacan como
sumamente válidos de la descripción de sí mismo y la reputación. Nótese que los coeficientes de validez reales de estos cuatro rasgos se extienden desde .22 a
.82, o si nos concentramos en el bloque "compañero de equipo-sí mismo", que seguramente representa métodos más independientes, desde .31 a .46. Aunque estos
son los mejores rasgos, parece que la mayoría de ellos tienen una validez más que fortuita. Todos los que tienen 10 o menos excepciones poseen un grado de
validez significativo en el nivel .001, estimado a bulto por la prueba de tos signos de una cola. Si tomamos el valor de la validez como fijo (ignorando
sus fluctuaciones muéstrales), podemos determinar si el número de valores más grandes que él en su renglón y columna es menor que el esperado sobre la
hipótesis de nulidad de que la mitad de los valores estará por encima de él. Este procedimiento requiere la suposición de que la posición (por encima o por
debajo del valor de la validez) de cualquiera de estos valores de comparación es independiente de la posición de cada uno de los demás, una suposición dudosa
cuando se emplean los métodos comunes y la varianza de rasgo. Con la excepción de una variable, todas satisficieron este nivel en el bloque "dirección-compañero de
equipo", todas menos cuatro en el bloque "dirección-sí mismo", todas menos cinco en el bloque más independiente, "compañero de equipo-sí mismo". Sin embargo, las
excepciones a la validez significativa no son paralelas de columna a columna, y solamente 12 de las 22 variables tienen validez significativa de .001 en los
tres bloques. Estas se indican por un asterisco en la tabla 13. Este nivel general de alta significación de la validez no debe oscurecer el interesante problema creado por las excepciones ocasionales,
aun ante las mejores variables. Los excelentes rasgos de "asertivo" y "locuaz" proporcionan un caso a propósito. En término del análisis original de Fiske,
ambos tienen fuertes cargas en el factor recurrente "seguro de sí mismo" (representado por "asertivo" en la tabla 12). "Locuaz" también tuvo una fuerte
carga en el factor recurrente de "adaptabilidad social" (representado por "alegre" en la tabla 12). Esperaríamos, por consiguiente, una correlación alta
entre ellos, así como discriminación significativa. Incluso en el nivel del sentido común, la mayoría de los psicólogos esperarían que sus colegas
discriminen válidamente entre la asertividad o positividad (no sumisión) y la locuacidad. Sin embargo, en el bloque "compañero-sí mismo", "asertivo" estimado
por sí mismo correlaciona .48 con "locuaz" por compañeros de equipo, más altamente que cualquiera de sus valores de validez en este bloque, .43 y .46.
En términos del promedio de los valores de validez y la frecuencia de las excepciones, hay una clara tendencia del bloque
"dirección-compañero" a mostrar el más alto acuerdo. Esto puede atribuirse a varios factores. Ambos representan estimaciones desde el punto de vista externo.
Ambos son promediados para los tres jueces, y así se reducen al mínimo las distorsiones individuales e indudablemente se incrementan las confiabilidades.
Además, las estimaciones de los compañeros de equipo fueron asequibles a la dirección al hacer sus estimaciones. Otro efecto contribuyente a la convergencia
y discriminación menos adecuadas de las estimaciones de sí mismo fue un conjunto de respuestas hacia el polo favorable que redujo grandemente el rango de estas
medidas (Fiske, 1949). El análisis de los detalles de los casos de invalidez que se resumen en la tabla 13 muestra que la mayoría de los casos el
efecto es atribuible a la alta especificidad y baja comunalidad para la forma de estimación de sí mismo. En estos casos, la columna y el renglón que intersecan
la diagonal de validez baja son asimétricas hasta donde se relaciona el nivel general de correlación, hecho que apoya la condensación que proporciona la tabla
13. El psicólogo de la personalidad está inicialmente predispuesto a reinterpretar las estimaciones de sí mismo, a tratarlas como
síntomas en vez de interpretarlas literalmente. Se tuvo cuidado con los casos en que las estimaciones de sí mismo no fueron literalmente interpretables,
pero no dejaron de tener un significado de diagnóstico cuando se "tradujeron" apropiadamente. De cualquier modo, los casos de invalidez de las descripciones
de sí mismo del estudio de evaluación no son de este tipo, sino más bien se explican en términos de la ausencia de comunidad para una de las variables
involucradas. En general, donde estas descripciones de sí mismo son interpretables de alguna manera, lo son tan literalmente como las descripciones
de los compañeros de equipo. Tal hallazgo, por supuesto, puede reflejar un grado sustancial de penetración por parte de los sujetos.
El éxito general con respecto a la validación discriminante junto con los patrones factoriales paralelos del análisis inicial de Fiske de
las tres matrices intramétodo pareció justificar el análisis de la validez del patrón factorial en este caso. Un procedimiento posible consiste en hacer un
solo análisis de la matriz total de 66 x 66. Otros enfoques centrados en la factorización por separado de bloques de heterométodo, matriz por matriz,
también es sugerible. Pero tales métodos no solo serían extremadamente tediosos, sino, además, dejarían indeterminada la comparación precisa de la similitud del
patrón factorial. La correlación de las cargas factoriales sobre la población de variables fue empleada con este propósito por Fiske (1949), pero si bien
proporcionó la identificación de los factores recurrentes, ningún índice único total de la similitud del patrón factorial fue generado. Puesto que nuestro
interés inmediato era confirmar un patrón de interrelaciones y no describirlo, escogimos el método corto y eficiente: probar la similitud de los conjuntos de
valores de heterorrasgo mediante los coeficientes de correlación en los que cada anotación representaba el tamaño de los valores de los coeficientes de
heterorrasgo dados en dos matrices diferentes. Para la matriz completa, las correlaciones se basarían en el valor de N de las 22 x 21/2 ó 231 combinaciones
de heterorrasgo específicas. Las correlaciones se computaron entre las matrices monométodo "compañero de equipo" y "sí mismo", seleccionadas como de
independencia máxima. (Los valores que siguen fueron computados a partir de la matriz original de correlación y son un poco más altos que los que se habrían
obtenido de una matriz reflejada). La similitud entre las dos matrices monométodo fue de .84, lo que corrobora la similitud del patrón factorial entre
estas matrices que Fiske describe más completamente en el análisis factorial paralelo que hizo de ellas. Al realizar este análisis, el bloque de heterométodo
fue tratado como si estuviera dividido en dos por la diagonal de validez, de modo que los valores por encima y por debajo de la diagonal representaban la
validación más independiente del patrón de correlación de heterorrasgo. Se correlacionaron a .63, un valor que aunque es bajo, muestra un sensible grado de
confirmación. Examinemos ahora la cuestión de que el patrón con el que concuerdan los dos triángulos de heterométodo-heterorrasgo sea el mismo que se
encontró común a los dos triángulos monométodo. La matriz intra-compañero de equipo se correlacionó con los dos triángulos de heterométodo a .71 y .71. La
matriz intra-sí mismo se correlacionó a .57 y .63. Por tanto, en general, los resultados experimentales apoyan la validez del patrón de relaciones interrasgo.
Relación con la validez de constructo Aun cuando los criterios de validación presentados se encuentren explícita o
implícitamente en los estudios de la validez de constructo (Cronbach y Meehl, 1955; APA, 1954), el artículo se interesa primordialmente en la adecuación
de los tests como medidas de un constructo y no tanto en la adecuación de un constructo como lo determina la confirmación de asociaciones previstas
teóricamente que se hace por medio de las medidas de otros constructos. Antes de probar la relación entre un rasgo concreto y otros rasgos, se debe
tener confianza en las medidas de ese rasgo. La confianza puede provenir de la validación convergente y discriminante. En otras palabras, cualquier formulación
conceptual de un rasgo suele incluir implícitamente la proposición de que el rasgo es una tendencia a responder observable en más de una condición
experimental y el rasgo puede ser diferenciado significativamente de otros rasgos: La prueba de estas proposiciones debe ser anterior a la prueba de otras
proposiciones, de modo que evitemos la aceptación de conclusiones erróneas. Por ejemplo, un marco conceptual puede postular una gran correlación entre los
rasgos A y B y ninguna entre los rasgos A y C. Si el experimentador mide A y B por un método (por ejemplo, un cuestionario) y C por otro método (como la medida
de conducta abierta en una situación de prueba), sus hallazgos pueden ser consecuentes con su hipótesis únicamente como una función de la varianza común
de método a sus medidas de A y B, pero no a C. Se entiende que los requisitos de este artículo son adecuados
para los esfuerzos relativamente ateoréticos típicos de los tests y de la medición como para intentos más teóricos. Esta insistencia en los criterios
validacionales de nuestro nivel ateorético de la construcción del test, no es en absoluto incompatible con un reconocimiento de las bondades de
incrementar el grado de consideraciones teóricas que determinan todos los aspectos de un test y de la situación de prueba, como afirman Jessor y Hammond (Jessor
y Hammond, 1957). Relación con el operacionalismo. (Underwood 1957), en su efectiva presentación del punto de vista operacional¡sta, señala de modo
realista el tipo amorfo de teoría con la que trabaja la mayoría de los psicólogos. Compara la concepción "literaria" de un psicólogo con su definición
operacional representada por sus tests u otros instrumentos de medida. Reconoce la importancia de la definición literaria en la comunicación y producción de la
ciencia y advierte que la definición operacional "puede no medir en absoluto el proceso que se desea medir; puede medir incluso un objeto por completo
diferente". Sin embargo, no indica cómo saber que se comete ese error. Los requisitos de nuestro artículo pueden verse como
extensivos de la clase de operacionalismo que Underwood ha expresado. Al elaborador de test no se le pide engendrar de su concepción literaria o
constructo privado una formulación operacional, sino dos o aún más, cada una tan diferente en cuanto al vehículo de investigación como sea posíble. Además, se le
pide hacer explícita la distinción entre su nueva variable y otras variables, distinciones que intervienen en su definición literaria. Es aconsejable que en
los primeros esfuerzos de validación, antes de imprimirlos, aplique los métodos y los rasgos diferentes. Su definición literaria, su concepción, quedará mejor
representada en la concordancia de sus medidas independientes del rasgo. La matriz multirrasgo-multimétodo es un primer paso de importancia
práctica para evitar "el peligro... de que el investigador piense que al partir de una concepción artística o literaria... para llegar a la construcción de los
itemes de una escala que la mida, ha validado su concepción artística" (Underwood, 1957). En contraste con el operacionalismo individual que domina
en la psicología, abogan por un operacionalismo múltiple, un operacionalismo convergente (Garner, 1954; Garner, Hake y Eriksen, 1956), una triangulación
metodológica (Campbell, 1953, 1956), una delineación operacional (Campbell, 1954) y una validación convergente. La presentación de Underwood implica
desplazarse del concepto a la operación, cosa frecuente y característica de la ciencia. Se puede indicar lo mismo, sin embargo, al analizar una transición de
la operación al constructo. Para cualquier cuerpo de datos tomados de una sola operación hay una subínfinidad de interpretaciones posibles, es decir, una
subinfinidad de conceptos o combinaciones de conceptos que la representan. Una sola operación es equívoca como representativa de conceptos. De un modo análogo,
cuando examinamos el cuarto distorsionado de Ames desde un punto fijo y a través de un solo ojo, los datos del patrón retinal son equívocos en cuanto a la
subinfinidad de hexaedrones que puede engendrar el mismo patrón. La adición de un segundo punto de vista, a través del paralaje binocular, reduce mucho su
ambigüedad y limita considerablemente las construcciones de ambos conjuntos de datos. En el estudio de Garner (1954), las medidas de fraccionamiento de un solo
método fueron equívocas, es decir, tal vez eran función de la distancia fraccionada del estímulo de comparación del proceso de juicio. Un
operacionalismo convergente múltiple redujo la ambigüedad al señalar que la última conceptualización era la apropiada, y al revelar la preponderancia de una
varianza de los métodos. Lo mismo sucede en los estudios de aprendizaje: al identificar los constructos con los datos de respuesta de animales en un arreglo
operacional concreto hay ambigüedad, que se reduce operacionalmente al introducir pruebas de transposición, a saber, (as diferentes operaciones
proyectadas para hacer comparaciones entre las conceptualizaciones rivales (Campbell, 1954). El operacionalismo convergente de Garner y nuestra
insistencia en más de un método para medir cada concepto se separa de la primera posición de Bridgman: "si tenemos más de un conjunto de operaciones, hay más de
un concepto y estrictamente hay un nombre diferente para cada conjunto de operaciones" (Bridgman, 1927). En la etapa presente de la psicología,
el problema crucial consiste en la demostración de convergencia, aunque no de completa congruencia, entre dos conjuntos distintos de operaciones. Con solo un
método, no hay manera de distinguir la varianza de rasgo de la indeseada varianza de método. Cuando la medición y la conceptualización psicológicas
lleguen a estar mejor desarrolladas, puede ser muy adecuada la diferencia conceptual entre la unidad A1 de rasgo-método y la unidad A2 de rasgo-método,
donde el rasgo A se mide por diferentes métodos. Más probablemente, la varianza de método se concretará teóricamente en términos de un conjunto de constructos.
Entonces se sabrá que los procedimientos de medición suelen incluir varios constructos teóricos en
aplicación conjunta. Para que las medidas obtenidas estimen valores para un solo constructo bajo esta condición se requiere también la comparación de medidas
complejas que varían en su composición de rasgo, de manera algo semejante a una matriz multirrasgo. El método de unión de Mill de las semejanzas y las
diferencias abrevia demasiado la efectiva clarificación experimental de los conceptos. La evaluación de una motriz multirrasgo-multimétodo. La
evaluación de la matriz de correlación que se forma al intercorrelacionar varias unidades de rasgo-método, debe tener en consideración los factores que, según se
sabe, afectan la magnitud de las correlaciones. Un valor de la diagonal de validez debe ser evaluado a la luz de las confiabilidades de las dos medidas
involucradas; por ejemplo, una baja confiabilidad para el test A2 exagera la varianza de método manifiesta en el test A1. Además, el enfoque global supone
que el muestreo de los individuos es adecuado: la reducción de la muestra con respecto a uno o más rasgos harán disminuir los coeficientes de confiabilidad y
las intercorrelaciones que contengan estos rasgos. Aunque las restricciones de rango sobre todos los rasgos produce serias dificultades en la interpretación de
la matriz multirrasgo-multimétodo y deben evitarse siempre que se pueda, la presencia de diferentes grados de restricción en distintos rasgos es el peligro
más serio de la interpretación significativa. Se pueden desarrollar varios tratamientos estadísticos para
las matrices multirrasgomultimétodo. Se han considerado pruebas elementales de la elevación de un valor en la diagonal de validez por encima de los valores de
comparación en su renglón y columna. Se ha propuesto el uso de correlaciones entre las columnas de variables que miden el mismo rasgo, el análisis de
varianza y el análisis factorial. El desarrollo de tales métodos estadísticos está más allá del propósito de esta exposición. Los psicólogos no deben interesarse en evaluar los tests como
si fueran fijos y definitivos, sino más bien en desarrollar mejores tests. Un examen cuidadoso de una matriz multirrasgo-multimétodo indicará
al experimentador los pasos que debe dar; le indicará qué métodos debe descartar o reemplazar, los conceptos que necesitan una delineación más definida y los que
son más pobremente medidos a causa de la excesiva o desconcertante varianza de método. Los juicios de validez basados en tal matriz deben tener en cuenta la
etapa de desarrollo de los constructos, las relaciones postuladas entre ellos, el nivel de afinamiento técnico de los métodos, la relativa independencia de
estos y cualquier característica pertinente de la muestra de sujetos. Estamos proponiendo que el proceso de validación sea considerado un aspecto de un
programa de mejoramiento de los procedimientos de medición, y que los "coeficientes de validez" obtenidos en cualquier etapa del proceso sean
interpretados como ganancia sobre las etapas precedentes y señales de hacia dónde dirigir los esfuerzos ulteriores. El diseño de una matriz multirrasgo-multimétodo. Los
diferentes métodos y rasgos incluidos en una matriz de validación deben seleccionarse con cuidado. Los diversos métodos que miden cada rasgo deben ser
adecuados a cómo se ha conceptualizado el rasgo. Aunque esta perspectiva reducirá el rango de métodos adecuados, rara vez restringirá la medición a un
procedimiento operacional. Siempre que se pueda, los diversos métodos en una matriz
deben ser completamente independientes entre sí; no debe haber ninguna razón previa para creer que comparten varianza de método. Este requisito es necesario
para que los valores en los triángulos de hsterométodo-heterorrasgo se acerquen a cero. Si la naturaleza de los rasgos excluye la independencia de métodos,
deben hacerse esfuerzos para obtener diversidad en cuanto a las fuentes de datos y a los procesos de clasificación. De este modo, las clases de estímulos o las
situaciones de fondo, es decir, los contextos experimentales, deben ser diferentes. Además, las personas que proporcionen las observaciones deberán
tener diferentes papeles o los procedimientos de calificación deberán ser variados. Los planes para una matriz de validación deben tener en
cuenta la diferencia entre las interpretaciones con respecto a la convergencia y a la discriminación. Basta con demostrar convergencia entre dos métodos
claramente distintos que muestran poco traslapamiento en los triángulos de heterorrasgo-heterométodo. Mientras el acuerdo entre varios métodos sea
deseable, la convergencia de dos es un requisito mínimo satisfactorio. La validación discriminativa no se logra con facilidad. Así como es imposible
comprobar la hipótesis de nulidad, o que un objeto no existe, no se puede establecer que un rasgo, como es medido, se diferencia de todos los demás.
Solamente se puede mostrar que la medida del rasgo A tiene poco traslapamiento con las medidas de B y C, y ninguna generalización segura puede hacerse más allá
de B y C. Por ejemplo, el equilibrio social probablemente pudiera discriminarse fácilmente de los intereses estéticos, pero también debe ser diferenciado de
liderazgo. En cuanto a los rasgos relacionados y que se espera se correlacionen entre sí, las correlaciones de monométodo serán sustanciales y las
de heterométodo entre rasgos también serán positivas. Si se quiere facilidad e interpretación, es mejor incluir en la matriz por lo menos dos rasgos y
preferiblemente dos conjuntos de rasgos que sean postulados independientes entre sí. Muchas matrices multirrasgo-multimétodo no mostrarán validación convergente;
puede no haber ninguna relación entre dos métodos de medición de un rasgo. En esta situación común, el experimentador debe examinar las pruebas a favor de
varias alternativas: a) ningún método es adecuado para medir el rasgo; b) uno de
los dos métodos no mide realmente el rasgo. (Cuando las pruebas indican que un método no mide el rasgo postulado, puede indicar que mide otro rasgo. Las altas
correlaciones en los triángulos de heterorrasgo-heterométodo pueden ofrecer sugerencias a tales posibilidades).
c), el rasgo no es una unidad funcional, es decir, las tendencias de respuesta que intervienen son propias de los
atributos y no del rasgo de cada test. El fracaso al demostrar la convergencia puede llevar a desarrollos conceptuales en lugar de abandonar el test.
RESUMEN
Se propone un proceso de validación que utiliza una matriz de intercorrelaciones entre los tests que representan por lo menos dos rasgos, cada
uno medido por un mínimo de dos métodos. Las medidas del mismo rasgo deben correlacionarse más entre sí que con medidas de diferentes rasgos que involucren
distintos métodos. Idealmente, estos valores de validez también deben ser más altos que las correlaciones entre los diferentes rasgos medidos por el mismo método.
Ejemplos hallados en la bibliografía muestran que estas condiciones deseables,
como grupo, rara vez son satisfechas. Los factores de método o de aparato contribuyen grandemente a las medidas psicológicas.
Las nociones de convergencia entre las medidas independientes del mismo rasgo y
la discriminación entre las medidas de diferentes rasgos son comparadas con las formulaciones publicadas anteriormente, como la validez de constructo y el
operacionalismo convergente. Los problemas de la aplicación de este proceso de validación ya se consideraron.
BIBLIOGRAFIA
Las Validaciones Convergente y Discriminante Mediante la Matriz Multirrasgo-Multimétodo
La experiencia acumulada en la medida de las diferencias individuales durante
los últimos 50 años, señala que los tests han sido aceptados o descartados en cuanto a su validez gracias a muchas clases de experiencias de investigación.
Los criterios que sugiere este trabajo se encuentran en dichas evaluaciones acumulativas, así como también en los recientes estudios acerca de la validez.
Estos criterios se aclaran y aumentan su eficacia cuando se consideran conjuntamente en el contexto de una matriz multirrasgo-multimétodo. Los aspectos
más estudiados del proceso de validación son los siguientes:
1. La validación es característicamente convergente, es decir, una corroboración
por procedimientos de medición independientes. La independencia de los métodos es el denominador común de los principales tipos de validez (con la excepción de
la validez de contenido) en la medida en que se distinguen de la confiabilidad.
2. Ya sea para justificar las mediciones de nuevos rasgos, para la validación de
la interpretación de tests, o para el establecimiento de la validez de construcción, se requiere la validación discriminante, así como también la
validación convergente. Los tests pueden ser invalidados por tener correlaciones demasiado altas con otros, cuando la intención ha sido que difieran.
3. Cada test o cada tarea empleados con propósitos de medición es una unidad rasgo-método, una unión
del contenido de un rasgo particular con procedimientos de medida que no son propios de ese contenido. La varianza sistemática entre las puntuaciones de un
test puede deberse a la respuesta frente a las cualidades de la medición, así como de la respuesta al contenido del rasgo.
4. Para examinar la validez discriminante y para estimar las contribuciones relativas de la varianza del método y del rasgo, debe emplearse mós de un rasgo
y más de un método, en el proceso de validación. En muchos casos será conveniente realizarlo a través de una matriz multirrasgo-multimétodo , que
presenta todas las intercorrelaciones resultantes cuando cada uno de los diferentes rasgos se mide por cada uno de los distintos métodos.
Para ilustrar el proceso de validación sugerido, se presenta un ejemplo sintético en la tabla 1. En este ejemplo intervienen tres rasgos diferentes,
cada uno medido por tres métodos, que generan nueve variables distintas. Es conveniente nombrar las diferentes regiones de la matriz, como se hace en la
tabla 1. Las confiabilidades se mencionan en términos de tres diagonales de confiabilidad, una para cada método. Las confiabilidades también podrán
designarse como valores de monorrasgo-monométodo. El triángulo adyacente a cada diagonal de confiabilidad se llama triángulo heterorrasgo-monométodo. La
diagonal de confiabilidad y el triángulo adyacente heterorrasgo-mono método forman un bloque monométodo. Un bloque heterométodo está formado por una
diagonal de validez (que también puede designarse como valores de monorrasgo-heterométodo) y los dos triángulos heterorrasgo-heterométodo) que están a cada lado de ella.
Nótese que los dos triángulos heterorrasgo-heterométodo no son idénticos.
En términos de este diagrama, la cuestión de la validez radica en cuatro aspectos. En primer lugar, las anotaciones de la, diagonal de validez deben ser
significativamente diferentes de cero y suficientemente grandes para estimular un examen más amplio de la validez este requisito es una señal de validez
convergente. En segundo lugar, un valor de la diagonal de validez debe ser mayor que los de su columna y renglón en los triángulos heterorrasgo-heterométodo. Es
décir, el valor de la validez de una variab









