Валі́дність те́сту (англ. test validity) — це ступінь, до якого тест (наприклад, хімічний, фізичний чи освітній) точно вимірює те, що він має вимірювати. У галузях психологічного та освітнього тестування «валідність стосується ступеня, до якого свідчення й теорія підтримують інтерпретації результатів тесту, передбачені запропонованим використанням тесту».[1] Хоча класичні моделі розділяли це поняття на різні «валідності» (як-от змістовна валідність , критеріальна валідність та конструктна валідність ),[2][3] нині переважним є погляд на валідність як на єдиний унітарний конструкт.[4]
Валідність загалом вважають найважливішим питанням у психологічному та освітньому тестуванні,[5] оскільки вона стосується значення, яке покладають на результати тесту.[4] Хоча багато підручників подають валідність як статичний конструкт,[6] з моменту перших опублікованих рекомендацій зі створення психологічних та освітніх тестів розвинулися різні моделі валідності.[7] Ці моделі можливо поділити на дві основні групи: класичні моделі, що містять кілька типів валідності, та сучасні моделі, що розглядають валідність як єдиний конструкт. Сучасні моделі реорганізують класичні «валідності» в «аспекти» валідності[4] або «типи» свідчень, що підтримують валідність.[1]
Валідність тесту часто плутають із надійністю, яка стосується узгодженості вимірювання. Адекватна надійність є необхідною передумовою валідності, але висока надійність жодним чином не гарантує, що вимірювання валідне.
Історичне підґрунтя
Хоча психологи й педагоги усвідомлювали кілька аспектів валідності ще до Другої світової війни, їхні методи встановлення валідності зазвичай обмежувалися кореляцією результатів тесту з деяким відомим критерієм.[8] Під керівництвом Лі Кронбаха «Технічні рекомендації для психологічних тестів і діагностичних методик» 1954 року[7] намагалися уточнити й розширити поняття валідності, розділивши його на чотири частини: (а) конкурентна валідність , (б) прогностична валідність , (в) змістовна валідність і (г) конструктна валідність . Пізніша публікація Кронбаха та Міла[9] об'єднала прогностичну й конкурентну валідності в «критеріальну орієнтацію», яка згодом стала критеріальною валідністю .
Протягом наступних чотирьох десятиліть багато теоретиків, зокрема й сам Кронбах,[10] висловлювали своє невдоволення цією трикомпонентною моделлю валідності.[11][12][13] Їхні аргументи досягли кульмінації у статті Семюела Мессіка 1995 року, де валідність описано як єдиний конструкт, складений із шести «аспектів».[4] На його погляд, різні висновування з результатів тесту можуть вимагати різних типів свідчень, але не різних валідностей.
«Стандарти освітнього та психологічного тестування» 1999 року[1] переважно кодифікували модель Мессіка. Вони описують п'ять типів свідчень, що підтримують валідність і включають кожен із аспектів Мессіка, не згадуючи змістовної, критеріальної та конструктної валідностей класичної моделі.
Процес валідації
За «Стандартами» 1999 року,[1] валідація — це процес збирання свідчень для забезпечення «науково обґрунтованої основи» для інтерпретування результатів, запропонованої розробником тесту та/або його користувачем. Отже, валідація починається з розробки рамок, які визначають охоплення та аспекти (у випадку багатовимірних шкал) запропонованої інтерпретації. Ці рамки також містять раціональне обґрунтування, яке пов'язує інтерпретацію з відповідним тестом.
Дослідники валідності далі складають список тверджень, які мають бути виконані, щоби запропонована інтерпретація була валідною. Або, навпаки, вони можуть скласти список питань, які можуть загрожувати валідності інтерпретацій. У будь-якому випадку дослідники збирають свідчення — чи то оригінальні емпіричні дослідження, метааналіз, чи огляд наявної літератури або логічний аналіз питань — для підтримки або спростування тверджень інтерпретації (або загроз валідності інтерпретації). Наголос роблять на якості, а не на кількості свідчень.
Одна інтерпретація будь-якого результату тесту може вимагати, щоби було виконано кілька тверджень (або її може бути поставлено під сумнів будь-якою із загроз її валідності). Потужні свідчення на підтримку одного твердження не зменшують потреби в підтримці інших тверджень.
Свідчення для підтримки (або спростування) валідності інтерпретації можливо класифікувати в одну з п'яти категорій:
- Свідчення на основі змісту тесту
- Свідчення на основі процесів відповіді
- Свідчення на основі внутрішньої структури
- Свідчення на основі відношень до інших змінних
- Свідчення на основі наслідків тестування
Методики збирання кожного типу свідчень слід застосовувати лише тоді, коли вони дають інформацію, яка могла би підтримати або поставити під сумнів твердження, необхідні для відповідної інтерпретації.
Кожен елемент свідчень зрештою інтегрується в аргументацію валідності. Ця аргументація може вимагати перегляду тесту, протоколу його проведення або теоретичних конструктів, які лежать в основі інтерпретацій. Якщо тест та/або інтерпретації його результатів будь-яким чином змінюються, для підтримки нової версії мусить зібрати свідчення новий процес валідації.
Див. також
Примітки
- ↑ а б в г American Educational Research Association; American Psychological Association; National Council on Measurement in Education (1999). Standards for educational and psychological testing (англ.). Washington, DC: American Educational Research Association. ISBN 978-0-935302-25-7. Архів оригіналу за 15 січня 2025.
- ↑ Guion, R. M. (1980). On trinitarian doctrines of validity. Professional Psychology (англ.). 11: 385—398. doi:10.1037/0735-7028.11.3.385.
- ↑ Лябах, А.П.; Турчин, О.А.; Пятковський, В.М.; Кучер, І.В. (2021). Порівняльний аналіз систем оцінки функції стопи. Вісник ортопедії, травматології та протезування (укр.). 2: 4—9. doi:10.37647/0132-2486-2021-109-2-4-9.
- ↑ а б в г Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning (PDF). American Psychologist (англ.). 50: 741—749. doi:10.1037/0003-066X.50.9.741. Архів (PDF) оригіналу за 11 грудня 2024.
- ↑ Popham, W. J. (2008). All About Assessment / A Misunderstood Grail. Educational Leadership (англ.). 66 (1): 82—83. Архів оригіналу за 27 січня 2025.
- ↑ Nitko, J.J.; Brookhart, S. M. (2004). Educational assessment of students (англ.). Upper Saddle River, NJ: Merrill-Prentice Hall.
- ↑ а б American Psychological Association; American Educational Research Association; National Council on Measurement in Education (1954). Technical recommendations for psychological tests and diagnostic techniques (англ.). Washington, DC: The Association. doi:10.1037/h0053479.
- ↑ Angoff, W. H. (1988). Validity: An evolving concept. У Wainer, H.; Braun, H. (ред.). Test Validity (англ.). Hillsdale, NJ: Lawrence Erlbaum. с. 19—32. doi:10.4324/9780203056905.
- ↑ Cronbach, L. J.; Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin (англ.). 52: 281—302. doi:10.1037/h0040957. Архів оригіналу за 10 вересня 2024.
- ↑ Cronbach, L. J. (1969). Validation of educational measures. Proceedings of the 1969 Invitational Conference on Testing Problems (англ.). Princeton, NJ: Educational Testing Service. с. 35—52.
- ↑ Loevinger, J. (1957). Objective tests as instruments of psychological theory (PDF). Psychological Reports (англ.). 3: 634—694. doi:10.2466/pr0.1957.3.3.635. Архів (PDF) оригіналу за 7 липня 2024.
- ↑ Tenopyr, M. L. (1977). Content-construct confusion. Personnel Psychology (англ.). 30: 47—54. doi:10.1111/j.1744-6570.1977.tb02320.x.
- ↑ Guion, R. M. (1977). Content validity–The source of my discontent. Applied Psychological Measurement (англ.). 1: 1—10. doi:10.1177/014662167700100103. Архів оригіналу за 27 січня 2025.