Аналіз можливостей тестового контролю у вищій школі

МІНІСТЕРСТВО ОСВІТИ Й НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ ГІРНИЧИЙ УНІВЕРСИТЕТ

Кафедра філософії

РЕФЕРАТ

з дисципліни: "Педагогічний контроль в системі освіти"

на тему: "Аналіз можливостей різновидностей тестового контролю у вищій школі"

Дніпропетровськ 2008

План

Вступ

1. Наука про тести

1.1Навчальний тест

2. Класи і види тестів

2.1 Гомогенні тести

2.2 Гетерогенні тести

2.3 Інтегровані тести

2.4 Адаптивні тести

2.5 Критеріально-оріентовані тести

3. Принципи добору змісту тестових завдань

4. Поняття складності тесту і його вплив на оцінку знань

5. Оцінювання, оцінка і вимір знань

Висновок

Використана література

Вступ

У жовтні 2003 року в Берліні Україна приєдналася до Болонської угоди і тим самим увійшла в процес об'єднання вищої освіти Європи в єдину систему. У 2010 році в Європі планується створити єдиний освітній простір. У напрямі інтеграції до європейського освітнього простору Україна у 1999 році ввела двоступеневу систему освіти "бакалавр–магістр". Цей освітній формат є аналогічним по відношенню до освітньої моделі американської та європейської систем. У ньому український освітній рівень магістра відповідає американському і європейському ступеню майстра. Термін підготовки бакалавра в Україні визначено на чотири роки, а магістра – додатково один або два роки залежно від спеціальності. Для порівняння, в західних країнах в цілому бакалавр навчається чотири роки, а в окремих – три. У багатьох країнах магістрат, частіше, включає лише один рік навчання

Сьогодні йде бурхливе обговорення того, що і як необхідно змінити в освітніх процедурах і методиках викладання університетів України. Окремі фахівці вважають за необхідне розробити процедури управління освітнім процесом, в інших роботах пропонується перехід на багатобальну шкалу вимірювання знань, умінь і навичок студентів, у третіх – дидактичні принципи особистісно орієнтованої системи навчальної діяльності вищих навчальних закладів.

На початку минулого століття в США почали замислюватися над об'єктивністю контролю знань, умінь і навичок студентів. Дванадцять коледжів і університетів об'єднали свої зусилля для розробки уніфікованих процедур вступних іспитів. В університетах прагнули відійти від звичної для нас білетної системи усних іспитів (ticket system) та замінити її письмовим іспитом або тестуванням. Очевидна мета таких змін – прагнення зменшити суб'єктивні аспекти екзаменаційної обстановки, зробити оцінку знань і навичок більш об'єктивною та ситуативно-незалежною.

1. Наука про тести

Для розуміння сутності тестів важливо розібратися в системі понять. Поняття взагалі утворюють основу будь-якої науки, і в цьому змісті діяльність по розробці й ефективному застосуванні тестів не є виключенням.

Перші наукові праці по теорії тестів з'явилася на початку ХХ століття, на стику психології, соціології, педагогіки й інших так званих поведінкових наук.

Закордонні психологи називають цю науку психометрикою, а педагоги - педагогічним виміром. У нас же загальноприйнятий варіант назви даної науки це тестологія, що може бути педагогічною, психологічною чи соціологічною, в залежності від того, де застосовується і розвивається. В принципі, інтерпретація назви "тестологія" проста і прозора: наука про тести.

Педагогічна тестологія покликана займатися питаннями розробки тестів для об'єктивного контролю рівня знань, тих, хто навчається (в самому широкому змісті цього слова, а не просто "школярів", як можна припустити).

Ключовими поняттями тестології, як однієї з методичних теорій, тест, зміст і форма завдань, надійність і валідність результатів виміру. Крім того, у тестології використовуються такі поняття статистичної науки, як вибіркова і генеральна сукупність, кореляція й ін.

Слово "тест" викликає в людей різні уявлення. Одні думають, що це питання чи задачі з однією готовою відповіддю, яку треба вгадати. Інші вважають тест формою гри чи забави. Треті намагаються тлумачити це як переклад з англійського слова "test" (іспит, перевірка).

Загалом, по цьому питанню немає єдності думок. Не випадково розмах думок про тести виявляється занадто широким: від суджень повсякденної свідомості до спроб наукового тлумачення сутності тестів. У науці проводять істотні розходження між простим перекладом слова і змістом поняття.

Найчастіше ми зустрічаємося із спрощеним сприйняттям поняття "тест", як простий вибір однієї відповіді з декількох запропонованих до запитання. Численні приклади таких, здавалося б, "тестів" легко знайти в більшості систем дистанційного навчання.

Але це часто виявляються не тести, а щось зовні схоже на них. Звичайно це збірники питань і задач, розрахованих на вибір однієї правильної відповіді з числа запропонованих. Вони тільки по ззовні схожі на справжній тест. Розходження в розумінні сутності тестів породжують розходження у ставленні до тестів.

У наші дні існує багато видів тестів, тому дати універсальне визначення для всіх цих видів навряд чи можна.

Традиційний тест являє собою стандартизований метод діагностики рівня і структури підготовленості. У такому тесті всі відповідають на ті самі завдання, в однаковий час, в однакових умовах і з однаковими правилами оцінювання відповідей.

Головна мета застосування традиційних тестів – визначити чвідношення порядку, що встановлюється за рівнем знань між тими, хто проходить тестування. І на цій основі визначити місце (чи рейтинг) кожного.

Тоді виникає одне з головних питань теорії тестів - питання підбору найкращого тесту.

Кожен тест може відрізнятися від інших тестів кількістю завдань, їх складністю, а також багатьма іншими характеристиками. З прагматичної точки зору краще робити тест, що має порівняно менше число завдань, але який володіє більшістю переваг, властивих більш "довгим" тестам.

Поняття "довжина тесту" введено на початку XX століття Ч. Спирманом і означає кількість завдань у тесті. Чим довше тест, тим більше в ньому завдань. Від числа завдань деяким чином залежить точність виміру знань.

У тест намагаються відібрати мінімально достатню кількість завдань, що дозволяє порівняно точно визначити рівень і структуру підготовленості. Інтерпретація результатів тестування ведеться переважно з опорою на середню арифметичну і, на так звані, процентні норми, що показують, - скільки відсотків випробуваних мають тестовий результат гірший, чим у любого іншого випробуваного. Така інтерпретація тестових результатів називається нормативно-орієнтованою.

Але нас більше цікавить визначення поняття тесту як навчального. Такого, який можна використовувати в системах дистанційної освіти.

1.1Навчальний тест

Навчальний тест визначається як система завдань визначеного змісту, зростаючої складності, специфічної форми, що дозволяє якісно й ефективно вимірити рівень і оцінити структуру підготовленості учнів.

Навчальний тест по своїй суті є класичним представником традиційних тестів.

Для кращого розуміння визначення навчального тесту розглянемо коротке тлумачення його основних термінів.

Хоча будь-який тест складається з тестових завдань, останні представляють не сукупність довільно об'єднаних завдань, а саме систему.

Система означає, що в тесті зібрані такі завдання, що володіють системоутворюючими властивостями. Тут, у першу чергу, треба виділити загальну приналежність завдань до однієї і тієї ж системи знань, тобто до однієї навчальної дисципліни, їх зв'язок і упорядкованість.

Тест, як система, має склад, цілісність і структуру.

Він складається із:

завдань;

правил їх застосування;

оцінок за виконання кожного завдання;

рекомендацій з інтерпретації тестових результатів.

Цілісність тесту означає взаємозв'язок завдань, їхня приналежність загальному вимірюваному фактору. Кожне завдання тесту виконує відведену йому роль і тому жодне з них не може бути вилучене з тесту без втрати якості виміру.

Структуру тесту утворює спосіб зв'язку завдань між собою. В основному, це так звана факторна структура, у якій кожне завдання зв'язане з іншими через загальний зміст і загальну варіацію тестових результатів.

У навчальному тесті завдання розташовуються в міру зростання складності - від найпростіших до найскладніших. Інакше кажучи, головною формальною системоутворюючою ознакою тесту є розходження завдань відповідно ступеня їх складності. Слово "формальне" вживається для пояснення того, що “тест” трактується не лише, як система завдань зростаючої складності, без обліку їх змісту.

Прояву системної якості тесту сприяє і єдина дисциплінарна спільність завдань, що реалізує ідею виміру підготовленості, тих хто проходить тестування, по одній якій-небудь визначеній навчальній дисципліні або їх комплексу.

Час нерідко називається в якості іншого системоутворюючого фактора. Дійсно, одне з розумінь, покладених в основу створення тестів - мати інструмент швидкого і точного оцінювання.

Один з актуальних напрямків сучасної організації тестового контролю в дистанційній освіті - це індивідуалізація контролю, що приводить до значної економії часу тестування. Контроль ведеться за допомогою заздалегідь відкаліброваних, зі рівнем складності, завдань.

Інша сторона питання полягає в тому, що від часу тестування істотно залежить якість результатів. Кожен тест має оптимальний час тестування, зменшення чи перевищення якого знижує якісні показники тесту. Оптимальний час тестування визначається емпірично, по показнику дисперсії тестових даних. Якщо по осі абсцис відкласти час тестування, а по осі ординат - значення дисперсії тестових результатів, що отримується після кожної спроби контролю, то з'єднавши крапки, одержимо представлення про зміну дисперсії; максимум значення останньої вкаже на оптимум часу, необхідного для тестового контролю.

Якість тесту традиційно зводиться до визначення міри його надійності і питань валідності отриманих результатів. Якісним, як і об'єктивним, можна назвати тільки той метод виміру, що обґрунтований науково і здатний дати необхідні результати.

Валідність означає придатність тестових результатів для тієї мети, заради чого проводилося тестування. Валідність залежить від якості завдань, їхнього числа, від ступеня повноти і глибини охоплення змісту навчальної дисципліни у завданнях тесту. Крім того, валідность залежить також від балансу і розподілу завдань за складністю, від методу добору завдань у тест із загального банку завдань, від інтерпретації тестових результатів, від організації збору даних, від підбора вибіркової сукупності випробуваних.

Специфічна форма тестових завдань говорить про те, що завдання тесту являють собою не питання і не задачі, а завдання, сформульовані у формі висловлювань, істинних чи помилкових, у залежності від відповідей.

Визначений зміст означає використання в тесті тільки такого контрольного матеріалу, що відповідає змісту навчальної дисципліни; інше в навчальний тест не включається.

Зміст тесту існує, зберігається і передається в одній з чотирьох основних форм завдань. Поза тестовими формами ні тест, ні його зміст не існують. Теоретично виправданим критерієм упорядкування змісту є критерій складності завдань. Позанавчальний зміст (наприклад, перевірка рівня інтелектуального розвитку) у навчальний тест не включається. Це предмет психологічного виміру.

Зростаючу складність завдань можна образно порівняти з бар'єрами на біговій доріжці стадіону, де кожен наступний вище попереднього. Пробігти дистанцію й успішно перебороти всі бар'єри зможе тільки той, хто краще підготовлений

Складність завдань можна визначати двома способами:

шляхом логічного міркування, на основі передбачуваного числа і характеру розумових операцій, необхідних для вдалого виконання завдань;

після емпіричної перевірки завдань, з підрахунком частки неправильних відповідей.

У класичній теорії тестів багато років розглядалися тільки емпіричні показники складності. У сучасних теоріях навчальних тестів, які використовуються в дистанційному навчанні, більше уваги стало приділятися характеру розумової діяльності у процесі виконання тестових завдань різних форм.

Показник складності завдання розглядається як важливий системо- і одночасно структуроутворюючий фактор тесту.

Можна додати ще один критерій - це критерій логічної визначеності тестового завдання. Його можна сформулювати словами, близькими до формулювання Х. Каррі: завдання є визначеним, якщо на нього можна відповісти позитивно чи негативно, і якщо існує ефективний процес для знаходження такої відповіді.

Відповідь на завдання навчального тесту являє собою коротке судження, пов'язане за змістом і за формою зі змістом завдання. Кожному завданню ставляться у відповідність відповіді правильні і неправильні. Критерії правильності заздалегідь визначаються авторами тесту. Ймовірність правильної відповіді на будь-яке завдання залежить від співвідношення рівня знань випробуваного і рівня складності завдання. При наявності порівняльної шкали цю ймовірність виражають значенням від нуля до одиниці.

Оцінка відповідей за ступенем їх правильності проводиться досить рідко, але при необхідності створюються завдання з такими відповідями, що правильні в різному ступені.

За допомогою тестування, частіше інших ознак, перевіряються знання, уміння, навички та уявлення. З погляду навчальних вимірів корисно ввести два основних показники якості знань - рівень і структура знань. Вони оцінюється за допомогою реєстрації оцінок, як за знання, так і за незнання всіх необхідних компонентів матеріалу, що перевіряється. Для об'єктивізації цього процесу усі компоненти повинні бути однакові.

Однаковими є і правила виставлення оцінок. Ці умови відкривають дорогу для об'єктивного порівняння індивідуальних структур знання і незнання.

Рівень знань виявляється при аналізі відповідей на всі завдання тесту. Чим більше правильних відповідей, тим вище індивідуальний тестовий бал. Звичайно в системах дистанційної освіти цей тестовий бал асоціюється з поняттям "рівень знань" і проходить процедуру уточнення на основі тієї чи іншої моделі виміру. Той самий рівень знань може бути отриманий за рахунок відповідей на різні завдання.

Наприклад, у тесті з тридцяти завдань студент одержав десять балів. Ці бали, скоріш за все, отримані за рахунок правильних відповідей на перші десять, порівняно легких завдань. Властиву для такого випадку послідовність одиниць, а потім нулів можна назвати правильним профілем знань учня.

Якщо тестовий бал нижче необхідного рівня (вимірюваного критерію), то виявлені при цьому знання, уміння, навички і представлення вказують на докритеріальний рівень підготовленості. Цей рівень є найпоширенішим і масовим. Для багатьох він виявляється цілком переборним у міру вивчення ними наук і оволодіння майстерністю. Однак деякі, переважно в силу недоліку здібностей і старанності, так і залишаються на цьому рівні.

Структура знань оцінюється на основі послідовності правильних і неправильних відповідей на завдання зростаючої складності. Формою представлення індивідуальної структури знання і незнання є профіль знань, що представляється послідовністю одиниць і нулів, одержуваних кожним студентом.

Профіль знань являє собою упорядкований набір оцінок (вектор-рядок) у матриці тестових результатів. Якщо випробуваний відповідає правильно на перші, порівняно легкі завдання, можна говорити про правильну структуру знань. Профіль називається правильним, якщо в рядку балів у випробуваного всі нулі випливають за всіма одиницями.

Якщо ж виявляється протилежна картина, (випробуваний правильно відповідає на важкі завдання і неправильно - на легкі), то це суперечить логіці тесту і тому така структура знань може бути названа інвертованою. Вона зустрічається рідко, і найчастіше, через порушення вимоги розташовувати завдання в міру зростаючої складності.

За умови, що тест зроблений правильно, кожен профіль свідчить про структуру знань. Цю структуру можна назвати елементарною (оскільки є ще факторні структури, що виявляються за допомогою методів факторного аналізу).

Роль структури знань багаторазово підкреслювалася видатним педагогом А. Дистервегом, а також психологом Д. Брунером. Останній вважає, що "виклад структури знань, оволодіння цією структурою, а не просте засвоєння фактів і технічних прийомів є центральним моментом".

Розробники систем дистанційного навчання повинні прагнути, у першу чергу, до формування правильних індивідуальних структур знань, у яких не було би пробілів (розривів у знаннях), і на цій основі підвищувати рівень підготовки. Рівень знань у значній мірі залежить від особистих зусиль і здібностей тих, хто навчається за допомогою таких систем, у той час як структура знань помітно залежить від правильної організації навчальної системи, від індивідуалізації навчання, від рівня поданого матеріалу, від об'єктивності контролю - загалом, від усього того, чого зазвичай не вистачає.

Як справедливо відзначав М. Мінський, людина не може добре вчитися, якщо розриви для нього між відомим і невідомим занадто великі. Рівень знань у значній мірі залежить від особистих зусиль і здібностей учнів. У той час як структура знань залежить від правильної організації навчального процесу, від індивідуалізації навчання, від майстерності педагога, від об'єктивності контролю. Загалом, від усього того, чого звичайно в нас не вистачає.

2. Класи і види тестів

Традиційний тест являє собою єдність, щонайменше, трьох систем:

змістовної системи знань, яка описується мовою навчальної дисципліни, що перевіряється;

формальної системи завдань зростаючої складності;

статистичних характеристик завдань і результатів.

Традиційний навчальний тест потрібно розглядати з двох сторін: як метод педагогічного виміру і як результат застосування тесту.

Обидва ці критерії характеризують тест із різних сторін, тому що тест треба розуміти одночасно і як метод, і як результат навчального виміру. Одне доповнює інше. Тест як метод не мислиться без результатів, що підтверджують якість його самого і якість оцінок виміру випробуваних різного рівня підготовленості.

Головна ідея традиційного тесту - мінімальним числом завдань, за короткий час, швидко, якісно і з найменшими витратами порівняти знання як можна більшого числа учнів.

Власне кажучи цим відбивається ідея ефективності навчальної діяльності в області контролю знань в системах дистанційного навчання.

2.1 Гомогенні тести

До традиційних тестів відносяться тести гомогенні і гетерогенні.

Гомогенний тест являє собою систему завдань зростаючої складності, специфічної форми і визначеного змісту - система, створювані з метою об'єктивного, якісного, і ефективного методу оцінки структури і виміри рівня підготовленості учнів по одній навчальній дисципліні.

Легко бачити, що у своїй основі визначення гомогенного тесту збігається з визначенням традиційного тесту.

Гомогенні тести поширені більше інших. Вони створюються для контролю знань по одній навчальній дисципліні чи по одному розділі такої, наприклад, об'ємної навчальної дисципліни, як фізика. У гомогенному педагогічному тесті не допускається використання завдань, що виявляють інші властивості. Наявність останніх порушує вимога дисциплінарної чистоти навчального тесту. Адже кожен тест вимірює щось заздалегідь визначене.

2.2 Гетерогенні тести

Гетерогенний тест являє собою систему завдань зростаючої складності, специфічної форми і визначеного змісту - система, створена з метою об'єктивного, якісного, і ефективного методу оцінки структури і виміри рівня підготовленості по декількох навчальних дисциплінах.

Нерідко в такі тести включаються і психологічні завдання для оцінки рівня інтелектуального розвитку.

Звичайно гетерогенні тести використовуються для комплексної оцінки випускника шкіл, оцінки особистості при прийомі на роботу і для добору найбільш підготовлених абітурієнтів при прийомі до вузи. Оскільки кожен гетерогенний тест складається з гомогенних тестів, інтерпретація результатів тестування ведеться по відповідях на завдання кожного тесту (тут вони називаються шкалами) і крім того, за допомогою різних методів агрегування балів робляться спроби дати загальну оцінку підготовленості.

Нагадаємо, що традиційний тест являє собою метод діагностики, у якому відповідається на одні завдань, в однаковий час, в однакових умовах і з однаковою оцінкою.

При такій орієнтації задачі визначення точного обсягу і структури освоєного навчального матеріалу відступають на задній план. У тест відбирається таку мінімально достатню кількість завдань, що дозволяє порівняно точно визначити, образно говорячи, не "хто що знає", а "хто знає більше".

Інтерпретація результатів тестування ведеться переважно мовою тестології, з опорою на середню арифметичну, моду чи медіану і на так звані процентні норми, що показують - скільки відсотків випробуваних мають тестовий результат гірше, ніж у будь-якого узятого для аналізу випробуваного з його тестовим балом. Така інтерпретація називається нормативно-орієнтованою.

Тут висновок добудовується рейтингом:

завдання  відповіді  висновки про знання  рейтинг, що розуміється як висновок про місце чи ранзі випробуваного.

2.3 Інтегровані тести

Інтегрованим можна назвати тест, який складається із системи завдань, що відповідають вимогам інтегрованого змісту, тестової форми, які збільшують складність завдань, націлених на узагальнену підсумкову діагностику підготовленості.

Діагностика проводиться за допомогою таких завдань, правильні відповіді на які вимагають інтегрованих (узагальнених, явно взаємозалежних) знань в області двох і більшого числа навчальних дисциплін. Створення таких тестів дається тільки тим викладачам, що володіють знаннями ряду навчальних дисциплін, розуміють важливу роль міжпредметних зв'язків у навчанні, здатні створювати завдання, правильні відповіді на які потребують знань різних дисциплін і умінь застосовувати такі знання.

Перевага інтегрованих тестів перед гетерогенними полягає в більшій змістовній інформативності кожного завдання й у меншому числі самих завдань.

Методика створення інтегрованих тестів подібна з методикою створення традиційних тестів, за винятком роботи з визначення змісту завдань. Для створення змістовних інтегрованих тестів використання експертних методів є обов'язковим. Це пов'язано з тим, що тільки експерти можуть визначити адекватність змісту завдань цілям тесту. Але, насамперед, самим експертам важливо буде визначитися з цілями утворення і вивчення тих чи інших освітніх програм, а потім і домовитися між собою по принципових питаннях, залишивши для експертизи лише варіації в розумінні ступеня значимості окремих елементів у загальній структурі підготовленості.

2.4 Адаптивні тести

Доцільність адаптивного контролю випливає з необхідності раціоналізації традиційного тестування.

Кожен викладач розуміє, що добре підготовленому учню немає необхідності давати легкі завдання, тому що занадто високо імовірність правильного рішення. До того ж легкі матеріали не володіють помітним потенціалом розвитку. Симетрично, через високу імовірність неправильного рішення нема рації давати важкі завдання слабкому учню. Відомо, що важкі і дуже важкі завдання знижують навчальну мотивацію багатьох учнів.

Потрібно було знайти порівняння в одній шкалі для міри складності завдань і міри рівня знань. Ця міра була знайдена в теорії педагогічних вимірів. Датський математик Г. Раск назвав цю міру словом "логіт".

Після появи комп'ютерів ця міра лягла в основу методики адаптивного контролю знань, де використовуються способи регулювання складності і числа пропонованих завдань, у залежності від відповіді учнів.

При успішній відповіді наступне завдання комп’ютер підбирає більш важким, при неуспішному - легшим. Зрозуміло, цей алгоритм вимагає попереднього випробування всіх завдань, визначення їх міри складності, а також створення банка завдань і спеціальної програми.

Використання завдань, що відповідають рівню підготовленості, істотно підвищує точність вимірів і мінімізує час індивідуального тестування до 5-10 хвилин. Адаптивне тестування дозволяє забезпечити комп'ютерну видачу завдань на оптимальному, приблизно 50%-му рівні імовірності правильної відповіді для кожного учня.

Зараз у світі три варіанти адаптивного тестування.

Перший називається пірамідальним тестуванням. При відсутності попередніх оцінок всім дається завдання середніх труднощів і вже потім, у залежності від відповіді, кожному дається завдання легше чи важче; на кожнім кроці корисно використовувати правило розподілу шкали складності навпіл.

Другий варіант - flexilevel-контроль починається рівня складності, який обирає сам той, хто проходить тестування, з поступовим наближенням до реального рівня знань.

Третій варіант - stradaptive (від англ. stratified adaptive), коли тестування проводиться за допомогою банку завдань, розділених за рівнями складності. При правильній відповіді наступне завдання береться з верхнього рівня, при неправильному - з нижнього.

Таким чином, адаптивний тест являє собою варіант автоматизованої системи тестування з заздалегідь відомими параметрами складності і здатністю кожного завдання, що диференціює.

Ця система створена у виді комп'ютерного банку завдань, упорядкованих відповідно до цікавлячого характеристиками завдань.

2.5 Критеріально-орієнтовані тести

Це дуже умовне й в принципі неправильна назва групи тестів, що одержали в нас деяке поширення і визнання. Власне кажучи ж ми маємо справу не стільки з тестами названого роду, скільки з інтерпретацією тестових результатів

Якщо головною задачею є прагнення з'ясувати, які елементи змісту навчальної дисципліни засвоєні, то це випадок предметно-педагогічного підходу до інтерпретації результатів тестування. При цьому визначається: що з головної сукупності завдань (по англ. Domain) випробуваний знає і чого не знає. Інтерпретація результатів ведеться педагогами, мовою навчальної дисципліни.

Висновок вибудовується уздовж логічного ланцюжка:

зміст навчальної дисципліни  головна сукупність завдання для виміру знань  тест як вибірка завдань з цієї сукупності, відповіді  імовірнісний висновок про знання навчальної дисципліни.

При орієнтації на такі тести потрібно велике число завдань і досить повного визначення змісту досліджуваної дисципліни. Інтерпретація результатів ведеться педагогами.

Суперечки відбуваються навколо двох головних питань:

1. Правильність змісту тесту, що означає безпомилковість формулювань його завдань, предметно-наукову обґрунтованість, допустимість тесту для перевірки знань.

При аргументації на користь того чи іншого тесту педагоги спираються на мову, принципи і взагалі на знання навчальної дисципліни, яку вони викладають. У таких випадках говорять про тести із змістовно-орієнтованою інтерпретацією результатів.

2. Обґрунтованість оцінки знань по всьому навчальному предмету, на основі результатів тестування по невеликій вибірці завдань тесту; вибірці з потенційно чи реально існуючої головної сукупності всіх завдань, які можна було б дати випробуваним для упевненої й обґрунтованої оцінки. Фактично це питання обґрунтування точності індуктивного висновку про знання великого числа питань на основі відповідей по малому числу завдань тесту.

Другий вид тестів пов'язаний з орієнтацією на такі конкретні цілі і задачі, як, наприклад, перевірка рівня засвоєння порівняно короткого переліку необхідних знань, умінь і навичок, що виступають як заданий чи стандарт критерію засвоєння.

Наприклад, для атестації випускників дистанційних курсів важливо мати такі завдання, що дозволяють робити висновок про мінімально припустиму їх компетентність (Minimum Competency Tests). При перевірці мінімально припустимого рівня знань зміст завдань носить принципово полегшений характер. Оскільки такі завдання повинні виконувати усі випускники, допущені системою до атестації, тут важко говорити про тести як методі об'єктивного й ефективного виміру різного рівня підготовленості, у строгому контексті поняття "тест".

В такому випадку говориться про тести з критеріально-орієнтованою інтерпретацією результатів. Висновок вибудовується уздовж логічного ланцюжка: завдання  відповіді  висновки про відповідність заданому критерію.

Під критеріально-орієнтованою інтерпретацією мається на увазі порівняння змісту атестаційних матеріалів з результатами тестування і висновок: що із заданого стандарту і на якому рівні, реально засвоєно.

При критеріально-орієнтованій інтерпретації потрібно трохи менше число завдань, за допомогою яких визначається - що випробуваний знає і чого не знає з заданого стандарту. Інакше кажучи, тут відповіді оцінюються щодо не всієї області (Domain) необхідних знань, а тільки з області, обмеженої конкретним стандартом чи рівнем (критерієм) знань.

При критеріально-орієнтованій інтерпретації для діагностики заздалегідь заданого рівня підготовленості використовуються, власне кажучи, не тести, у традиційному розумінні цього методу, а сукупності завдань у тестовій і в іншій формі. Слово одне, але зміст інший.

3. Принципи добору змісту тестових завдань

Зміст тесту можна визначити як оптимальне відображення навчального матеріалу в системі тестових завдань.

Слова "оптимальне відображення" припускають необхідність добору такого контрольного матеріалу, відповіді на який з високою імовірністю (більше 95%) свідчили б про рівень підготовленості кожного учня.

Досягнення обґрунтованого висновку про знання учнів на основі змісту тесту є головною метою тестології - науки про розробку якісних тестів і їхньому ефективному застосуванні.

Оптимальне відображення припускає також можливість вибору придатної форми і необхідного числа завдань.

Форм лише чотири. Це:

завдання з вибором одного чи декількох правильних відповідей з числа запропонованих;

завдання відкритої форми, де відповідь дописується, у відведеному для цього місця;

завдання на встановлення відповідності;

завдання на встановлення правильної послідовності дій.

Число завдань традиційного тесту звичайно буває не менше тридцяти. Банк завдань адаптивного тесту містить більше число завдань.

При тестуванні перевіряється не весь програмний матеріал, а лише та частина навчальної програми, що входить у зміст. Це знання, що підлягають обов'язковій перевірці в кожнім системі дистанційного навчання. Деякі елементи знань, що перевіряються, (переважно по окремих темах) використовуються тільки в поточному контролі. Інші елементи, що охоплюють знання декількох тем, використовуються в рубіжному контролі, наприклад, наприкінці навчальної чверті. І, нарешті, у підсумковому контролі використовуються завдання, правильні відповіді на який вимагають знання багатьох, а й іноді і всіх тем, вивчених протягом навчального року.

Сформулюємо критерії добору змісту тестового матеріалу:

Значимість. Цей принцип указує на необхідність включити в тест лише ті елементи знання, які можна віднести до найбільш важливих, ключових, без яких знання стають неповними, з численними пробілами. Такі елементи знання, через їхню важливість, можна назвати структурними. У тест, отже, потрібно включати тільки ті матеріали, що відіграють роль структурних елементів в індивідуальному знанні.

Наукова вірогідність. У тест включається тільки той зміст навчальної дисципліни, що є об'єктивно щирим і піддається раціональній аргументації. Відповідно, усі спірні точки зору, цілком нормальні в науці, не рекомендується включати в тестові завдання. Суть тестових завдань полягає саме в тім, що вони вимагають чіткого, заздалегідь відомого викладачам відповіді, визнаного ними в процесі розробки завдань об'єктивно щирим.

Відповідність змісту тесту рівню сучасного стану науки. Цей принцип випливає з природної необхідності готувати фахівців і перевіряти їхнього знання на сучасному матеріалі.

Репрезентативність. У тест не тільки включаються значимі елементи змісту, але звертається увага також на повноту і їхню достатність для контролю. Справді, можна взяти п'ять-шість елементів і перевірити по них знання студентів. Але де впевненість, що студент знає й інші важливі елементи змісту навчальної дисципліни? Шлях до появи такої впевненості лежить у найбільш повному відображенні необхідного знання в завданнях тесту.

Репрезентативність не означає обов'язкового включення в тест усіх значимих елементів змісту. Адже багато хто з них явно зв'язані між собою в загальній структурі знань, включені один в інший цілком чи частково. Крім того, багато елементів у структурі знань ієрархічно супідрядні. Цьому принципу відповідають основні завдання, що краще називати структурними.

Зростаюча складність навчального матеріалу. Цей принцип означає, що кожен навчальний елемент у процесі контролю володіє деякої усереднений, для студентів, мірою труднощів, на яку й орієнтуються викладачі. Практично всі підручники і посібники побудовані за принципом зростаючої труднощів. У таких навчальних дисциплінах, як логіка, математика, іноземні мови, статистика, філософія й ін., знання наступних елементів курсу жорстко залежить від знання попередніх навчальних елементів. Тому вивчати такі дисципліни можна тільки із самого початку, і без пробілів.

Варіативність змісту. Зміст тесту не може залишатися незмінним і незалежної від розвитку науки, науково-технічного прогресу, від нового змісту навчальної дисципліни і від нових підручників. В міру зміни змісту навчальної дисципліни повинний варіюватися і зміст тесту. При цьому приймається в увагу контингент, який проходить тестування. Зміст тесту для слабких студентів помітно відрізняється від змісту тесту для сильних студентів.

Системність змісту. Це означає підбор такого змісту тестових завдань, що відповідав би вимогам системності знань. Крім підбору завдань із системним змістом важливо мати завдання, зв'язані між собою загальною структурою знань. Це можливо лише в тих випадках, коли завдання тесту зв'язані із загальною факторною структурою знань. Такий зв'язок визначається методами факторного аналізу.

Комплексність і збалансованість змісту тесту. Тест, розроблений для підсумкового контролю знань, не може складатися з матеріалів тільки однієї теми, навіть якщо ця тема є самою ключовою у навчальній дисципліні. Необхідно шукати завдання, що комплексно відображають основні, якщо не всій теми навчального курсу.

У той же час існує прагнення збалансовано відобразити в тесті основний теоретичний матеріал-поняття, закони і закономірності, гіпотези, факти, структурні компоненти теорії разом з методами наукової і практичної діяльності, з уміннями ефективно вирішувати типові професійні завдання.

Такі завдання порівняно легко можуть трансформуватися у форму тестових завдань на встановлення відповідності чи правильної послідовності, перетворюючись, таким чином, у дидактичну модель, що використовується однаково вдало і для контролю, і для навчання.

Взаємозв'язок змісту і форми. При розгляді цього загального діалектичного принципу стосовно до тестів мимоволі виникає асоціація з мистецтвом. Дійсно мистецтво являє собою, за словами Гегеля, закінчене усередині себе з'єднання змісту з цілком відповідної йому формою.

Точно так само і дійсний тест можна охарактеризувати як результат взаємовпливу змісту завдань з найбільш придатною формою. При цьому на відміну від широко розповсюдженого філософського тлумачення активності змісту і пасивності форми тестову форму треба розглядати разом зі змістом як активну сторону їхньої взаємодії.

Уже на стадії задуму зміст завдання починає знаходити свою форму. Невідповідність завдання однієї з чотирьох форм допускає можливість тільки двох правильних суджень: чи це не тестове завдання, чи використовується якась нова недосліджена форма за умови, що група відомих форм визначена.

Не всякий зміст піддається представленню у формі тестового завдання. Докази, великі обчислення, багатослівні описи важко виражаються, а те і зовсім не виражаються в тестовій формі.

На відміну від філософської традиції розгляду форми через призму змісту, у теорії тестів справа обстоїть, можна сказати, навпаки: зміст контролю по кожній навчальній дисципліні розглядається крізь призму придатної форми. При цьому зміст тесту треба відносити до теорії тієї чи іншої навчальної дисципліни, у той час як пошук найкращої форми для вираження змісту є предметом теорії тестів.

І, нарешті, при правильному доборі контрольного матеріалу зміст тесту може бути використано не тільки для контролю, але і для навчання. Використання тестових завдань в автоматизованих контрольно-навчальних програмах дозволяє студенту самостійно виявляти пробіли в структурі своїх знань і вживати заходів для їхньої ліквідації. У таких випадках можна говорити про значний навчальний потенціал тестових завдань, використання якого стане одним з ефективних напрямків практичної реалізації принципу єдності і взаємозв'язки навчання і контролю.

Відповідність меті. Зміст тесту залежить від мети перевірки.
Якщо потрібно відібрати невелике число найбільш підготовлених студентів, скажемо, на олімпіаду, то ясно, що завдання повинні бути важкі, тому що лише за допомогою таких завдань можна відібрати кращих. Якщо ж, навпаки, потрібно відсіяти самих слабких, то зробити це краще за допомогою порівняно легких завдань; ті, хто не виконають ці завдання, і є самі слабкі. При необхідності оцінити студентів у всьому діапазоні знань - від нижчого до вищого, у тест доведеться включати завдання легкі, середні і важкі.

Якщо, нарешті, знадобиться оцінити відповідність знань випускників всіх освітніх заснувань вимогам мінімуму змісту навчальних дисциплін, зафіксованого в державних освітніх стандартах, то в засоби оцінки доведеться включати тільки легкі завдання, посильні більшості. Ні про якого тестя, у класичному розумінні цього поняття, у такому випадку говорити не приходиться.

При цьому виникає ряд таких досить спірних питань, як визначення мінімальне "прохідного" відсотка правильного виконання числа завдань, визначення оцінки в залежності від відсотка правильних відповідей.

4. Поняття складності тесту і його вплив на оцінку знань

Якщо педагогічний тест визначити коротко як систему завдань зростаючої складності, то стане зрозуміло, що складність завдань є найважливішим тестоутворюючим показником.

Придумати тест не так вже й просто. Можна придумати скількох завгодно завдань у тестовій формі (а це ще не тести). Їх не можна включати в дійсний тест доти, поки не стане відомої міра складності.

З цієї вимоги стає зрозумілої обов'язковість попередньої емпіричної перевірки кожного завдання, до початку тестування. У процесі перевірки багато завдань не витримують пропонованих до них вимог і тому не включаються в тест.

Перша вимога до тестових завдань: у тесті завдання повинні розрізнятися за рівнем складності, що випливає з даного раніше визначення тесту і розглянутого принципу.

З міркування над можна зробити два висновки.

Перший - що в тесті немає місця завданням з невідомою мірою складності.

І другій - що не всі пропоновані завдання в тестовій формі можуть стать тестовими завданнями.

Завдання в тестовій формі і тестове завдання - це різні поняття. У першому понятті до самим істотним відносяться вимоги форми і змісту. До тестових же завдань у першу чергу ставиться вимога відомих складності, те, що явно не потрібно в завдань у тестовій формі.

Завдання мають шанс стать тестовими лише після емпіричної перевірки міри їх складності.

Показник складності тесту і тестових завдань є змістовним і формальної одночасно.

Змістовним показником, тому що в гарному тесті складність може залежати лише від змісту і від рівня підготовленості самих випробуваних, у той час як у поганому тесті на результати починають помітно впливати форма завдань (особливо якщо вона не адекватна змісту), погана організація тестування.

Формальна складова сторона показника складності виникають при розгляді тестування як процесу протистояння пропонованими завданням. Одержуваний при цьому результат корисно розглядати як результат такої боротьби.

При спрощеному тлумаченні кожного випадку протистояння з черговим завданням звичайно розглядаються тільки два результати: перемога при правильному рішенні завдання, де отримується один бал, чи поразка, за що дається нуль балів.

Оцінка результату такої боротьби залежить від співвідношення рівня знання до рівня складності завдання, від обраної одиниці виміру знань і від заздалегідь прийнятого правила - що вважати "перемогою", а що ні.

У класичній теорії тестів багато років розглядалися тільки емпіричні показники складності. У нових варіантах психологічних і педагогічних теорій тестів більше увага стала приділятися характеру розумової діяльності учнів у процесі виконання тестових завдань різних форм.

Зміст тесту не може бути тільки легким, середнім чи важким. Тут повною мірою виявляється відома думка про залежність результатів застосовуваного методу. Легкі завдання тесту створюють тільки видимість наявності знань в учнів, тому що ними перевіряються мінімальні знання.

Спотворює результати тестування і підбор свідомо важких завдань, у результаті чого в більшості школярів виявляються занижені бали. Орієнтація на важкі завдання нерідко розглядається як засіб посилення мотивації до навчання. Однак цей засіб діє неоднозначно.

Одних важкі завдання можуть підштовхнути до навчання, інших - відіпхнути від її. Подібна орієнтація спотворює результати й у підсумку, знижує якість педагогічного виміру. Якщо тест побудований строго з завдань зростаючою складністю, то цим відкривається шлях до створення однієї із самих цікавих шкал виміру - шкали Л. Гутмана.

Розповсюджена, донедавна, рекомендація включати в тест більше завдань середньої складності, виправдана з погляду визначення надійності виміру по формулах класичної теорії тестів. Існуючі в цій теорії методи оцінки надійності тесту дають зниження надійності при включенні в тест помітно легких і важких завдань.

У той же час захоплення завданнями однієї лише середньої складності приводить до серйозної деформації змісту тесту: останній утрачає здатність нормально відображати зміст досліджуваної дисципліни, у якій завжди є легкий і важкий матеріал. Таким чином, у погоні за теоретично високою надійністю губиться змістовна валідність тесту. Прагнення ж підняти валідність тесту нерідко супроводжується зниженням його надійності. У науковій літературі це називається парадоксом Ф. Лорда, що описали цей парадокс із погляду статистичної теорії тестів.

5. Оцінювання, оцінка і вимір знань

У закордонній педагогічній літературі використовується близьке до виміру поняття "evaluation", що можна перекласти як "оцінювання", маючи у на увазі не тільки кінцевий результат, але і процес формування оцінки. Відповідно виділяються два основних види оцінювання - формуюче і підсумкове.

Мета першого - робити, за допомогою оцінювання, вплив на поточний процес навчання за рахунок встановлення зворотного зв'язку від студента до викладача.

Мета другого - одержати підсумкові результати навчання.

Оцінка, як поняття, має два основних значення - як судження про цінність (чи значимості) і як приблизна характеристика деякої величини.

Оцінки поділяються на двох груп: абсолютні і відносні. У формулюванні відносних оцінок використовуються терміни "добре", "погано" і т.п. Оцінки викладачів вузів ближче до абсолютних оцінок, розділеним на чотири рівні (градації)- відмінно, добре, задовільно і незадовільно.

6. Вимір знань і його об'єктивність

Вимір являє собою процедуру кількісного зіставлення досліджуваної властивості з деяким еталоном, прийнятим за одиницю виміру.

У відмінність, наприклад, від поняття "довжина столу" поняття "знання" не відноситься до безпосередньо вимірюваного феномена і тому знання приходиться вимірювати опосередковано, через емпірично фіксовані прояви того, що фахівці назвали би ознаками (індикаторами) знання. Тому кожне завдання тесту бажано розглядати як індикатор, що виявляє якийсь один фрагмент знання в тих випробуваних, у яких знання є.

Здоровий глузд підказує, що судити про знання всього матеріалу, що перевіряється по відповіді на одне лише завдання помилково, хоча в кожній навчальній дисципліні є питання, правильні відповіді на який говорять багато про що. Тим не менше, надійні висновки можна робити тільки за результатами застосування достатнього числа завдань.

Визначення статистичних характеристик є головним (після експертної перевірки змісту) засобом діагностики якості тесту по будь-якій навчальній дисципліні.

Рівень підготовленості випробуваних виявляється при аналізі їхніх відповідей на завдання тесту. Чим більше правильних відповідей, тим вище індивідуальний тестовий бал. Звичайно цей тестовий бал асоціюється з поняттям "рівень знань" і проходить процедуру уточнення на основі тієї чи іншої моделі виміру знань.

Насправді вірніше говорити про підготовленість, що включає в себе володіння необхідними знаннями, уміннями, навичками і представленнями. Отримана сума балів нерідко приймається за істинний рівень знань, хоча кожний визнає, що власне знання і бали, отримані по показниках знань - різні явища. Адже можна придумати тисячі різних показників і усі вони будуть з різною кількістю балів показувати на рівень знань. Виникає природне запитання - а які з показників правильно вказують на наявність знань, а які помилково?

Для виміру знань вимагаються емпіричні показники. У якості таких виступають зараз будь-які методи контролю знань, хоча інтуїтивно зрозуміло, що вони неоднаково представляють знання. Тому встає питання: "які методи показують краще?"

Апріорі можна затверджувати, що тест це робить краще через більшу його обґрунтованість. В основу обґрунтування якості тесту, крім згаданої вище інтерпретації одержуваних результатів, покладені концепція і модель виміру, а також дані статистичної обробки й інтерпретації результатів перевірки знань.

На рівні повсякденної свідомості будь-яка інтерпретація результатів тестування не представляється важкою справою. Отримана сума балів приймається за щирий рівень знань, хоча кожний визнає, що знання і бали, отримані по показниках знань - різні явища. Адже можна придумати тисячі різних показників і усі вони будуть з різною кількістю балів показувати на рівень знань.

Головна теза інтерпретації - не хто що знає, а хто по даному наборі завдань виявився вище чи нижче. Хоча при такій інтерпретації завжди залишається місце для критики тесту з позиції неповноти його змісту, у практиці цей підхід завжди виявлявся вирішальним через можливість скоротити число завдань і приймати рішення на основі тесту з меншим числом завдань. Власне кажучи, це форма редукції, успіх якої залежить від якості розробки тесту, і від обґрунтування валідності скороченого тесту з нормативно орієнтованою інтерпретацією.

7. Поняття ефективності тесту

Ефективним можна назвати тест, що краще, ніж інші тести, вимірює рівень знань, з меншим числом завдань, якісніше, швидше, дешевше, і все це - по можливості, у комплексі.

З поняттям "ефективність" близьке до нього по змісту поняття "оптимальність". Останнє трактується як найкраще з можливих варіантів, з погляду задоволення декільком критеріям, узятим по черзі чи разом.

Ефективний тест не може складатися з неефективних завдань. У такому випадку природно порушити питання про ознаки, що відрізняють ефективне завдання від неефективного. З погляду змісту, ефективне завдання перевіряє важливий елемент змісту навчальної дисципліни, що нерідко називають ключовим для необхідної структури знань випробуваних. У тест відповідно включаються тільки такі завдання, що експерти визнають як ключові елементи досліджуваної навчальної дисципліни.

У визначенні ефективності тесту звертається увага на два ключових елементи - це число завдань тесту і рівень підготовленості тих, хто проходить цей тест.

Якщо з якого-небудь тесту з великим числом завдань зробити оптимальний вибір меншого числа, то може утворитися система, що не уступає помітно по своїх властивостях тесту з порівняно великим числом завдань. Тест із меншим числом завдань у такому випадку можна називати порівняно більш ефективним.

Ефективність тестів може залежати і від форми. Порушення тестової форми завжди приводить до гіршого вираження змісту і до гіршого розуміння змісту завдання випробуваними.

Ефективність тесту залежить також і від принципу підбора завдань. Якщо підбирати завдання для виміру на всьому діапазоні зміни складності, то знижується точність виміру на окремій ділянці. І навпаки, якщо прагне точно вимірити знання випробуваних, наприклад, середнього рівня підготовленості, то це зажадає мати більше завдань саме даного рівня труднощі.

Тому тест не може бути ефективним узагалі, на всьому діапазоні підготовленості випробуваних. Він може бути більш ефективний на одному рівні знань і менш - на іншому. Саме цей зміст вкладається в поняття диференційної ефективності тесту.

Використана література

1. Дидактика сучасної школи: Навч. посібник для вчителів Б.С. Кобзар, Г.Ф. Кумаріна, Ю.А. Кусий та ін. Під ред. В.А. Онищука. К: Рад. шк., 1987. - 351 с.

2. Челишкова М.Б. Теорія і практика конструювання педагогічних тестів. – М.: Дослідницький центр проблем якості підготовки спеціалістів, 2001