Формирующее оценивание: что, зачем и как? - Смешанное обучение в России

02.11.2020 — Расшифровка семинара

Спикер: Максим Скрябин — занимается педагогическим дизайном дизайном, измерениями и аналитикой в обучении. Работал как ведущий аналитик в Центре психометрики и измерений в образовании НИУ ВШЭ и как старший аналитик данных в Stepik. Преподавал в МАИ, РУДН, Университете ИТМО, Университете Иннополиса, НИУ ВШЭ. Кандидат физико-математических наук.

Наталья Андреева: Добрый день, коллеги. Мы сегодня встречаемся с Максимом Скрябиным, который занимается достаточно давно педагогическим дизайном, измерениями и аналитикой в обучении. Максим работал как ведущий аналитик в центре психометрики измерений в образовании Института образования Высшей школы экономики, был старшим аналитиком данных в Степике, преподавал в МАИ, РУДН, ИТМО, Высшей школе экономики и в ряде других университетов. Он также является кандидатом математических наук.

Сегодня мы поговорим о формирующем оценивании, о его отличиях от других видов оценивания. Мы также посмотрим, какие бывают виды оценивания.

Это не первая встреча с учёными, которую мы проводим. Мы будем раз в месяц проводить встречи, посвященные дистанционному и смешанному обучению, тем публикациям, которые были в журнале “Современная зарубежная психология”. А сегодня мы встречаемся с Максимом Скрябиным.

Максим Скрябин: Всем добрый день. Спасибо большое за приглашение и за представление. Я сейчас немножко поскромничаю, потому что мне иногда кажется, что я буду рассказывать очевидные вещи. Но мы можем потом подискутировать.

Меня зовут Максим Скрябин. Я сейчас работаю в области педдизайна и учебной аналитики. Я действительно кандидат физмат наук. У меня есть второе психологическое образование и третье – в области строительного образования. Как бывший препод, я могу всё очень доступно и наглядно рассказать.

Если будут вопросы по ходу, вы можете задавать. Либо дискуссию сделаем в конце.

Тема оценивания, как вы понимаете, очень для меня важна. Она находится на стыке математики, психологии, обучения. В целом, когда я начал заниматься учебной аналитикой, то понял, что есть большая проблема с качеством данных. У нас зачастую некачественные инструменты для сбора данных. В том числе, мы можем говорить про тестирование, но мы не очень понимаем, как оно устроено и можем ли мы доверять его результатам. Вы можете взять более школьный пример: насколько мы можем доверять оценкам в журнале, которые ставятся. Не всегда объективно оценивают знания учащихся. Поэтому я очень сильно заинтересовался этой темой.

Я работал в центре психометрики и измерений в образовании Высшей школы экономики и погрузился в эту тему. Но я всё равно старался фокусироваться на обучении. Если говорить про обучение, то мы говорим, что обучение — это всегда измерение. Оно есть в двух направлениях. Первое связано с изменением деятельности или поведения. Терминология здесь традиция, потому что всё-таки в отечественной психологии мы говорим больше про деятельность и деятельности подход. А в зарубежной – про бихевиоризм и про поведение больше. Но есть ещё изменение установок. Это не одно и то же деление, но, в целом, как-то прослеживается.

Если говорить про оценивание, то тут фокус именно на изменение. Потому что если мы не можем оценить, то мы не можем зафиксировать это изменение и не можем говорить про школьное обучение качественно и эффективно.

Я специально не переводил термины, потому что, мне кажется, что здесь ключевое – именно в предлогах of, for и as.

Первый тип оценивания — это оценивание результатов обучения. Мы фокусируемся на том, чего именно достиг наш учащийся. Наверное, такое оценивание можно назвать суммирующим оцениванием, потому что мы суммируем его предыдущую обратную траекторию, чтобы понять его текущий уровень. Меня критиковали за то, что я слишком сильно расширяю этот термин, потому что часто суммирующее оценивание приравнивают к итоговому. Но суммирующее оценивание может быть в конце урока либо в конце модуля.

Следующее оценивание — это assessment for learning. Это то, что способствует дальнейшему развитию. И я, в каком-то смысле, приравниваю это к диагностическому оцениванию. То есть, где мы находим слепые зоны, слабые места, там мы используем слепые зоны, чтобы способствовать прогрессу учащегося и тем самым это действительно для учения.

Последнее, что возникло в связи с компьютерными технологиями: у нас есть разные тренажёры, интерактивные учебники. Это когда у нас очень сильно учебник насыщен оцениванием, и мы используем оценивание, чтобы развивать учащихся. Туда же входит адаптивное обучение. Мне кажется, что как раз здесь мы можем говорить про формирующее оценивание, потому что там критична именно обратная связь. Мы даём моментальную обратную связь для того, чтобы давать какие-то знания либо формировать умение.

Если всё свести в общую таблицу, то можно описать эти три типа оценивания. Если мы говорим про суммирующее оценивание, то мы измеряем уровень подготовленности либо уровень знаний. И в нём нежелательно иметь обучающий эффект. Мы измеряем, но не развиваем. Цель — более точные измерения характеристик, потому что мы потом это измерение используем в отчетах, в методической работе и так далее.

Следующее — это диагностическое оценивание. Здесь мы измеряем не столько саму характеристику, а нам важно выделить слепые зоны. В них также нежелателен обучающий эффект. Но мы фокусируемся больше не столько на целевую переменную, но и на эти слепые зоны (например, неправильное умение сложения дробей).

Последнее — это формирующее оценивание. Здесь наша цель — не столько измерять, сколько развивать. В этом есть ярко выраженный обучающий эффект. Мы с помощью такого оценивания хотим сделать нашего учащегося более продвинутым, с большим уровнем подготовленности.

В чём разница? Если мы говорим про суммирующее оценивание, у нас есть некоторый бланк, где мы просто отмечаем, какого уровня достиг ученик. В диагностическом оценивании помимо того, что мы говорим какого уровня достиг, и в итоговом отчёте есть ещё некоторые рекомендации — что делать дальше. В формирующем оценивании помимо этих общих рекомендаций есть ещё обратная связь: моментальная, точечная.

Оценивание может быть разным, в зависимости от того, кто оценивает. Мы можем оценивать самостоятельно, как учащиеся, нас могут оценивать другие учащиеся, нас может оценивать преподаватель, учитель, тьютор, мы можем быть оценены с помощью стандартизированных методик.

Поэтому я для себя составил такую матрицу. Понятно, что для каждого курса она может быть своя. Не обязательно все ячейки такой матрицы представлены, но каждый вариант возможен, в зависимости от того, какой формат выбираем.

Например, суммирующее оценивание: можно ли оценивать себя самого? Да, можно. Редко это бывает как итоговое оценивание, хотя такие курсы я тоже знаю. В конце модуля это может быть чек-лист, когда учащемуся просто задают вопрос: что вы изучили в этом модуле, а он проставляет галочками, в каких темах и понятиях он разобрался.

Понятно, что во многих курсах в качестве итогового оценивания чек-лист сделать нельзя, потому что учащийся может поставить все галочки. Но если курс направлен на какое-то саморазвитие, то такой вариант возможен.

Давайте поговорим про разные виды оценивания. Некоторый парадокс заключается в том, что когда мы используем формирующее оценивания, мы плохо представляем, как устроено суммирующее оценивание изнутри. Мы зачастую формирующее оценивание проектируем очень качественно, точнее, используя качественные методы, но при этом совсем игнорируются какие-то количественные методы. В случае суммирующего оценивания используют очень сильно и то и другое. Поэтому я и говорил про методологию разработки теста и психометрическое моделирование.

Суммирующее оценивание — это оценивание, которое используют для измерения характеристик, измерения какого-то уровня достижения учащихся. В качестве примера я приведу свой личный пример, которым я горжусь. Это пример теста на знание китайского языка. Вы можете просто посмотреть сам бланк и понять, почему это – суммирующее оценивание. Любые языковые тесты: TOEFL, IELTS и так далее – это очень хорошие примеры для понимания, как устроено суммирующее оценивание, потому что они очень хорошо спроектированы.

Другой пример таких тестов — это различные международные исследования, в которых тоже расписана процедура, как разрабатывался тест, как он проверяется, как устроено шкалирование и прочее. Если вы посмотрите на бланк, то увидите три шкалы: это слушание, чтение и письмо. Есть ещё общий балл, хотя тут он просто просуммирован. Это не всегда корректно делать так, но по этому общему баллу определяется, сдал ты или нет. Здесь видно, что ставится балл, который нужно как-то интерпретировать (например: высокий, средний, низкий балл и что каждый из них означает). Эта часть, связанная с интерпретацией данных, важна при разработке тестов, потому что говорит про валидность. Валидность — это то, что позволяет корректно интерпретировать тестовый балл.

Сами форматы суммирующего оценивания могут быть очень разные. Необязательно это только тестирование. Это могут быть и другие, более сложные форматы, которые могут оценивается по-разному. И сами эксперты тоже могут оценивать.

Создавать суммирующее тестирование не так просто. Я коротко указал этапы создания. Понятно, что можно ещё в каждом этапе выделить некоторые подпункты, что мы определяем цели оценивания – от этого будет зависеть оценивание с высокими или низкими ставками. Например, случай, когда мы используем какое-то оценивание для себя самого (то есть в случае профориентации), это с низкими ставками. Но ЕГЭ, которое решает судьбу, пойдешь ты в ВУЗ или нет, – это тест с высокими ставками.

После этого создается рамка – что мы оцениваем. В случае образования это сделать проще, потому что мы берём программу, смотрим цели и задачи обучения, выделяем оттуда значимые критерии. В случае психологических тестов (например, измерения креативности, измерения критического мышления) посложнее, потому что мы должны понять, что такое критическое мышление: есть разные трактовки, разное понимание этого. Затем мы должны свести в общую рамку, сделать то, что называется операционализация понятия, то есть связать это с поведенческими индикаторами. Если у человека, например, высоко развито критическое мышление, то как он проявляет его в поведении? А если низко развито, то как? Дальше мы пытаемся эти поведенческие индикаторы связать с каким-то заданиями.

Мы определяем форматы заданий – сколько их нужно. Дальше идет разработка задания, экспертиза содержания. Здесь могут как привлекаться внешние эксперты, так и делаться когнитивные лаборатории, когда мы даем задание представителю целевой группы и он, выполняя его, проговаривает вслух. Другой вариант: после того, как выполнил, он рассказывает, как его выполнял (там есть два разных формата). Здесь видно, как проявляются качественные методы при разработке оценивания. После этого идет пилотное исследование. Мы собираем данные про то, как работает наше задание: проводим количественную экспертизу, делаем калибровку заданий, то есть определяем некоторые характеристики заданий, которые позволяют нам потом использовать инструмент хорошо. Если после калибровки оказалось, что наше оценивание, какие-то его части работают плохо, то мы вносим изменения, делаем доработку и, скорее всего, приходим к пункту № 6 – повторно переделывать наше оценивание. Дальше мы должны сделать это на большой выборке и понять, какие у нас есть нормы: где есть высокий, средний, низкий уровень. Также мы рассчитываем разные характеристики, например, надежность.

Последнее — это создание паспорта либо создание технического отчета, куда мы записываем то, что наработали.

В плане методологии, если говорить про зарубежный подход, то есть такое понятие – Evidence-Centered Design. Есть хорошая статья моих коллег из ВШЭ: Угланова, Брун, Васин «Методология Evidence-Centered Design». Я советую ее почитать, потому что она дает понимание, как разрабатываются очень сложные типы оценивания. Например, в одном центре, где я работал, есть инструмент 4К: измерение критического мышления, креативности, кооперации и коммуникации. При разработке создается виртуальная среда, в которой действие должен делать учащийся. То есть он не отвечает на вопросы, а моделирует некую ситуацию, как, например, в виртуальных лабораториях. Но та разработка позволяет оценивать уровень креативности, уровень критического мышления.

Есть три модели, которые связаны друг с другом. Иногда добавляют четвертую модель – модель сборки. Но основных три:

Первая — proficiency (иногда ее называют “модель учащегося”).
Вторая — модель свидетельств.
Последняя — модель заданий.

Если мы говорим про тестирование, есть очень важный навык у разработчиков оценочных инструментов. Понятно, что курс можно пройти, что некоторые вещи приходят с опытом. Мы должны снизить когнитивную нагрузку. Мы должны избегать посторонних вещей, а только фокусироваться непосредственно на том, что мы оцениваем.

Посторонние вещи могут быть разные. Переписываются тексты, которые должен проанализировать учащийся. Для каких-то учащихся этот текст может быть сильно простой, потому что у них есть релевантный жизненный опыт. Вторая часть этих рекомендаций про то, что если у учащегося низкий уровень, он может что-то попытаться угадать. Не всегда это можно, но в закрытых тестах это точно есть.

Мне очень понравилось, как в Вышке (прим.: ВШЭ) выступал один профессор. Он анализировал стратегии и ответы учащихся на тесты. Одна из стратегий была такая: если учащийся не знает правильного ответа, то выбирает пункт Б. Это может быть одна из стратегий, которая действительно позволяет пройти этот тест.

Цель эксперта — дать правильный ответ и его обосновать. Как предметные эксперты, они разрабатывают тест, пишут очень большой, емкий, правильный ответ к вопросу, но неправильные ответы пишут либо случайно, либо не так емко. В этом случае легко угадать правильный ответ, потому что он и есть наиболее полный, длинный, емкий. В случае суммирующего тестирования это работать не будет, потому что если даже учащийся не знает правильный ответ, он просто выберет наиболее полный и емкий.

Еще часть связана с такими характеристиками, как надежность и валидность оценивания. Мне очень нравится эта диаграмма (прим.: идет демонстрация экрана).
Надежность говорит про то, насколько тест, оценивание измеряет нашу характеристику при условии, что мы хотя бы мысленно повторим. Видно, что надежность — это насколько в случае повтора мы дадим, условно говоря, то же самое оценивание. Мы тем самым должны получить сопоставимые результаты.
Валидность говорит про то, что действительно мы измеряем то, что нам нужно, то есть насколько точно мы бьем в цель. Основная проблема в том, что мы до конца не знаем, что мы измеряем. Мы всегда измеряем латентную характеристику. Поэтому современная теория валидности направлена больше на описание, что такое мишень, как она локализована, поэтому в ней используется качественные и количественные методы. Несмотря на то, что я математик, мне нравится больше заниматься статистической обработкой. Я экспертную часть, в любом случае, не отрицаю при создании инструментов оценивания.

Есть некоторая угроза валидности. Как я уже говорил, валидность нам говорит про то, насколько мы можем корректно интерпретировать результат измерения, тестовый балл либо результат тестового оценивания. Если вы, например, индивидуально разрабатываете итоговое тестирование, то, скорее всего, вы какие-то этапы будете пропускать. Редко, когда вы даете этот тест другому эксперту, чтобы он посмотрел, насколько хорошо это разработано. Вы должны понимать, что есть методология, для которой есть стандарты. Есть хорошие стандарты, правда, корпоративные. Есть стандарт центра оценки. Есть очень много международных стандартов, где более четко это прописано, но они на английском языке.

Отказ от методологии говорит нам о том, что у нас есть угроза валидности и что мы не всегда можем корректно интерпретировать результат.

Про применение инструмента.
Сейчас этого, наверное, нет. Но когда был введен ЕГЭ, его результаты стали использовать для оценки качества преподавания. То есть учителя получали или не получали премию в зависимости от результатов ЕГЭ учащихся. Это неправильно, некорректное применение инструмента. Ответственность разработчика в том, что он должен понимать, в каком случае корректно применять его инструмент, в каком – нет.

Теперь немного про психометрические моделирование.
Есть разные подходы в этой области. Я выделил четыре наиболее интересных подхода. Они немного разные в концептуальном плане и в плане целей применения.

Первый подход — это классическая теория тестирования. Это то, с чего, как мне кажется, началась психометрика в широком смысле. У нас есть наблюдаемый балл, истинное значение, истинный балл и еще ошибка. Мы говорим, что есть некоторые ошибки измерения. Классическая теория хороша тем, что она используется для тестов, не зависит от модели. Но это и недостаток – мы тем самым хуже измеряем учащихся. Когда я работал в Степике, мы использовали КТТ, чтобы оценить, какой контроль качественный, а какой – нет.
Более прогрессивный подход — Item Response Theory. Я не переводил, потому что это название очень сложно перевести, нет хорошего перевода. В нем моделируется вероятность правильного ответа на задания. На самом деле, не обязательно правильного: моделируется вероятность ответа на любое задание. Эта теория очень гибкая: если мы хорошо подберем модель, то в ней очень много интересного можно делать в плане анализа, можно посмотреть, какие задания работают хорошо, какие – не очень. Также можно оценить надежность каждого задания, а не теста целиком.
Следующая модель — модель структурного моделирования. Эта модель чаще применяется в различных видах опросника. Причем, опросники тоже могут быть разного вида по формату, когда мы, например, должны оценить, насколько ты себя соотносишь с этим утверждением. Либо это могут быть ассоциативные опросники, когда мы даем некоторую ситуацию: например, представьте, что вы работаете в компании и у вас есть неудобный отчет, – оцените варианты действия степени эффективности решения проблемы.
Последнее, что становится очень популярным, – оценивание на основе игр. Либо при оценивании сложных конструктов — например, критическое мышление. Мы можем моделировать, как соотносятся какие-то подчасти этого конструкта. Например, когда мы говорим про критическое мышление, есть три составляющие: анализ, синтез и установление причинно-следственной связи. Анализ и синтез могут по-разному находиться в отношении друг с другом – это тоже можно моделировать с помощью байесовской сети.

Теперь чуть-чуть про диагностическое оценивание.
Мне вспоминаются два вида модели учащихся:
Слева — модель перекрытия. Здесь у нас есть эксперт (это может быть разработчик инструмента). А сам учащийся — это его уровень знаний, умений, компетенций. Он проявляет подчасть общего глобального знания. Это ситуация суммирующего оценивания, когда наша цель — оценить, что учащийся умеет и знает.
Справа – модель миссконцепции, Students Buggy Knowledge. Это избыточное незнание. Соответственно, мы диагностируем, что он делает типовые ошибки в этом. Примером такой миссконцепции являются задания, когда у нас складываются дроби неправильно. Когда у нас есть две дроби, то складывается и числитель, и знаменатель. Это немножко похоже на так называемый анализ дистракторов, когда мы тестируем, как хорошо работают неправильные ответы. Дистракторы — это и есть неправильные ответы. Когда мы говорим про анализ концепции, то делаем анализ со стороны именно учащегося, то есть мы смотрим, какие типовые ошибки допускают. Понятно, что модель учащегося для случая диагностического тестирования более сложная, чем у суммирующего. Мы должны оценивать не только целевую характеристику, но еще и типовые ошибки, которых может быть очень много. Но в случае диагностического оценивания мы после такого анализа миссконцепции даем еще некоторые общие рекомендации по результатам тестирования. Например, если человек неправильно складывает дроби, мы советуем повторить этот кусочек учебного материала. Обычно такие рекомендации очень атомарные. Если совсем очень много неправильного, избыточного незнания, неумения, то в этом случае мы можем порекомендовать какой-то курс. Цель такой диагностики — не только оценить целевую характеристику, но и какие типовые ошибки учащийся допускает.

Цель нашей встречи — формирующее оценивание. Как я уже говорил, в формирующем оценивании очень важно давать обратную связь. Она очень важна для формирования, для развития. В целом, когда мы проектируем формирующее оценивание, у нас все подчинено учебной цели. Если мы говорим про педдизайн, у нас должно быть очень много учебных целей. Мы даем задания и смотрим, как их выполнили учащиеся. У нас есть разница между отечественной и зарубежной психологией в плане терминологии. В зависимости от этого поведения, мы даем обратную связь, чтобы скорректировать поведение. Дальше, после этого цикла, обучение повторяется.

Обратная связь является ядром формирующего оценивания. Формирующее оценивание — это оценивание, в котором дается обратная связь. При этом, обратная связь не обязательно должна даваться всегда автоматически, она может даваться и в ручном режиме. Если вы учитель, то в случае суммирующего оценивания вы определяете критерии: сколько баллов ставить за такую-то работу. Помимо этого есть еще так называемые развивающие рубрики, когда вы не только ставите сколько-то баллов, но еще прописываете, как нужно давать обратную связь, то есть при условии, что выполнена таким образом работа. Я понимаю, что не все делают, как мне нравятся. А есть еще преподавательское мастерство, что остается при вас, что ваше.

В рамках педагогической технологии, когда мы прописываем развивающие рубрики, то прописываем еще формат обратной связи. Для обратной связи я очень мало видел хороших учебников и статей про то, как технологически правильно описывать обратную связь. В целом, есть три вопроса для обратной связи. Обратная связь наверх, обратная связь назад и обратная связь вперед:
Первое — это мой текущий уровень, где я нахожусь и чего я достиг.
Второе — это про то, каким маршрутом сюда пришел. Это про фидбек, про неясные места, про ошибки. Мы как раз фокусируемся на этом.
Третье – это про наши рекомендации, то есть что мы должны сделать дальше, чтобы достичь учебной цели.

Примеры обратной связи могут быть разными. Может быть индивидуальная обратная связь либо групповая. У вас может быть в качестве оценивания, например, работа над совместным проектом. Тогда вы можете дать обратную связь рабочей группе. Вы можете сразу давать либо чуть позже. Это тоже возможно. Зачастую дают обратную связь качественную. Но количественная обратная связь тоже возможна – вы выставляйте какой-то итоговый балл.

Кто дает обратную связь?
В заданиях на взаимное оценивание обратную связь дает другой учащегося. Тут, с одной стороны, мы помогаем одним учащимся получить разнородную обратную связь. А с другой стороны, тех, кто оценивает, мы учим тому, как оценивать, какие есть критерии, как их применять.

Книжка, которая мне очень нравится, — “How to give effective feedback to your students” Это первая и пока единственная в моей жизни книжка, в которой я действительно видел некоторую рамку, что такое обратная связь и какой она бывает. В этом фреймворке, в рамке выделяются две стратегии, люди, содержание и время, объем формы и так далее. Но это только лишь первая глава. Потому что дальше в этой книге показываются примеры хорошей обратной связи, плохой обратной связи, по каждой подкатегории. Она действительно очень структурирована, очень интересно читается До этой книги я обратную связь давал из своего опыта, по наитию. Что-то работало, что-то – нет. Прочитав такую книгу, в которой структурировано это все сделано, понимаешь, что за этим тоже есть некоторая технология.

Последнее, что я хотел рассказать, это адаптивное обучение.
У адаптивного обучения есть такая подчасть, которая называется динамическое оценивание. Тут есть два примера. Первый — про адаптивное тестирование. Второй — случайный выбор заданий. Первый — про суммирующее оценивание, потому что в суммирующем оценивании предполагаем, что то, что мы измеряем, не меняется со временем. В этом плане, разработано очень много таких сильных, с точки зрения математики, количественных методов, но есть очень сильно развитая теория. Например, можно вспомнить книжку Ван дер Лидена – хотя она немножко устарела, но для погружения в тему хороша.

Другой вариант — когда мы устраиваем динамическое оценивание в процессе тестирования: например, даем обратную связь. В этом случае мы измеряем то, что меняется со временем. Это фокус моих исследований. Надеюсь, что потом, когда я их доделаю, выступлю с этой темой уже в научном формате. Это используется в адаптивном обучении, потому что есть цикл, пересчет оценки умений. За счет того, что оно меняется, что мы даем обратную связь, мы формируем какой-то новый уровень. Здесь большое поле для исследования в том плане, что количественно мы должны измерить, как изменился уровень умений после взаимодействия учащегося с заданием.

Само задание может иметь очень разную структуру. Вариативность тех заданий, которые используются в обучении, зашкаливает, потому что они могут иметь разную механику, предметное содержание, форматы и так далее. Но сама тема, мне кажется, очень интересная и тесно связана с адаптивным обучением. Потому что, если мы можем хорошо измерить уровень подготовленности, то мы потом сможем лучше рекомендовать новый учебный контент. Здесь есть методологическая проблема, которую хочется решить: не всегда мы это хорошо умеем измерять.

Те системы адаптивного обучения, которые я видел, зачастую очень сильно инженерно построены. Если человек правильно отвечает, то его уровень повышается, если неправильно – снижается либо остается на том же уровне. Но насколько повышается, какого-то хорошего обоснования я еще не видел. А это как раз очень важно, для того, чтобы мы могли корректно интерпретировать результаты с точки зрения валидности.

Спасибо большое за внимание. Буду рад вопросам.

Наталья Андреева: Максим, спасибо огромное.

Был уточняющий вопрос по поводу Аssessment for Learning. Какие конкретные примеры и похоже ли это на зону развития Выготского? Потому что, получается, это оценка актуального состояния ближайшего развития. Можно ли какую-то параллель провести или нет?

Максим Скрябин: Я считаю, что не совсем соотношение один к одному. Просто иногда делят на суммирующее и формирующее, потом формирующее – на диагностическое и динамическое. Явный признак именно диагностического оценивания — оно проходит, как суммирующее, вы его проходите в том же режиме, чтобы оценить свой текущий уровень. Помимо этого, суммируется что-то еще и по результатам этого даются общие рекомендации по развитию.

Насчет зоны ближайшего развития — сложный вопрос. Само диагностическое оценивание не дает именно ближайшее развитие. Вообще говоря, как оценить зону ближайшего развития, я пока не знаю. У меня нет хорошего ответа на это. Если вспомнить саму педпсихологию, то это то, что умеют делать учащиеся вместе с другими. То есть как-то можно с помощью формирующего оценивания давать разный уровень обратной связи, и по уровню обратной связи как-то оценивать зону ближайшего развития. Но это моя гипотеза. Диагностическое оценивание не сможет оценить зону ближайшего развития.

Наталья Андреева: Насколько эта модель ложится, то есть когда прескриптивные инструкции и какие критерии подготовленности оценки?

Максим Скрябин: Если говорить про фреймворк обратной связи, то он, в целом, более широкий, потому что позволяет не только групповую обратную связь, но индивидуальную. Что мутный термин – согласен: большая проблема, как его измерять. Это тема для отдельных исследований. Анализ миссконцепции может прояснить. Но нам все равно нужно очень много данных об учащихся, для того чтобы построить хорошую модель. Идеологически я ничего не имею против Выготского,

Наталья Андреева: У нас будет выступать Анна Шварц, которая раньше в МГУ работала (расшифровка выступления А.Шварц). Они с коллегами голландскими написали интересную статью. И она обещала рассказать про их подходы к формированию скаффолдинга, к выделению зоны ближайшего развития, на примере того, как они делали в uchi.ru. Когда с ними работаешь, есть ощущение, что все круто выстроено.

Максим Скрябин: Скаффолдинг – это действительно очень хороший инструмент, в том числе, и для формирующего оценивания. Я как раз думаю, что уровень погружения, уровень развернутости обратной связи позволит лучше измерять зону ближайшего развития. Но тут вопрос, как это все потом формально загнать в матмодель, чтобы корректно измерять.

Наталья Андреева: Я встречалась с термином assessment as learning в работах практикующих учителей, которые взаимодействуют с исследователями. Там активно продвигалась тема обучения учеников самооцениванию – я бы так сформулировала ту часть, которая не ложится в какую-то модель, которая может быть реализована легко на компьютере. Это история о том, как учитель общается с учеником, как учит его оценивать самого, как учит ставить цели и понимать, насколько эти цели измеримые и так далее. Фактически, это обучение планированию и оценке своей деятельности.

Максим Скрябин: Учащийся может оценивать себя, он планирует обучение, если у него хорошо развита способность обучаться. В целом, если мы говорим про самостоятельное оценивание, то тут развитие метакогнитивных навыков. Этому не отдельно нужно обучать, а именно в процессе учебной деятельности. Я не вижу тут больших противоречий, потому что можно в случае формирующего оценивания.

Что такое оценивание? Есть три термина. Это измерение, оценивание и оценка. Если говорить про измерение, то это получение некоторого числа в зависимости от уровня текущего учащегося. Соответственно, интерпретация этого числа, это сама процедура измерения, уже в более общем философском смысле. Оценивание может быть не обязательно количественное, но и качественное. Например, в результате проведения интервью вы фиксируете какие-то поведенческие характеристики и тем самым можете оценить либо дать обратную связь. Оценка, как результат оценивания, используется уже целиком в образовательной среде, то есть как мы можем регулировать учебный процесс.

Насколько логично сочетается пятибалльная система оценивания с формирующим оцениванием? С точки зрения формирующего оценивания «Садись, 5» и «Садись, 2» — одинаково плохие оценки. Вы должны давать обратную связь более расширенно, чтобы могли развивать учащегося. Если ученик все ответил правильно и получил пятерку, нужно подчеркнуть, какие именно сильные стороны и дать какой-то дополнительный материал. Если он отвечает неверно, мы даем какие-то указания, чтобы скорректировать его поведение, чтобы он отвечал в следующий раз правильно.

Наталья Андреева: Спасибо. Максим, это было содержательно и понятно. У нас было много практических встреч про оценивание. Сейчас мы увидели теоретические основания и соотнесения между разными видами оценивания. Это очень здорово, особенно когда есть возможность соотнести то, что мы делаем руками, с теми исследованиями, которые ведутся.

Максим Скрябин: Спасибо большое, приглашайте еще.