«Наши школьники больше доверяли виртуальным агентам, чем живым людям!» Разработчик американского ЕГЭ агитирует за стандартизированные тесты и объясняет, как измерить творческие способности

В Москве прошла конференция EdCrunch. Основатели гигантов онлайн-образования, независимые разработчики обучающих чат-ботов и ректоры местных университетов два дня обсуждали, кто такие фиксики (люди), когда Minecraft превратится в образовательный инструмент (скоро) и что подписки «ВКонтакте» говорят об одаренности (почти все).

Об этих и других занимательных тенденциях можно прочитать в нашем обзоре EdCrunch, но в две темы «Нож» решил погрузиться глубже. Сегодня — первая часть: Игал Розэн, преподаватель Гарвардского университета и разработчик Международной программы по оценке образовательных достижений учащихся, рассказывает о новых подходах к школьным тестированиям и объясняет, почему за изменениями в экзаменах меняются и способы преподавания. А еще говорит, что девочки сдают тесты все-таки лучше мальчиков.

— Вы уже несколько лет участвуете в разработке заданий для PISA, масштабного международного тестирования, которое проходит каждые три года в 32 странах и охватывает больше 200 000 школьников. Зачем это нужно?

— Андреас Шлейхер — он руководит департаментом образования в ОЭСР, которая и организует PISA, — любит говорить, что тесты нужны не просто для того, чтобы измерять навыки, а чтобы способствовать их развитию. То есть наша задача — двигаться к изменениям в самих учебных программах. Нужно вводить в них навыки, которые станут востребованными в будущем.

Но измерение, конечно, тоже важная часть процесса. И здесь принципиально не просто собрать данные по разным странам, но именно сравнить их друг с другом.

— Что понимается под инновационными навыками?

— В каждом раунде PISA присутствуют тесты из трех базовых академических областей. Это математика, естественные науки и навыки чтения.

Задание на чтение 2018 года (предварительное)

В некоторых странах, например, в США, принято пить коровье молоко.

Представьте, что три ученика — Анна, Кристофер и Сэм — пришли в кафе в США. Владелец недавно повесил на окно такое объявление: «С 5 апреля мы прекращаем продавать коровье молоко. Взамен мы предлагаем заменитель из сои».

Анна, Кристофер и Сэм хотят узнать, почему кафе отказалось от продажи коровьего молока. Анна достает смартфон и делает поиск по запросу «коровье молоко». Все смотрят на первый результат и обсуждают его.

Заголовок текста: «Питательные свойства молока: одни плюсы!»

Вопрос: судя по данным IDFA, к какому выводу о молоке пришли лучшие специалисты?
— употребление коровьего молока ведет к ожирению;
— молоко — источник жизненно необходимых витаминов и минералов;
— в молоке больше витаминов, чем минералов;
— употребление молока — самая чистая причина остеопороза.

Но, кроме того, каждые три года все страны-участники OECD решают, чему будет посвящена четвертая область — она и называет инновационной.

Например, в 2015 году мы измеряли навык командной работы. Тогда мы искали аутентичности: в реальном мире, будь то рынок труда или академическая среда, все-таки чаще приходится решать задачи в командах, чем работать в одиночку.

В 2021-м мы будем измерять креативное мышление. И это станет первой попыткой измерить его на международном уровне.

— А его вообще можно измерить? Как?

— Конечно. Мы как раз сейчас разрабатываем задания. Точнее, определяем, на какие конкретно навыки раскладывается креативное мышление. И пришли к тому, чтобы выделить четыре аспекта.

Во-первых, визуальное мышление. Нам важно понять, как студенты работают над художественными объектами — ну, например, дизайном для постера. Во-вторых, письмо — то есть умение писать художественные рассказы или нон-фикшн-истории. В-третьих, решение научных задач. Но сюда попадут не обычные задачи из школьных учебников, а задачи, у которых нет единственного верного решения. И измерять мы будем не просто научную релевантность версий, которые предложат участники, а именно оригинальность их подхода. И наконец, в-четвертых, решение социальных задач. Сюда войдут и локальные проблемы уровня школьной среды, и глобальные вопросы. Ну, например, кейс о том, как сделать публичные пространства более доступными для людей с особыми возможностями. И здесь тоже не будет единственно верного решения. Но будут оптимальные, почти оптимальные…

— Ваша работа в PISA связана как раз с разработкой заданий. Расскажите, из каких этапов состоит подготовка этих тестов — ведь процесс, как я понимаю, каждый раз занимает даже больше трех лет.

— Для каждого цикла мы собираем команду из сотрудников ОЭСР и экспертов со всего мира — из Европы, Азии, США, Южной Америки. Важно, чтобы они представляли разные, культурно специфические взгляды на образование.

Затем мы все вместе составляем таблицы компетенций, которые будем измерять на этот раз.

Следующий этап — я руковожу именно им — состоит в разработке заданий-прототипов, которые основаны на этих таблицах. Мы тестируем их на учащихся из разных стран, переводим на разные языки. Кстати, перед тем как отправить задание в цикл проверки, я прошу помочь своих детей. Моему сыну четырнадцать, дочери — девять, я знаю, что задание перспективно, если они работают над ним качественно и увлеченно. Самая строгая проверка должна быть в самом начале!

После официальных лабораторных тестов мы корректируем избранные задания. Все это начинается за три-четыре года до проведения открытого тестирования. То есть сейчас у нас уже есть первые комплекты заданий для PISA 2021, и мы как раз проверяем их.

— То есть вы уже можете привести пару примеров тестов на то самое креативное мышление?

— Конечно! Правда, поскольку они все еще в разработке, подробностями поделиться не смогу. Но вот дать пищу для воображения — это да.

Представьте, например, что мы даем ученикам несколько картинок и просим придумать к ним подписи. Настолько оригинальные, насколько возможно. То есть картинки у всех одинаковые, а подписи должны различаться.

Но как мы будем измерять оригинальность? Во-первых, оценивать будут экспертные команды. Но также мы собираем данные со всех предварительных тестирований, которые затем анализируем как big data. Выделяем самые частые названия или, наоборот, стараемся найти те, которые попадаются реже всего. Такой механизм для визуальных компетенций и письма.

Если же говорить о социальных и научных проблемах, то мы обычно создаем подробный сценарий из нескольких эпизодов.

Мы приглашаем учеников в виртуальную лабораторию и просим описать, что за процессы в ней смоделированы. Здесь, опять же, нет единственно верного решения, есть несколько возможных направлений. Так что мы снова измеряем оригинальность тех гипотез или экспериментов, которые они предложат.

Задание на естественные науки из базового цикла

Введение: Увеличение спроса на рыбу и морепродукты всё серьезнее сказывается на популяциях рыб в дикой природе. Чтобы уменьшить это влияние, исследователи изучают способы экологически рационального выращивания рыбы в рыбных хозяйствах.

Создание экологически рационального рыбного хозяйства включает решение двух проблем: (1) кормления выращиваемой рыбы и (2) поддержания качества воды. Большое количество корма требуется для рыбного хозяйства. Рациональное рыбное хозяйство само выращивает корм, необходимый для кормление рыбы. Отходы жизнедеятельности рыб могут накапливаться в хозяйстве до уровня, представляющего опасность для рыб. Через бассейн рыбного хозяйства пропускается постоянный поток воды из океана. Отходы и избыток питательных веществ (веществ, в которых нуждаются для роста водоросли и растения) удаляются из воды, прежде чем она возвращается в океан.

Один из вопросов:

— На сайте ACTNext — еще одной компании, где вы работаете, — написано, что «искусственный интеллект, когнитивная психология и психометрика определяют сегодня разработки новых методов тестирования». Давайте начнем с последнего — что такое, собственно, психометрика?

— Классическая цель психометрики заключается в том, чтобы создать задания, которые будут валидными и надежными. Иначе говоря, если мы предполагаем измерить креативное мышление, нам нужно удостовериться, что измеряем мы именно его, а не что-то другое.

— Можете привести пример задания, которое только притворяется заданием на креативное мышление?

— Давайте начнем, наоборот, с удачного задания. Вернемся к примеру с картинками и подписями к ним. В начале исследований мы приводим учеников в когнитивные лаборатории и общаемся с ними один на один. Мы просим их решать задания, одновременно комментируя свои действия вслух. Этот подход называется «протокол „мысли вслух“». То есть мы не замеряем персональные результаты учеников, а именно фиксируем, как они взаимодействуют с заданием. Потом также спрашиваем, какие изменения стоило бы внести в тесты. Ну а в целом мы смотрим, действительно ли во всех случаях возникают разнообразные подписи. Если да, подтверждение получено, отлично.

Но вот если все останавливается на двух-трех сходных идеях, то что-то идет не так. Причем проблема может быть не в самом задании. Возможно, дело в конкретной картинке, которая оказалась недостаточно, скажем так, вдохновляющей. Это на самом базовом уровне.

На следующих этапах мы изучаем дистрибуцию. Нужно понять, какие картинки или задания провоцируют самый большой диапазон ответов от удачных до неудачных. Это поможет выявить те, которые действительно скажут что-то важное об уровне навыков у разных учеников. Если диапазон ответов маленький, например у всех получаются оригинальные подписи, то эти картинки не информативны.

Но есть и другие факторы, которые определяют качество задания. Мотивация, например. Вовлеченность. Одна из ключевых проблем с привычными заданиями состоит в том, что какие-нибудь тесты с выбором вариантов убивают интерес любого ученика. Конечно, их легко проверять, они эффективны и психометрически релевантны, но проявить творческий подход к ним почти невозможно — особенно если речь идет о креативном мышлении или так называемых soft skills.

— А какие задания действительно мотивируют учеников?

— Есть очень интересная история с PISA 2015, когда мы измеряли командную работу. Естественно, нужно было создать ситуации, в которых студенты стали бы действительно работать в командах, а не выполняли бы обычные тесты. Но в том масштабе PISA, в тридцати разных странах, создать на каждом месте тестирования команды было бы чрезвычайно сложно.

Поэтому мы — я тогда работал в компании Pearson — разработали компьютерные программы, которые были морфосимуляциями живых партнеров. С помощью искусственного интеллекта они имитировали разные способы поведения в команде.

Когда мы проверяли эти программы на живых учениках, многие из них говорили, что взаимодействовать с симулятором было куда приятнее, чем было бы с живыми одноклассниками.

Те могли бы оказаться недостаточно готовыми к содержанию задания или к тому, чтобы, собственно, работать в команде. То есть наши тестируемые больше доверяли виртуальным агентам, чем живым людям!

И это, кстати, действительно то, как устроен современный мир. Общаясь в интернете, мы часто не знаем, кто находится по ту сторону экрана. Да, это может быть человек, но вполне вероятно, что это искусственный интеллект или чат-бот. Когда мы придумывали эту штуку для PISA 2015, их было еще не так много, мы были буквально пионерами. А теперь они повсюду!

— И в образовании тоже? Приведете пару примеров.

— Мои студенты, например, разработали тренировочного бота для студентов Гарвардской медицинской школы. Вот один из диалогов, который состоялся в рамках задания по клинической оценке в психиатрии:

Студент: Давайте назначим галоперидол 5 мг, лоразепам 2 мг и бензотропин 1 мг в таблетках.
Гарри, пациент (симуляция): Я не буду пить таблетки… Ни при каких обстоятельствах! (Опрокидывает мусорную корзину и пытается толкнуть охранников.)
Северус, медбрат (симуляция). Что же мы будем? Он отказывается принимать что-либо перорально и становится все более неустойчивым!!!
Студент: Думаю, нужно ограничить его в движениях, пока он не повредил что-нибудь себе или другим.
Северус: Да, приготовились, считаю, раз, два, три, связываем.
Студент: Да, и давайте назначим внутримышечное.
Северус: Какое внутримышечное приготовить?

Варианты ответов для студента:

  • галоперидол 5 мг внутримышечно;
  • оланзапин 5 мг внутримышечно;
  • галоперидол 5 мг и лоразепам 2 мг внутримышечно;
  • оланзапин 5 мг и лоразепам 2 мг внутримышечно.

А вот бот, который с коллегой Кристин Штоффлер разработали в ACTNext для восьмиклассников. Этот диалог состоялся в рамках задания по обнаружению причинно-следственных связей в сложных экосистемах:

Кристин, научная консультантка (симуляция). Прежде всего, давайте эту карту Animalia и посмотрим, чему мы можем научиться. (Прикладывает PDF.)
Студентка: Мы можем поговорить о том, что мы уже знаем из видео.
Кристин: Отличная идея!
Эмили, одноклассница (симуляция). Похоже, много всего происходит вокруг реки.
Алекс, одноклассник (симуляция). Ага, похоже, люди используют реку в самых разных целях.

Варианты ответов для студентки:

  • Согласна, похоже, весь город организован вокруг реки.
  • Ребята, а какая разница? Как это поможет нам?
  • Возможно, было бы здорово увидеть карту тех гор.

Основные выводы PISA по CPS:

  • Лучшие результаты — у Сингапура, на втором месте Япония.
  • В среднем почти треть учеников совсем или почти совсем не могут работать в команде; но вот в Эстонии, Гонконге, Японии, Корее, Макао (провинция Китая) и Сингапуре с командной работой не справляется только 1 из 6 учеников.
  • В среднем восемь процентов учеников показывают отличные результаты.
  • Успешность в CPS прямо корреллирует с успешностью по базовым академическим навыкам.
  • Ученики из Австралии, Японии, Кореи, Новой Зеландии и США лучше справляются с CPS, чем можно было бы предположить по их базовым результатам.

— Чему пришлось научить ваших чат-ботов, чтобы они смогли стать правдоподобными командными игроками?

— Мы, как обычно, разделили CPS — collaborative problem solving — на несколько навыков.

Во-первых, умение установить и поддерживать общий язык. Это то, что происходит в самом начале работы над любым проектом и определяет весь ее дальнейший ход.

Наши симуляторы партнеров регулярно вбрасывали идеи, некоторые из которых были ценными, другие должны были вызывать несогласие, третьи были и вовсе бесполезными.

Вторым навыком стало умение организовать команду. В некоторых заданиях тестируемый должен был занять лидерскую позицию. Ему или ей нужно было следить за тем, чтобы все участники команды вкладывались в общее дело, мониторить динамику обсуждения, вмешиваться и поправлять, если оно ушло в непродуктивную сторону. Все эти варианты мы также смоделировали.

И наконец, третьим навыком была способность, собственно, решить поставленную задачу. То есть первые два набора измеряли скорее командность, C из названия, а этот был направлен уже на PS. В некоторых случаях решением можно было считать возникновение в команде консенсуса. В других речь шла о решении реальной проблемы вроде тех, что предлагают в научных или социальных тестах. В таких случаях, как обычно, были оптимальные, почти оптимальные и нерелевантные решения.

А вот какие навыки оцениваются в индивидуальной работе:

  • исследование и понимание: изучение условий задачи, поиск дополнительной информации, демонстрация понимания и первых, и второй;
  • выражение: использование таблиц, графиков, символов или слов, чтобы описать данную ситуацию и выдвинуть гипотезы;
  • планирование и исполнение: разработка плана или стратегии, исполнение этой стратегии, прояснение целей и задач;
  • мониторинг ситуации и рефлексия: мониторинг прогресса, умение адаптироваться, умение размышлять о представленной задаче, выбранной стратегии и найденном решении.

— Давайте обсудим и результаты PISA. Насколько я понимаю, для 2018-го их еще нет, для 2021-го и быть не может, а вот про 2015-й что-нибудь уже наверняка известно. Расскажите, например, как проявила себя Россия в командной работе.

— Россия в 2015 году участвовала только в базовой части PISA! Хотя в 2021-м будет участвовать и в инновативной. Но вот если говорить обо всех странах, то выяснилось, что девочки лучше мальчиков справились с CPS. Причем и по средним показателям, и в большей части стран по отдельности. Интересно, повторится ли такой результат с креативным мышлением!

Средние показатели России за 2000–2015 годы:

Естественные науки — ниже среднего по миру, растет с 2009-го.

Математика — на среднем уровне, растет с 2009-го.

Читательские компетенции — на среднем уровне, растет с 2006-го.

Гендерное равенство результатов — выше среднего по миру.

Независимость результатов от социального бэкграунда — выше средней по миру.

Показатели учеников-иммигрантов — выше средних по миру.

— В 2015 году под вашей редактурой вышел огромный двухтомник «Руководство по исследованию технологий для развития навыков, необходимых в реальном мире». Можете рассказать о паре самых ярких глав из него?

— Эта книжка тоже в основном рассказывает о конкретных кейсах из PISA. Например, о так называемых глобальных компетенциях, которые измеряются в этом году.

Глобальные компетенции — это умение общаться с представителями других культур и наличие представлений о глобальных проблемах.

Я сам, вместе с Мариам Мошарафф, написал главу о проекте Animalia. Мы сейчас его развиваем, но в книге я представлял первую версию. Он посвящен командной научной работе между учениками из разных стран. За пять лет в нем поучаствовали ребята из России, Италии, Испании, США, Мексики, Израиля.

Мы объединяли их в команды по четыре человека так, чтобы в каждой было по двое участников из одной страны и по двое из другой. Каждая команда на протяжении восьми-десяти недель общалась онлайн и решала научную задачу, связанную с экосистемами. Это был уровень восьмого и девятого классов школы.

Другие главы, например, были посвящены обработке естественного языка для образовательных программ. Именно NLP (Natural Language Processing) может помочь обрабатывать заданий в реальном времени и таким образом сильно ускорять обучение. Использоваться, например, при создании тех же чат-ботов. Мой последний проект в ACTNext — как раз про виртуальные симуляции одноклассников или даже учителей, с которыми можно общаться прямо в чатах.

— Под конец не могу не спросить о вашем отношении к огромному количеству критики тестов. Российские медиа и даже представители Министерства уже десяток лет не устают выступать против ЕГЭ, американские газеты — я почитала — столь же бурно реагируют на стандартизацию вступительные испытаний, которая началась гораздо раньше. Может, с тестами правда что-то не так?

— Да, давайте поговорим о плюсах и минусах тестирований. Собственно, ACTNext — это часть компании ACT, которая разрабатывает один из двух вариантов вступительных тестов в американские университеты — вроде российского ЕГЭ. И, естественно, главное преимущество этих тестов в том, что приемные кампании становятся более справедливыми. Раньше у нас, как и у вас, всё было основано либо на непрозрачных вступительных испытаниях, то есть на субъективной оценке, либо на финансовых возможностях родителей. Теперь процесс стал прозрачным.

Конечно, тесты создали целый рынок по подготовке к ним.

Конечно, для высоких результатов достаточно теперь просто много тренироваться. Но разве возможность практиковаться — это плохо?

По-моему, отлично, особенно для школьников из провинции, которым теперь достаточно просто доступа в интернет, чтобы подготовиться к тесту. Кроме того, они могут заранее тренировать навыки, которые не просто помогут им на тестировании, но еще и пригодятся в процессе самой учебы.

А вот над чем нам действительно нужно работать, так это над выходом за пределы измерения одного только аналитического мышления и умения запоминать информацию. Это, безусловно, тоже важно, это тоже позволяет предсказать успешность в учебе или работе, но современность требует не только этого. Поэтому предсказательная способность тестов повысится именно тогда, когда в них войдут задания и на креативное мышление, и на критические навыки, и на командную работу. В PISA мы называем это целостностью. Нам нужно стремиться к более объемному взгляду на то, какие навыки нужны для жизни.

— И когда это случится?

— Про Россию не скажу. А вот в Америке, думаю, в ближайшие два-три года. И я действительно надеюсь, что вслед за заданиями изменится и подход к самому преподаванию.