Анализ данных для неайтишника: спасти музейный шедевр, бабушкин дневник и наследие раннего Рунета
Современные IT-инструменты позволяют решать множество задач. Но как искусствоведам, историкам, социологам и другим специалистам без технического бэкграунда научиться их эффективно применять? Для этого Яндекс и Европейский университет в 2020 году открыли ПАНДАН — магистратуру и ДПО по прикладному анализу данных для социогуманитарных исследователей.
Обучение с Яндекс Образованием ориентировано на практику, поэтому на ПАНДАНе наряду с учёными преподают действующие разработчики, а студенты с первых же дней занимаются прикладными задачами в интересных им областях. Рассказываем, как у экономистов, социологов и психологов получилось разработать механизм для оцифровки крупных музейных экспонатов, создать модель рекомендательной системы для цифрового архива и провести исследование легендарного хостинга 2000-х.
Мобильный телефон вместо дорогого сканера
Группа студентов разработала модель портативного сканера для оцифровки объектов музея «Гараж»

Оцифровкой произведений искусства сегодня активно занимаются большинство мировых музеев. Пока это один из самых надёжных способов сохранить культурные и исторические объекты, а ещё — сделать их доступнее для современников. Сегодня каждый может познакомиться с собраниями Пушкинского или Лувра прямо из дома, а для исследователей есть электронные каталоги с фотографиями экспонатов в высоком разрешении.
Для музеев и художественных галерей съёмка и сканирование экспонатов — рутинная задача. Однако занятие это не только трудоёмкое, но и дорогостоящее. Цена специального сканера, который может работать с объектами крупного формата, достигает 40 млн рублей. Не всякий музей может позволить себе такое оборудование, поэтому многие культурные объекты все еще не имеют цифровых копий.

Разработать технологию, которая станет альтернативой дорогому музейному сканеру, — такую задачу взяла на себя команда студентов ПАНДАНа. Группа анализировала и переосмысляла процесс сканирования плакатов, афиш и больших фотоснимков для архива музея современного искусства «Гараж».
Руководитель междисциплинарного направления в Яндекс Образовании, один из основателей ПАНДАНа и наставник проектов Иван Бибилов отмечает:
ПАНДАН сочетает в себе две стороны: техническую и предметную. Этот дуализм прослеживается и в том, как устроена работа над проектом. Чаще всего в команде два куратора: один отвечает за предмет исследования (он может быть, например, музейным работником, историком), а другой — за технический инструментарий. Это даёт свободу в работе над любым исследованием, когда есть понимание проблем и задач, а также технические компетенции, чтобы их решать.
Студенты изучили инструменты, которые используют сотрудники «Гаража» и других музеев при оцифровке, и предложили заменить спецсканер на камеру смартфона с высоким разрешением. Для съёмки экспоната нужен только мобильный и подставка, по которой он перемещается вдоль объекта и записывает его на видео. Далее студенты работали над тем, как с помощью нейросетей соединить множество кадров из видео в одно высококачественное изображение артефакта. В итоге команда собрала тестовую модель портативного сканера, способного в некоторых случаях в будущем заменить громоздкие конструкции. Подробностями эксперимента студенты поделились на своей странице.
Одна из участниц проектной команды Мария Мальцева по образованию экономист и социолог. При поступлении на ПАНДАН она уже была знакома с аналитикой и программированием, но впервые применила их для решения реального кейса.
Когда я шла на ПАНДАН, у меня был чисто исследовательский интерес: как можно использовать анализ данных не для числовых операций, а для работы с текстом или изображением? В команде я занималась кодом, который собирает скан плаката или рисунка. Также мы пробовали распознавать текст на сканах. Вообще эти задания очень нетривиальные, готовых решений не было: нужно было хорошо подумать и дойти до ответа самостоятельно. Справляться с трудностями очень помогали одногруппники, с некоторыми мы до сих пор общаемся.

Екатерина Юшкевич пришла на ПАНДАН с инженерным образованием. По её словам, прежние знания придавали ей уверенности во время проекта, а вот навыки разработки она осваивала в процессе.
Одна из сильных сторон ПАНДАНа — преподаватели. Это практики с большим опытом, поэтому на занятиях мы изучали не только теорию, но и способы применить разные инструменты к нестандартным задачам в гуманитарных исследованиях. Раньше я с сомнением относилась к новым технологиям, но сейчас вижу, что они могут освободить огромное количество времени от рутинных и однообразных задач, позволяя человеку сосредоточиться на науке, исследованиях и творчестве.

Вот как оценила метод, который предложила команда ПАНДАНа, старшая хранительница архива Музея «Гараж» Анжела Гурциева:
В Музее «Гараж» хранится большое количество материалов необычных форматов, например, семиметровые чертежи люстр, книжные лепорелло (книги в виде гармошек) и авторские зины. Для такой специфической архивной ниши привычных методов сканирования уже недостаточно. Технология с применением компьютерного зрения, которую разработали студенты ПАНДАНа, не только упрощает процесс цифровизации и публикации артефактов недавнего прошлого, но и создаёт важный технологический прецедент для культурной индустрии.
Накопленные знания и интерес к проекту после окончания программы замотивировали Екатерину Юшкевич продолжить работу с компьютерным зрением и стать для новых студентов ПАНДАНа куратором.
Система рекомендаций для воспоминаний
Студенты создали прототип рекомендательной системы дневниковых записей для проекта «Прожито»

Не только музейные шедевры, но и воспоминания людей нуждаются в бережном хранении. Какой была бы история Великой Отечественной или ленинградской блокады без рассказов очевидцев? Дневниковые записи создают живой и глубокий контекст событий, превращают сухие факты в эмоциональные истории.
Оцифровкой и распознаванием дневников занимается проект «Прожито», в корпусе которого собраны документы порядка 10 000 авторов. Это источник уникальной информации для исследователей: историков, филологов, культурологов. Обычному пользователю разобраться в архивных записях непросто — нужно понимать, как устроен корпус. Поэтому в «Прожито» решили создать рекомендательную систему, которая показывала бы другие интересные записи и побуждала погрузиться в архив. Прототипом такой системы предложили заняться студентам ПАНДАНа.
В «Прожито» на момент создания прототипа ещё не собирали статистику, что и в каком порядке читают пользователи. Проектная группа решила, что модель будет рекомендовать читателю записи, максимально похожие на те, которые он сейчас просматривает. А вот критерии «похожести» пришлось формулировать с нуля и потом по ним размечать тексты архива. Конечно, привлекая различные методы анализа данных.
О процессе и сложностях рассказал один из участников, студент совместной программы Яндекса и Европейского университета ПАНДАН Александр Севостьянов:
Компьютер не может просто взять два текста и сказать, похожи они или нет. Человек — может, а компьютеру нужны указания, что смотреть, что сравнивать. Еще надо понимать, что с дневниками не все так просто: могут попадаться более поздние пометки, комментарии родственников, даты могут быть неточными. Нам приходилось вводить дополнительные циклы обработки текстов, чтобы результаты в выдаче были такими, как надо.

Александр по образованию психолог и социолог. Он пришел на ПАНДАН за практическими навыками, которые потом сможет использовать в своей области.
Это не теоретическая математика, а что-то применимое к реальной задаче, при этом в академическом ключе. Еще меня привлёк преподавательский состав программы. Кого-то я знал уже заранее: был подписан на их телеграм-каналы или ходил на лекции. Это известные в своей среде специалисты, в том числе из Яндекса. Я был уверен, что учеба у них и правда принесет много пользы.
Всего студенты проанализировали и разметили более 120 тысяч записей, задействуя методы машинного обучения и нейросети. Созданная модель рекомендует пользователю воспоминания одного или разных авторов, похожие на те, что он уже читает. Записи можно изучать последовательно, как своего рода метавоспоминание, фильтровать по тегам или переходить к конкретным дневникам в архиве. Подробно о проекте и методах студенты рассказали на сайте «Возможно, вам это понравится».

Александр также рассказал, что в проекте они старались использовать продуктовый подход, традиционный для разработчиков, но не настолько популярный вне IT-среды:
Мы работали в чём-то похожем на спринты. Я бы не назвал это прямо Agile, но было похоже на полноценный аналитический проект, каким он должен быть в реальности. Мы встречались раз в неделю, проверяли наши статусы, оценивали результаты и распределяли новые задачи.
Вот что руководитель междисциплинарного направления в Яндекс Образовании Иван Бибилов рассказал о проектной работе команд:
На ПАНДАНе мы избегаем формализма в проектной работе и прививаем студентам взрослый, разумный подход к менеджменту и самостоятельность решений. У некоторых команд приживается модель спринтов, в каких-то группах возглавить разработку решения может не только куратор проекта со стороны ПАНДАНа, но и кто-то из учащихся. В результате какие-то команды выходят в своих исследованиях за пределы задач, поставленных на период обучения.
Разработанный студентами ПАНДАНа прототип — первый шаг к полноценной рекомендательной системе. «Прожито» планирует в будущем масштабировать его на все записи корпуса и добавить рекомендации на базе пользовательских запросов.
Дата-раскопки Рунета нулевых
Студенты исследовали исчезающие сайты платформы narod.ru и создали интерактивный дашборд с результатами

Интернет помнит всё? На самом деле нет. Старые сайты всё сложнее обнаружить в сети: какие-то перестают открываться или загружаются частично, какие-то меняют адрес и название. Память о том, как развивался интернет, понемногу растворяется. Среди таких исчезающих феноменов — популярная в начале нулевых платформа narod.ru, где пользователи создавали собственные сайты, используя возможности дизайна и графики тогдашнего Интернета по максимуму.
Группа студентов программы Яндекса и Европейского университета решила возродить эту энциклопедию народного интернет-творчества. Для команды narod.ru стал настоящим открытием. Михаил Котов, студент ПАНДАНа, рассказывает:
Когда интернет только стал доступен, никто не понимал, что с ним делать. На narod.ru все развлекались, как могли, это было огромное пространство для творчества и самовыражения: рассказывали личные истории, делились какими-то совершенно сумасшедшими гифками и картинками. Там даже были сайты госучреждений. Сейчас всё это выглядит настоящим китчем и очень впечатляет. К сожалению, отдельные сайты платформы потихоньку умирают, и наша задача не только спасти их, но и исследовать и рассказать, каким был интернет у самых своих истоков.

За время исследования студенты работали с более 1 млн доменов narod.ru. Сначала пришлось собрать для утраченных сайтов работающие веб-адреса, чтобы получить доступ к их контенту. Затем главные страницы доменов разметили по разным параметрам — языкам, количеству изображений, структуре и содержанию. Не забыли и такой характерный для интернета нулевых признак, как наличие ненормативной лексики. Результаты визуализировали на дашборде — интерактивном интерфейсе со статистикой.
Михаил занимался технической стороной проекта. На ПАНДАН он пришёл с образованием системного аналитика и с запросом на апгрейд минимальных навыков программирования – чтобы использовать их в прикладных задачах. Уже здесь он научился работать с разными форматами данных и библиотеками Python.
Я уверен, что человек без технического бэкграунда способен освоить эти навыки — это показал наш проект и его результаты. Мне очень нравилось, что преподаватели сразу взяли курс на обучение практическим навыкам. Не было такого, что сначала было много скучной теории и только в конце — практика. Сформировался здоровый баланс, а задачи требовали комплексного подхода.

Только за 10 месяцев (ДПО и первый год магистратуры) студенты изучают порядка 14 курсов, и все они прочно связаны между собой. Учёба требует много усилий и времени, но оно того стоит. Мы не пытаемся сделать из студентов без глубоких технических навыков профессиональных программистов, но даём уверенную и, главное, актуальную базу в анализе данных. Эти знания помогают студентам успешно развиваться в собственных проектах и выводить исследования на новый уровень,
— добавляет куратор проекта Иван Бибилов.
Готов прототип интерфейса, и в будущем команда планирует расширять наборы данных и углублять уровни разметки. С его помощью можно искать страницы, фильтровать их по времени активности и дате создания, а также разным параметрам контента. Пока открытого доступа к дашборду нет, можно запросить его у авторов.
Исследование narod.ru — не только про сохранение целого пласта веб-культуры, но ещё и уникальный источник информации для искусствоведов, социологов и историков об интернете как части повседневности.
В рамках программы ПАНДАН Яндекс Образование предлагает новый взгляд на обучение — то, что называют междисциплинарным подходом, когда границы между областями знаний размываются, и на стыке рождается комплексное образование для специалистов нового уровня.
В 2025 году программа ПАНДАН обновилась — в нее добавились новые курсы по искусственному интеллекту. Теперь студенты ПАНДАНа будут изучать не только инструменты анализа данных для применения их в социогуманитарных областях, но и машинное обучение, нейронные сети, базы данных, SQL, безопасность искусственного интеллекта и другие актуальные сегодня предметы. Подробнее о программе, формах и времени обучения можно почитать по ссылке.
Реклама. ООО «Яндекс» , ИНН 7736207543. ERID: 2SDnjc3JTCx