Диагноз по юзерпику: как социальные сети помогают медицине
Посты, твиты, лайки и фотографии — это гигабайты данных о нас. Анализируя соцсети, врачи могут оценить наше физическое и психическое здоровье. Как предсказать вспышку гриппа по твитам? Можно ли выявить депрессию в инстаграме? Как улучшить лекарства с помощью нейросетевого поиска?
Всё, что скрыто: диагностика депрессии по фото
Говоря об инстаграме, мы сразу вспоминаем его бесчисленные фильтры. Приложения для обработки снимков могут добавить немного солнечных лучей даже в самый унылый день — хотя бы на фото. Аналитики говорят, что тщательная обработка фотографий выходит из моды, но волна популярности хештега #nofilter приводит лишь к появлению новых «натуральных» фильтров. Обработка фото останется с нами надолго — а значит, ее можно использовать не только для красоты.
В середине 2010-х инстаграм завладел вниманием медиков. Гарвардский психолог Эндрю Рис и IT-специалист Кристофер Данфорт разработали алгоритм, который делает выводы о состоянии психического здоровья пользователей на основе того, как они обрабатывают свои фото.
Рис и Данфорт использовали данные более ранних психологических исследований:
люди без ментальных расстройств в среднем предпочитают более яркие цвета, а приглушенные темные оттенки ассоциируют с плохим настроением. В то же время люди с диагнозом «депрессия» склонны выбирать более темные и серые оттенки.
Иногда они сообщают, что во время депрессивного эпизода весь мир для них как будто выцветает, всё видится серым.
Ученые исследовали профили 166 добровольцев, из которых у 71 человека за последние три года диагностировали депрессию (степень тяжести состояния проверили дополнительно с помощью психиатрического опросника CES-D). Всего Рис и Данфорт изучили почти 44 тысячи фото. Алгоритм учитывал тон снимка, степень его яркости и насыщенности. Кроме того, ученые проанализировали, насколько часто участники эксперимента размещали посты в инстаграме и сколько лиц в среднем попадало на фотографию.
Выяснилось, что люди, имевшие опыт депрессии, действительно выкладывали менее яркие и насыщенные снимки, а их тон смещался ближе к синей части спектра. Такие участники реже пользовались фильтрами, а если прибегали к ним, то выбирали черно-белые Inkwell и Willow. Также волонтеры с депрессией чаще размещали фото с людьми, но лиц на них было в среднем меньше. Ученые выдвинули «гипотезу грустного селфи»: возможно, обилие фотографий себя помогает уменьшить остроту симптомов депрессии. Впрочем, это предположение еще предстоит проверить.
Инстаграмеры без депрессивных расстройств обычно использовали фильтр Valencia — он придает фотографии теплый желтоватый оттенок.
Программа Данфорта и Риса верно «диагностировала» депрессию в 70 % случаев — и в этом преуспела больше, чем многие врачи общей практики (согласно метаанализу 2009 года, психиатры безошибочно определяют расстройство примерно в половине случаев). Но, конечно, алгоритм не заменит психиатра, ведь депрессия — это сложный индивидуальный комплекс симптомов. К тому же часто ее сопровождают и другие расстройства — разобраться в сложных механизмах человеческой психики машинам пока не под силу. Программы такого рода могут лишь помочь быстрее заметить тревожные звоночки и обратиться к специалисту-человеку — и это, если подумать, не так уж мало.
Пора притормозить: соцсети предупредят о зависимости
Профиль в социальных сетях может отразить то, в чем человек не готов признаться даже самому себе, например постепенно возникающую зависимость от алкоголя. В 2018 году методику, помогающую заметить подозрительные признаки заранее, предложили ученые из Дартмутского колледжа.
В исследовании поучаствовали 2287 пользователей инстаграма. Они предоставили ученым данные своих профилей и заполнили одну из версий опросника ASSIST, указав, как часто они выпивают, курят или употребляют наркотики. Фотографии анализировала сверточная нейронная сеть, а подписи и комментарии к ним изучили методом долгой краткосрочной памяти (LSTM). Это один из типов рекуррентных нейросетей (РНС), которые при обучении используют не только информацию, поступающую извне, но и собственную внутреннюю память. Они умеют обрабатывать массивы данных, для которых важен и характер каждого отдельного элемента (например, слова), и порядок, в котором эти элементы следуют друг за другом.
На 80 % постов ученые тренировали нейросети: алгоритмы учились искать комбинации черт, характерных для пользователей, часто употребляющих алкоголь, наркотики или табак. Еще 10 % фото использовали для проверки. «Скормив» нейросетям оставшиеся 10 % снимков, исследователи выяснили:
машина хорошо выявляет тех, кто злоупотребляет алкоголем, но не курит и не употребляет наркотики.
Авторы метода считают, что причиной этого может быть самоцензура пользователей: возможно, окружающие обычно осуждают пьющих знакомых не так сильно, как потребителей наркотиков и табака, поэтому люди не выкладывают фото, связанные с более порицаемыми привычками.
Еще один способ узнать, не нависла ли над вами угроза алкоголизма, предлагают ученые из Университета Мэриленда. Они проанализировали 21 миллион постов в фейсбуке и данные о лайках 250 тысяч пользователей этой сети. Эту информацию сопоставили с опросом о зависимостях, в котором поучаствовали около 13,5 тысячи респондентов. Алгоритм выявил множество корреляций, от вполне ожидаемых до весьма необычных. Например, выяснилось, что потребители алкоголя чаще используют в постах слова, описывающие ночную жизнь (бар, клуб, вечеринка, диджей), активно лайкают фильм «Лабиринт Фавна» и относительно равнодушны к «Голодным играм». Курящие, как оказалось, нередко слушают Tool и The Misfits, но обычно не любят Кэти Перри. Конечно, метод рассматривает комбинации таких связей, а не отдельные корреляции — сама по себе любовь к «Лабиринту Фавна» еще никому не навредила.
Авторы обеих методик предупреждают: их исследования только начинаются и пройдет еще немало времени до того, как каждый сможет проверить свой аккаунт на предмет подозрительных совпадений. Не стоит забывать и о том, что, как и в случае с выявлением депрессии, эти методы не ставят диагноз, а лишь предупреждают о возможной склонности к зависимости.
На что жалуемся: нейросеть в поисках побочных эффектов
Еще одна сфера, заинтересованная в данных из соцсетей, — фармацевтика. В социальных медиа можно найти множество отзывов о лекарствах, причем авторы зачастую пишут их совершенно бесплатно, просто чтобы поделиться своим опытом, предостеречь других или, напротив, похвалить эффективное средство. Новые методики анализа таких отзывов помогают найти как можно больше возможных побочных эффектов лекарства. Эти данные пригодятся при разработке и клинических исследованиях новых препаратов.
Найти и отсортировать отзывы обычно помогают нейросети. Перед ними стоит непростая задача: перевести сообщения с живого («естественного») языка — с его ошибками, жаргонизмами и неожиданными сравнениями — на универсальный язык машин. Этот процесс называют нормализацией медицинских концептов. Здесь снова приходят на помощь уже упомянутые рекуррентные нейросети с их способностью использовать собственную внутреннюю память. При обучении каждый искусственный нейрон такой сети получает и новую информацию, и часть данных о том, что сеть уже успела усвоить.
В 2018 году метод на основе РНС представили российские ученые. Их нейросеть, как и другие подобные, читает текст в нескольких направлениях, выявляя его структуру и другие характеристики. Одновременно термины из текста автоматически сопоставляются с крупной базой знаний UMLS (Unified Medical Language System), которая «синхронизирует» принятые в разных традициях названия медицинских проблем и концептов, присваивая им определенные коды. Сопоставляя слои информации, сеть ищет наиболее вероятный вариант перевода с человеческого языка на формальный медицинский. Так ей удается узнать, что «не мог уснуть всю ночь» значит «бессонница». Способности алгоритма проверили на корпусе CADEC — это размеченная коллекция отзывов на лекарства с англоязычного сайта Ask a Patient. Пока методика работает только с текстами на английском, но ученые обещают, что со временем она начнет понимать и русскоязычные сообщения.
До применения таких алгоритмов на практике еще далеко, разработчикам придется решить немало задач. Например, нужно научить нейросети «переваривать» отзывы с большим количеством ошибок. Еще одна проблема — склонность пользователей описывать явления не терминами-существительными, а другими частями речи, а то и развернутыми оборотами. Говоря о боли, пациент-англичанин не обязательно использует слово pain: он может выразить свои ощущения иначе, например словами killing, hurting или aching. Непросто работать и со сравнениями, скажем, разобраться, что «как ножом режет» — это тоже о боли.
Что-то страшное грядет: прогнозирование вспышек болезней
«Узнайте, что происходит в мире прямо сейчас» — так встречает пользователя главная страница твиттера. Наука предлагает пойти дальше и с помощью твитов узнать, что может произойти в обозримом будущем. Скажем, отыскивая и анализируя ключевые слова, можно спрогнозировать возможные вспышки многих заболеваний.
Итальянские и американские ученые утверждают: твиттер отлично подходит для «предсказания» деталей эпидемии гриппа.
Их алгоритм учитывает, как ключевые термины, связанные с гриппом и похожими заболеваниями («кашель», «градусник», «воспаленный»), распределяются по карте — здесь помогают данные о геолокации твитов. На эту карту накладывают сведения о том, сколько жителей этой территории получили вакцину от гриппа и какие штаммы вируса распространены в регионе. Затем подключаются данные общих исследований, например сведения о том, сколько длится инкубационный период болезни и сколько людей может заразить заболевший. В 2017 году эта модель могла относительно надежно предсказать характер эпидемии на шесть недель вперед.
Похожую методику разработали в Калифорнийском университете в Лос-Анджелесе, чтобы спрогнозировать будущие вспышки заражения сифилисом. Для поиска по твиттеру ученые построили карту постов с ключевыми словами и наложили на нее данные об уже выявленных случаях заболевания на каждой территории. Чтобы сделать прогноз точнее, в список ключевых понятий добавили не только описания симптомов болезни, но и множество просторечных слов, так или иначе связанных с сексом.
Авторы этих разработок считают, что хотя их технологии и не заменят полноценную диагностику, но помогут врачам прогнозировать нагрузку больниц во время грядущей эпидемии.
Поговорить об этом: онлайн-общение и ментальные расстройства
Помочь сохранить здоровье могут не только сложные манипуляции с большими данными социальных сетей, но и само общение на этих платформах. К такому выводу приходят многие ученые, в том числе Альберт Парк и Майк Конуэй из Университета Юты, изучающие работу специальных онлайн-сообществ для людей с ментальными расстройствами. Они уже несколько лет анализируют массивы текстов, написанных пользователями Reddit, крупнейшего социального новостного портала.
Чаще всего Парк и Конуэй работают с подразделом сайта (сабреддитом) о депрессии — r/depression (сейчас у него более 480 тысяч подписчиков). Они сравнивают этот раздел с другими: например, в 2017 году статистику r/depression сопоставили с текстами из сабреддита r/happy (кстати, подписчиков у него намного меньше, всего 340 тысяч). Еще одним источником данных стали подразделы r/diabetes и r/ibs, посвященные, соответственно, диабету и синдрому раздраженного кишечника. Так ученые протестировали, насколько сообщества для поддержки при ментальных расстройствах отличаются от тех, что посвящены иным проблемам со здоровьем.
Исследователи изучили около 850 тысяч небольших текстов (постов и комментариев) с реддита с помощью программы Linguistic Inquiry and Word Count (LIWC). Она сопоставляет каждое прочитанное слово с крупным словарем и присваивает ему определенную «эмоциональную категорию» — например, слово «плакать» она помещает в категории «негативные эмоции» и «печаль». Еще LIWC распознает лингвистические категории, в том числе ругательства и слова отрицания («нет», «никогда») или согласия («да», «ок»). Используя информацию о дате и времени публикаций, ученые проследили, как постепенно менялась речь участников сообществ.
Оказалось, что со временем подписчики r/depression использовали всё меньше слов из категорий вроде «печаль», «тревога», «гнев», «негативные эмоции». Их речь теряла негативные тона куда быстрее, чем у подписчиков r/happy (впрочем, от ругательств они не отказались). А вот разницы с теми, кто писал о диабете и проблемах с кишечником, ученые почти не нашли. Парк и Конуэй сделали вывод, что сообщества онлайн-поддержки могут облегчить психологическое состояние человека и при психических, и при соматических расстройствах.
Похожее исследование ученые из Юты опубликовали в 2018 году: тогда они изучили сабреддиты о депрессии, шизофрении и биполярном расстройстве. Выяснилось, что все эти онлайн-сообщества поддержки облегчают состояние своих участников — их письменная речь постепенно становилась куда более внятной.