Увидеть лес за деревьями. Почему люди умеют образно мыслить, а компьютеры — нет?
Что такое образное мышление, интуиция и можно ли их алгоритмизировать? Уместна ли прямая аналогия между мозгом и нейросетью? Почему искусственному интеллекту еще очень далеко до самой простой нервной системы и можно ли преодолеть этот разрыв простым наращиванием вычислительных мощностей? Все эти вопросы на сегодняшний день не имеют однозначных ответов, а сама проблема находится на стыке когнитивистики, нейробиологии и философии.
Вы приступили к чтению статьи. Это не тот процесс, который принято считать слишком трудоемким, но только задумайтесь: ваш мозг умудряется в нехитром деле дешифровки символов и текста использовать крайне сложные механизмы, недоступные самой мощной современной вычислительной технике, тратя минимальное количество энергии. Наш собственный «углеродный компьютер» потребляет всего лишь 20 Вт, в то время как китайская супермашина Tianhe-2, самая быстрая на момент написания статьи, — ни много ни мало 17 600 000 Вт (17,6 МВт). Цифры, конечно, впечатляют, но можно ли в принципе сравнивать эти процессы. Схожи ли они по своей природе? Почему то, что легко дается мозгу (например, распознавание образов), сложно для компьютера и наоборот?
Вернемся к заголовку. Из набора букв (деревьев, придерживаясь нашей метафоры) без труда и временной заминки был извлечен смысл фразы целиком — лес. Если же учесть культурный контекст (знание поговорок), то можно заключить, что достаточно быстро зрительный стимул в виде световых волн разной длины для нашего мозга превратился в целый лесопарк.
Чтение и понимание текста с нейрофизиологической точки зрения — процесс нетривиальный. Начнем с распознавания отдельных знаков: буквы понятны, даже если они написаны в готическом стиле. При нагромождении на знакомый графический каркас ненужных завитушек большой путаницы не происходит, а огромное количество способов начертания размывает границы каноничности самого контура, который воспринимается в том числе благодаря контексту и ожиданиям. Почерк врача, эволюционировавший от каллиграфии до абстракционизма, будет понятен его коллегам.
Мозг не тратит времени на последовательный анализ близлежащих букв, слов, предложений, да и ситуации в целом. Все это происходит одномоментно, вовлекая память, языковую компетенцию, ассоциативные зоны коры, и называется в нейропсихологии термином «гнозис» (от греч. γνώσις — «знание»).
А расстройства узнавания без нарушений на уровне органов чувств именуются «агнозиями», о них пойдет речь ниже.
Поговорим немного о нейроанатомии. Наши ощущения и движения, вместе составляющие основу психоневрологической организации, имеют сложное иерархическое строение не только внутри центральной нервной системы, то есть головного и спинного мозга, но и на последнем, корковом уровне. Кору полушарий разделяют на передние и задние отделы. Первые (лобные) ответственны за составление программы поведения, отдельные действия и двигательные акты, а вторые можно назвать агентами восприятия и гнозиса. Попробуем разобраться, как выглядит карта этого «агентства».
Известно, что информацию об окружающем мире мы получаем от пяти органов чувств: зрения, слуха, осязания, обоняния, вкуса, — а структуры, обеспечивающие ее проведение от каждого из них, называются «анализаторами». Их тоже пять. Сигналы от них, за исключением обонятельных (это чувство стоит несколько особняком и имеет прямые связи с самыми древними отделами нашего мозга), направляются к скоплениям клеток-переключателей в промежуточном мозге (я́дра таламуса либо коленчатых тел) и только потом — в кору. Здесь и возникает образ, то есть происходит собственно осознание.
Участок коры головного мозга не локальный пункт назначения для сигнала от органа чувств, а система связанных друг с другом зон и проекций. Для каждого из анализаторов выделяют первичную, вторичную и третичную кору.
На первичную, как прожектором на экран, высвечивается что-то из нижележащего ядра с повторением его организации. Например, в нем есть клетки, которые получили информацию о прикосновении к правой кисти, а рядом с ними — те, что реагируют на прикосновение к правому предплечью. В первичной коре аналогичные «датчики» также соседствуют (и в тех же пропорциях). Эта структура отвечает за отдельные простые ощущения: гладкая поверхность, круглые очертания, красный цвет, слева движется что-то неправильной формы, а справа раздался прерывистый громкий и высокочастотный звук… Картина мира здесь отсутствует — окружающая вселенная представляется хаосом из ни во что не объединенных элементарных ощущений.
Для складывания этих простых деталей и формирования более сложного восприятия служат вторичные поля коры, которые примыкают к первичным и, в отличие от них, не разделены на зоны тела и не имеют четких границ. Они обобщают: красное и круглое стало помидором, а прерывистое звучание — назойливым писком микроволновки.
Но эти образы еще нельзя назвать узнаванием в истинном смысле слова. Окончательная интеграция ощущений, непосредственно гнозис, формирование представлений о пространстве, времени, самых разных контекстах и месте объекта в них — функция третичной коры, которая для задних отделов мозга располагается главным образом в области стыка теменной, височной и затылочной долей полушарий. Сформированные образы соотносятся с уже имеющимися сведениями о мире, ожиданиями, языковой компетенцией. Помещая поступившие сигналы в оправу из памяти, прогнозов, знаний, мы получаем целостную картину, или гештальт. Активное достраивание играет здесь главную роль. Да-да, мы предвзяты на нейрофизиологическом уровне. Существует даже так называемая гипотеза когорты, согласно которой набор стимулов анализируется настолько глубоко и полно, насколько это необходимо, чтобы активировать ожидаемую информацию, и не более того.
Мозг в чем-то ведет себя как та самая бабушка: увидев девушку в короткой юбке и парня с татуировкой, она автоматически заносит их в категорию «наркоманов и проституток».
Однако как быть с тем, что гештальт, построенный мозгом, иногда получается принципиально разным при похожих физических характеристиках входных данных? Почему один набор звуков — музыка, а другой — какофония, хотя по волново-частотным характеристикам они очень близки? Чем это определяется на физиологическом уровне? А ведь есть такие поражения головного мозга, при которых пропадает музыкальный слух в гностическом смысле слова: для такого бедолаги мелодия превращается в набор шумов, порой крайне неприятных, и это при том, что сама способность воспринимать звуки не утрачена! Как мозг, получая электрические сигналы от клеток, просто улавливающих акустические колебания, способен быстро отличить неречевой шум от речевого, несущего информацию в символьной форме? Почему вкус пирожных мадлен мог вызвать всю гамму забытых детских ощущений у главного героя цикла романов М. Пруста «В поисках утраченного времени»? Казалось бы, молекулы десерта просто простимулировали вкусовые и обонятельные рецепторы, но в мозге очень масштабно, во всей его полноте, воспроизвелся давно забытый паттерн, рисунок из огонечков миллионов возбудившихся нейронов, который именно в такой конфигурации горел когда-то и теперь вернул сладкий аромат детства.
Четко отграниченного участка, ответственного за возникновение гештальта, в головном мозге нет. Подход, подразумевающий наличие подобных зон, называется «локализационистским», и он становится все менее популярным. Ему противостоит холистическая теория, согласно которой высшие функции распределены по всему мозгу, но и она также уходит в прошлое. Современная наука пытается «примирить» эти точки зрения.
Сегодня в нейробиологии господствует «компромиссный» взгляд на образное мышление: разбросанные по всему мозгу, но «держащиеся за ручки» клеточные ансамбли могут организовываться в конгломераты для формирования когнитивных единиц, например слов или гештальтов иного рода.
Скажем, образ лимона — это и внешний вид (вторичная зрительная кора), и вкус (с его корковой территорией), и осязание, а также слово, то есть звучание, способ произнесения, контексты употребления, воспоминания о том, как мама в детстве делала лимонад… «Подразделения», нейроны которых должны быть вовлечены в формирование такого обыденного образа, можно перечислять бесконечно.
Выражаясь научным языком, ансамбль из нейронов образует динамичный паттерн активности нейросети. Почему динамичный? Потому, что он не сформирован раз и навсегда, меняется по мере приобретения опыта, некоторые связи ослабевают, другие укрепляются, и, конечно же, появляются новые. Воспроизводимость этого паттерна, то есть способность всех, а точнее говоря, большинства членов ансамбля активизироваться лежит в основе памяти. Соответственно, динамичность, о которой мы сказали, выступает необходимым условием обучения в широком смысле этого слова, обучения как адаптации.
Когда-то был возбужден ансамбль из определенного набора нейронов, их связи от такой совместной деятельности укрепились, и немного повысилась вероятность, что при последующем возбуждении одного активизируется определенный процент других членов этой группы, получив от него электрическую поддержку. Чем больше было совместных загораний, тем, согласно правилу Хебба, крепче данный гештальт («cells that fire together, wire together»). Проблема в том, что один нейрон может входить в мириады ансамблей, которые к тому же сменяют друг друга в мозге каждую долю секунды. Их точное повторение крайне маловероятно, поэтому объем всего жизненного опыта статистически определяет наше восприятие и понимание мира.
Посмотрите на лица своих близких. Что требуется для того, чтобы ни с кем их не спутать? Вопрос, на первый взгляд, странный. Вот мама моя, я ее узнаю, даже если она сменит цвет волос, прическу, похудеет или поправится, полностью обновит гардероб, разрисует лицо на Хэллоуин, в конце концов. Скорее всего, вас это не слишком удивляет, но поверьте: с точки зрения информационных систем описанная ситуация очень даже небанальна. Допустим, у вашего приятеля нет бросающихся в глаза особенностей лица, таких как безобразный шрам, заячья губа или усы в стиле Сальвадора Дали, нет ничего такого, что заставляло бы мозг мгновенно и безошибочно помещать увиденное в папку «Петя Бубликов». Как алгоритмизировать моментальное узнавание человека, если рассматривать мозг как большой компьютер?
Проблема агнозий великолепно раскрыта в произведении известного невролога и популяризатора медицины Оливера Сакса «Человек, который принял жену за шляпу». У главного героя, талантливого музыканта, профессора, по наблюдениям его близких, начались «проблемы со зрением». В действительности глазных болезней у профессора не оказалось, а совершенно фантастические неузнавания обычных, повседневных предметов и лиц близких людей были следствием зрительной агнозии.
К слову, подобные изолированные нарушения встречаются в практике невролога совсем не часто и уж точно не так ярко выражены. Обычно эти расстройства мешают узнавать «зашумленные», многократно перечеркнутые изображения в специальных тестах, но жену за предмет гардероба никто не принимает. Кроме того, патологический процесс в головном мозге, как правило, не столь избирателен, и разрушительное действие распространяется на самые разные высшие психические функции, поэтому агнозии у пациента перемешаны со многими другими расстройствами, и отделить одно от другого становится непосильной задачей.
Так что случай профессора завораживает, а его поведение при высоком уровне интеллекта и культуры вызывает искреннее недоумение. Он внимательно разглядывает перчатку и предпринимает робкую попытку дефинировать этот предмет гардероба как «свернутую на себя поверхность с пятью карманами». Да, узнать ее по такому описанию трудно, но, к сожалению, профессор располагает только зрительными абстракциями. Он принимает свою ногу за ботинок — по-видимому, обращая внимание на очертания и логически додумывая остальное, не узнаёт собственное лицо и брата на фотографии, зато с изображением Эйнштейна проблем не возникло, потому что озорной снимок с высунутым языком стал практически мемом. Наконец, он принял жену за шляпу, и этим список чудачеств героя не ограничивается.
Книга Сакса может показаться жуткой или, наоборот, забавной, но чрезвычайно интересным остается вопрос, что же все-таки представляет собой мир профессора? Как он выглядит? И удачно ли вообще в этом контексте слово «выглядеть»? Дело в том, что визуальное пространство героя, развалившееся на отдельные фрагменты, которые перестали объединяться в имеющие смысл образы и превратились в скопление абстракций, было пропитано музыкой.
У профессора из книги Сакса имелась специальная мелодия для одевания, для приема пищи, для всех других повседневных задач, выполнение которых при его недуге было бы немыслимо. Музыка, как клей, заполнила рассыпавшуюся на простые элементы визуальную картину.
Герой словно жил в мире, нарисованном Пикассо, где среди ломаных линий, фигур и пятен цвета нет возможности уловить суть происходящего и взаимодействовать с этими абстракциями.
Описанная проблема содержит в себе куда более глубокие пласты, чем «банальные» сложности с распознаванием и образованием «картинки». Она напрямую связана с такими вопросами, как феномен субъективной реальности, возникающей из набора различных сигналов, переживание опыта и память как возможность его частичного или полного воспроизведения. Каково назначение таких когнитивных конструктов, выходящих далеко за рамки необходимого «воспринимай и реагируй»? В чем эволюционный смысл нашей психической жизни, если как поведенческая реакция она избыточна, поскольку не обеспечивает нам выживание? И насколько корректно в свете всего сказанного сравнение мозга с компьютером?
Как мы уже сказали, есть вещи, которые даются мозгу легко, а машине с огромным трудом: моментальная обработка образов, гештальтное восприятие, быстрые рассуждения по типу «смекалки» и многое другое, требующее больше банального бытового наития, нежели строгих логических построений.
Ментальные возможности четырехлетнего ребенка, которые мы воспринимаем как должное, — узнавание лица или ответ на вопрос — в действительности являются сложнейшими инженерными задачами. Юноша собирает автомат Калашникова намного быстрее, чем любая робототехника.
Сама идея искусственного интеллекта основана на предположении, что наши когнитивные процессы (а некоторые исследователи расширяют этот диапазон до всех психических реакций) трактуются как вычисления. Но речь идет не об арифметике, а о формальных операциях — обо всем, что в принципе можно запрограммировать. Сегодня стало понятно, что это не совсем так, и исследователи ИИ вынуждены пересматривать компьютерную парадигму. Мозговые мыслительные архитектуры не имеют практически ничего общего с электронно-вычислительными, считают современные ученые-когнитивисты, такие как Т. В. Черниговская и К. В. Анохин. Язык информатики удобен в качестве метафоры, когда мы говорим об обработке данных, о хранении, доступе, считывании и т. д. Но сам принцип, положенный в основу компьютерных алгоритмов, совершенно иной. Первичная сигнальная система для мозга, с которой начинается познавательная деятельность, — образная; символьной же он должен учиться, и для этого ему необходима социальная среда. Образы у нас в голове обрабатываются быстро, как — пока неясно; компьютеру «при прочих равных» требуется на это больше времени, но он успевает их проанализировать примерно с той же скоростью, что и мозг, только потому, что его процессор в миллион раз мощнее.
Крупнейшие ученые сходятся во мнении, что не всё в мозге — вычисления. Они считают, что феномены «понимания» и «осознания» невозможно свести ни к вычислениям, ни к классической аристотелевской логике.
Всё чаще ведутся разговоры о том, что нужна новая теория. Например, предпринимаются попытки объяснить сознание квантовыми аномалиями, и даже предлагается перейти к квантовой когнитивной науке, которая помогла бы преодолеть проблему сведения малопонятных феноменов сознания к физиологическим процессам.
Квалиа (qualia), латинский термин для обозначения субъективного опыта во всем его многообразии, — это не копии и даже не сумма физических сигналов, поступающих по каналам наших анализаторов. Мозг строит ее самостоятельно, формируя уникальные для каждого индивида субъективные образы. Два глобальных вопроса сегодняшней нейронауки: «Как возникает квалиа?» и «Для чего она нужна?» — пока остаются без ответа. Объективные исследования в этом случае крайне затруднены, мы можем только судить о квалиа другого, и то лишь через преломляющую среду нашей собственной.
Известный нейробиолог Джозеф Боген, пытаясь дать определение сознанию, подобрал удачную аналогию. По словам ученого, оно «подобно ветру: увидеть и поймать его нельзя, но очевидны результаты его деятельности — гнущиеся деревья, волны или даже цунами».
Подведем итог. Мы — счастливые обладатели непонятно зачем нужного нам, но столь высоко оцененного и воспетого художниками и поэтами сознательного опыта, или внутреннего мира. Его содержание представляет немалый интерес, но куда больше интригует происхождение этого феномена. Удивительные неврологические расстройства, такие как агнозии, лишь приближают нас к ответу на вопрос, что же представляет собой внутренняя реальность. Грандиозные успехи искусственного интеллекта и машинного обучения не привели к созданию чего-то по-настоящему воспринимающего. Зияющая пропасть между простым человеческим ощущением и бесчувственной нейросетью, даже умеющей вести сентиментальную или иную «слишком людскую» беседу, кажется непреодолимой. Сможем ли мы когда-нибудь через призму субъективной реальности (а другого способа у нас нет) познать ее собственную структуру? Так или иначе, понимание круга вопросов и стоящих перед нейронаукой проблем лишь обостряет наше собственное восприятие и обогащает личный опыт, заставляет удивляться простым вещам, по-новому понимать себя и, возможно, других.