Могут ли нейросети интерпретировать и имитировать сленг

Сленг рождается на окраинах. Первоначально само слово «сленг» означало узкую полосу земли между более крупными объектами недвижимости. Когда в Англии во время перехода к свободному рынку элита приватизировала и забрала себе общинные земли, чтобы превратить их более в рентабельные пастбища, огромное число крестьян были изгнаны из своих домов. Им пришлось поселиться в узких коридорах между недавно разделенной собственностью.

Эти места буквально стали окраиной, поэтому, чтобы выжить, людям необходим был творческий подход. Кто-то становился ремесленником и торговцем, а кто-то бродягой или вором. Все они жили во временных домах и часто бродили группами по узкой муниципальной полосе. У территории сленга были свои правила, своя контркультура, а группам нужен был новый язык для общения между собой в присутствии другой группы или правоохранительных органов — так формировался секретный и красочный жаргон.

Со временем в разных языках слово «сленг» стало обозначать определенные способы выражения с постоянно меняющимися лексикой и формой, которые непонятны для правящей элиты. Человеку, не принадлежащему к какому-либо сообществу, трудно воспроизвести его сленг.

Однако и современные лорды и леди пытаются использовать сленговые выражения — возможно, они хотят использовать их силу, либо почувствовать себя ближе к народу, но это приводит к тому, что такие фразы перестают быть сленгом. Что же происходит, когда сленг присваивают машины? Большие языковые модели, такие как ChatGPT или LLM, обучаются на бесконечно расширяющемся наборе текстов, чтобы как можно лучше имитировать речь. При этом невозможность сленга быть присвоенным извне — особая проблема для компьютера, и это подчеркивает разницу между интеллектом человека и машины.

Искусственный интеллект сегодня способен использовать английский и другие языки, но ни один из них не является для компьютера родным. Его естественный язык состоит из двух символов: 0 и 1, его название — двоичная система счисления или двоичный код. Поэтому языковые модели представляют наш алфавит как цепочку чисел. Эти цифры эффективно сжимают огромные объемы информации, жертвуя утонченностью языка и богатством детализаций. ИИ не способен отразить весь спектр человеческого опыта с помощью слов, он оторван от социального контекста, который помогает разобраться в значении сленговых выражений.

Когда я спросил у ChatGPT, могу ли я поговорить с ним на сленге, он ответил: «Конечно! Просто дайте знать, какой сленг вы хотите использовать». Я сказал «современный» и признался, что могут возникнуть трудности. Ответ ИИ был очень формальным, правильным, и совершенно выпадающим из контекста: «Я здесь, чтобы учиться вместе с вами… Мы можем все — это наш выбор!» Я пробовал еще и еще, но понял, что ИИ не способен говорить на сленге. Признаться честно, я тоже. В свои тридцать я почувствовал себя машиной, которая неуклюже пытается присвоить чужой язык и может только подражать. Но сленг нельзя сымитировать, и я надеюсь, он продолжит ускользать и от машин, и от меня.

«Салют, ты мне заходишь!» Почему ИИ выдает кринж, когда пытается говорить «по-молодежному»