Поддержать программу
ПостНаука на Дожде
13:51
11 сентября
Наука

Может ли компьютер понять литературное произведение

Филолог Борис Орехов об изучении литературы с помощью цифровых технологий
1 196
0
Расписание
Следующий выпуск
11 декабря 16:00
воскресенье: 02:00, 10:00, 16:00
понедельник: 02:00, 06:00
вторник: 11:00

Филолог Борис Орехов о дальнем чтении, формализации литературных текстов и новых технологиях в гуманитарных науках.

Больше роликов смотрите на сайте проекта «ПостНаука»

Цифровые исследования литературы — это, конечно, в какой-то мере дань моде, потому что сейчас большие объемы данных существуют в разных сферах знаний и вроде как люди научились этим управлять, это изучать. Возникает вопрос: а не можем ли мы то же самое сделать с литературой? Мы умеем анализировать большие объемы данных, касающиеся астрономии, физики, биологии, генетики. Вот литература — сложный аспект, сложный объект, и, наверное, его тоже можно было бы как-то исследовать с использованием компьютеров, чтобы понять, что же там такое происходит, что это за сложные тенденции, которые не всегда очевидны нам как читателям.

Но в первую очередь, когда мы говорим об этом, нужно понять, что такое формализация, потому что наука прежде всего старается упростить свой объект, расчленить его на некоторое количество параметров и сделать их численными, а потом посчитать их с помощью компьютера, потому что компьютер ничего больше не умеет делать, кроме как считать. Трудность цифрового изучения литературы в том, что не очень понятно, как литературное произведение можно формализовать, ведь с формализации и начинается любая естественная наука.

Надо сказать, что физикам здесь гораздо проще: вот имеют они какой-нибудь объект вроде звезды, или планеты, или квазара, и они его наблюдают и знают, какие параметры из тех, которые они наблюдают, — светимость или что-нибудь еще, положение на небе — важны, а какие неважны. Например, спектр, спектральный класс звезды, наверное, важен, а какие-то другие аспекты дела (скажем, в каком настроении находится человек, когда наблюдает звезду) — это уже не очень важный параметр. А с литературой так не получается, ведь наука в любом случае — это некоторое моделирование, упрощение объекта, и мы не знаем точно, что мы можем упростить без потери содержания произведения и что мы можем перевести в число, а что нет. И это действительно очень большая трудность, которая по-прежнему не решена, и мы находимся в состоянии поиска решения этой проблемы.

Вопросом о том, как можно было бы формально описать литературное произведение, занимались очень давно. Здесь очень большая заслуга у русских ученых, потому что еще в 1920-е годы знаменитый литературный формализм занимался отчасти этой проблемой. Выяснилось, что фольклорные произведения формализуются гораздо лучше, а с литературными произведениями так не получается, хотя те схемы, которые были применены Проппом в свое время к волшебной сказке, пытались применять и к литературным авторским произведениям. Но здесь тоже возникает большое многообразие, которое естественным образом получается в авторской литературе.

Потом в 1960-е годы появилась новая тенденция, обновление старой, снова ученые стали искать возможности формализации литературных произведений, поиск каких-то схем, структур. Это вообще время успехов естественных наук, в то время появились компьютеры. Значительных успехов на этом пути добиться все-таки не удалось — по многим причинам, часть из которых уже исчезла с небосклона к нашему времени. Среди них те же самые вычислительные мощности компьютера, которые значительно возросли с этого времени, и просто-напросто в электронном доступе появилось достаточно много текстов, которые можно попробовать анализировать автоматически.

И сейчас мы видим новый ренессанс этого направления исследований. Но те сложности, о которых я говорил, остаются, они никуда не делись. Что же мы можем перевести в число, а что не можем? Филологи ищут в произведении какие-то смыслы, их очень трудно переписать в число, сделать каким-то числовым параметром, а то, с чем может иметь дело компьютер, — это чаще всего какие-то атомарные факты, например слова. Слова подсчитать мы как будто бы можем, и, если мы возьмем какой-нибудь корпус художественных текстов, мы можем поискать те тенденции, которые есть в словах, которыми реализуются некоторые художественные смыслы в произведении.

И действительно, в последнее время появляются такого рода исследования, пытающиеся определить, чем сентименталистский роман отличается от подобных ему произведений своего времени, несентименталистских. И вот есть методы компьютерной лингвистики, которые позволяют подсчитать, насколько один текст похож на другой. Например, мы можем собрать в один мешок все сентименталистские романы, а в другой те, которые мы не считаем сентименталистскими, и посмотреть, какие же слова выделяют особенное содержание, имеющее отношение к стилю.

Другой аспект дела, более формализуемый, — это то, что характеризует стихотворную речь. Стихотворная речь организуется ритмически, в ней есть ударные и безударные слоги. И если мы сможем объяснить компьютеру, чем отличается ямб от хорея, то тогда мы очень легко сможем формализовать те важные для организации текста вещи, такие как размер, метр, подсчитать, что чаще употребляется в стихотворениях, а что реже, и на основе этого сделать какие-то выводы. Но, конечно же, теперь, когда у нас есть очень много текстов и мы можем их компьютерно анализировать, нам было бы интересно поискать в них какие-то большие тенденции, незаметные для пристального чтения, которое привычно для филологов.

Филологи умеют читать тексты внимательно — это называется медленное чтение (или close reading). А что же будет, если мы соберем все романы XIX века и попробуем извлечь из них какие-то тенденции и закономерности? Это тоже некоторая история современности. Недавно как раз по-русски вышла книга под названием «Дальнее чтение» — это перевод книги Франко Моретти, которая называется «Distant Reading», то есть некоторая оппозиция пристальному, внимательному чтению. Хотя мне кажется, что более правильный перевод здесь был бы не «Дальнее чтение», как решили переводчики, а «Отвлеченное чтение». То есть мы отвлекаемся от текста и пытаемся извлечь из него какую-то информацию, может быть не всегда тривиальную, и посмотреть ее на большом объеме данных. Анализ данных — это область, очень важная для современной жизни, а не только для науки. Мы берем большой массив информации и пытаемся его проанализировать статистически. Он очень похож на филологию, потому что и там и там мы пытаемся найти какие-то нетривиальные закономерности, которые не видны с первого взгляда, и в одном случае нам помогает статистический аппарат, а в другом мы еще не определились, как его применять.

Но если действительно дать компьютеру проанализировать каким-то понятным образом текст, то выяснится, что заметны такие вещи, которые на первый взгляд не видны читателю. Например, если мы проанализируем диалоги и речь героев каких-нибудь больших романов, мы выясним, что, скажем, персонажи определенного рода, которые типологически объединяются в какие-то группы, могут употреблять глаголы одного типа в своей речи, а персонажи другого рода изъясняются как-то иначе, хотя вроде бы эта речь написана одним и тем же автором, одним и тем же человеком, настолько сильно эта речь отличаться не должна. Компьютерная лингвистика позволяет нам классифицировать персонажей по их речи. Это именно то, что трудно сделать в процессе медленного чтения, особенно если роман большого объема.

Еще одна важная история касается тематики текста, тематического моделирования. Мы хорошо понимаем смысл текста, когда его читаем, но компьютеру объяснить смысл гораздо сложнее, но тем не менее благодаря математикам и чистым компьютерщикам у нас постепенно появляется возможность приблизиться к решению этих задач, и мы теперь лучше можем объяснить компьютеру, где же пролегает разница между одной темой и другой, например между темами природы и любви.

Динамика их развертывания в художественном тексте, незаметная на большом материале, теперь нам доступна, мы можем посмотреть на больших текстах, как это проявляется типологически. Например, есть ли такие тенденции, что в начале романе речь идет о чем-то хорошем, а к концу романа мы скатываемся к чему-то трагическому. Это те категории, которые были в свое время важны для средневекового, условно говоря, литературоведения, потому что, как мы помним, комедией в Средние века называлось то, что начиналось плохо и кончалось хорошо, и это никак не было связано с чем-то смешным.

Цифровые технологии, с которыми мы имеем дело, пока не могут дотянуться до того, что важно литературоведам, — это вопросы смысла, вопросы, связанные с высшими материями, высшими функциями нервной системы. Здесь компьютер пока остается на уровне очень глупого устройства и может иметь дело только с внешними способами реализации этого смысла, то есть со словами, их сочетаниями, с их распределением в тексте. Этого, конечно, пока еще недостаточно, но, наверное, чем дальше будет развиваться машинное обучение, так называемое depp learning, нейронные сети, тем ближе мы будем к пониманию того, как текст производит впечатление на человека, когда возникает напряжение, когда, наоборот, у человека теряется внимание к тексту и он задумывается о чем-то другом. Мы наконец-то можем объяснить компьютеру, как иметь дело с теми основными, почти рефлекторными вещами, связанными с чтением увлекательных произведений.

Современные вопросы, которые хотелось бы решить, связаны с особенностями повествования. Когда человек читает некоторый повествовательный текст, он хорошо понимает, что вот здесь произошло, например, убийство, здесь персонаж, наоборот, кого-нибудь полюбил. И наверное, ближайшие ходы, которые есть в этой области, — это попробовать объяснить компьютеру, как научиться видеть эти минимальные элементы сюжета, так называемые мотивы, извлекать их из текста, потому что везде у каждого писателя они в словах реализованы очень по-разному, а слова — это то самое главное, с чем имеет дело компьютер.

Так что извлечение мотивов и попытка компьютера распознать, где же все-таки в тексте напряжение, которое захватывает читателя, а где в тексте, наоборот, такие расслабленные моменты, — это то, с чем будет в ближайшее время иметь дело цифровая гуманитарная наука. Но на самом деле это просто новые методы, которые всегда увлекают гуманитариев, и, в отличие от естественных наук, где главными учеными становятся те, кто что-то открывает, в гуманитарной науке не открытия определяют значимость ученого, а то, насколько он способен изобретать новые методы и привлекать чужие. Поэтому привлечение цифровых методов наверняка в ближайшее время даст толчок гуманитарной науке.

Фото: ПостНаука