Такой продукт выдает какие-то нетривиальные сочетания слов, изобретает свои собственные новые слова, которые ужасно похожи на настоящие, но при этом обладают какой-то своей образной свежестью.
И с этой точки зрения любопытны те нейросети, которые мы увидим, сделав шаг назад в их эволюции. Например, до архитектуры «трансформер» хорошо себя показала архитектура «рекуррентных нейронных сетей» в варианте длинной краткосрочной памяти (long short-term memory). И сравнивая не просто абстрактные художественные тексты, а именно поэтические, которые выдают современные «трансформеры» и устаревшие «рекуррентные сети», мы видим, что вторые по своей продукции и результатам генерации интереснее.
Они ближе к тому, что искушенные читатели готовы признать поэзией. Поэтому, как не парадоксально, правильный ответ на вопрос «как обучать нейросети, которые генерируют текст» — плохо, чтобы они допускали ошибки, если мы говорим про короткие тексты (небольшие рассказы или поэтические произведения). Если же мы говорим про написание больших нарративных текстов размером с роман, то ответ на этот вопрос никто не знает, потому что пока что технологически невозможно сделать так, чтобы за один присест нейросеть взяла да и написала роман.
В чем разница между генерацией прозы и поэзии? Зависит от точки зрения: читателя или инженера, который организовывает этот процесс. Для читателя поэзия и проза — это абсолютно разные вещи, по-разному устроенные. Он привык в течение двадцатого века, что поэзия — это такой особенный речевой жанр, в котором возможно все. В том числе и какая-то совершенно непредставимая чепуха: несвязность, нелогичность, возможна и даже одобряется какая-то непоследовательность. И несмотря на то, что проза двадцатого века тоже такой может быть, она не создала себе такой репутации.
От прозы читатель в гораздо меньшей степени ждет, что она будут нелогична и несвязна, и гораздо меньше подготовлен к этому. Поэтому те тексты, которые порождает нейросеть, некачественные с точки зрения грамматики. И читатели склонны прощать это в поэзии, но в прозе, как выяснилось, это ожидается в меньшей степени.
Получается, это действительно разные задачи — в том смысле, что они требуют разные планки при оценке результатов. То есть, если слова будут не сочетаться друг с другом, первая строка со второй не будет связана логически, то мы не будем по этому поводу переживать. В первую очередь об этом не будут переживать именно читатели, а не инженеры. А в остальном, кажется, что разница между задачей генерации поэзии и прозы не столь существенна. Главное не в том, проза это или поэзия, а в том, нарративный это текст или «лирический». То есть, рассказывает ли этот текст историю. Если нет, то неважно, в прозе это или в стихах. А если он рассказывает историю, то мы ожидаем, что у нее будет начало, экспозиция, какая-то кульминация, развязка.
Тут есть разные сложности. Не так хорошо это получается даже у прекрасных «трансформеров». С короткими историями теперь ChatGPT
справляется. Это новость. Еще пару лет назад ничего подобного мы не видели. А в лирике история не нужна, поэтому нужно определиться, с какой строгостью мы готовы подходить к результату. И для лирического текста эта строгость гораздо ниже, чем для нарратива, потому что у нас есть представления о том, как должен быть устроен нарратив. А в отношении лирики таких критериев гораздо меньше и они гораздо менее конвенциональны.