Генератор текста

Генера́тор те́кста — компьютерная программа, генерирующая тексты, правильные с точки зрения большинства языковых норм, но, как правило, лишённые смысла. Существуют разные виды генераторов текста, различающиеся своими возможностями (например, некоторые из них могут самостоятельно формировать новые слова).

Джонатан Свифт в «Путешествиях Гулливера», пародируя Ars magna Раймунда Луллия, сатирически описал машину из Лагадо, генерирующую тексты.

Типы генераторов

править

Генерация текста путём его составления из полностью случайных слов чаще всего не применяется: программа выдаёт бессмысленный результат и легко распознаётся анализаторами текстов. Обычно используют генерацию по вручную написанным фразам-шаблонам.

В случаях, когда не важен смысл генерируемого текста, он составляется из путаницы предложений из разных исходных текстов или из частей предложений. Такой метод совместно с шаблонами и синонимизацией используется в чат-ботах и ботах-комментаторах в соцсетях и блогах. Такие боты копируют собеседнику фразы, записанные с других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по ключевым словам, поэтому их ответ более приближен к теме диалога.

Синонимайзеры и генерация фраз по шаблонам

править

Часто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на синонимы, в целях рерайта и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются макросами.

Чем длиннее текст, тем заметнее неестественность в автоподставленных синонимах. Поэтому в текстах «сделанных для людей» (СДЛ) синонимайзеры могут применяться только для создания уникальных коротких текстов: заголовков и анкоров с ключевыми словами, комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, который, в отличие от русского языка, имеет простую морфологию.

Виды синонимизации:

  • Программа-переводчик. Иногда для синонимизации советуют помещать тексты в программу-переводчик, переводить на иной язык, а затем обратно переводить на русский. Однако, результатом будет бредотекст, ибо переводчики тоже плохо поддерживают склонения слов и их правильный порядок в предложениях.
  • Генерация по заданному шаблону. Популярен SEO anchor generator, он имеет онлайн-версию с несколькими базами, которые, однако, нельзя редактировать.
  • Генерация по шаблону с возможностью подключения базы синонимов. Самые известные генераторы: Generating the web, Article clone easy, и генератор входящий в Allsubmitter (программа для раскрутки сайта ссылками).
  • Синонимизация по базе синонимов. Известен синонимайзер SmartRewriter, он позволяет редактировать базы, немного понимает морфологию. Есть синонимайзеры с функцией «разбавления» текста, например, путём добавления прилагательных. Один из таких — Ifritus, расширяющий текст «описательными связями».
  • С учётом морфологии. Такие программы редки ввиду своей сложности. Бывают в виде программ, библиотеки функций, онлайн-сервиса, или онлайн-API для программистов. Например, Морфер способен склонять словосочетания, и phpMorphy, pyMorphy склоняют только отдельные слова.

«Мешанка» текста из разных источников

править

Дорвеи быстро «вылетают» из поисковой выдачи из-за некачественности своих текстов. Поэтому дорвейщики стараются генерировать текст по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста парсятся целиком с других сайтов такой же тематики, и, возможно синонимизируются, или используется «мешанка».

  • Обычно в генерируемом тексте используется «мешанка» предложений, взятых из различных текстов. Источниками могут быть сборки рассказов в несколько мегабайтов текста, или страницы сайтов схожей тематики. Но если источниками являются только 1-3 сайтов, простая онлайн-проверка на плагиат это покажет. Вполне возможно, что такую проверку делают и поисковики, имея базу всех текстов когда-либо выложенных в интернет.
  • Также предложения генерёнки могут составляться из частей предложений нескольких источников, разделяясь запятой. Проверка по Advego показывает, что уникальность такой мешанки выше на 30 % и более.
  • Некоторые доргены (генераторы дорвеев) собирают текстовые фрагменты, парся сниппеты поисковой выдачи в интернет. Таковы доргены Seodor и SED.

«Умные» генераторы

править

Ряд компаний развивает более сложную технологию. Создаются синтаксические структуры по частям речи и членам в предложениях, слова в словарях категоризируются по семантике, с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, авторских прав на эти разработки, и коммерческой тайны (подобные системы в принципе позволяют создать очень прибыльные коммерческие проекты), вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы.

Применение

править

На данном уровне развития компьютерных технологий в свободном доступе отсутствуют генераторы текста со сравнительно осмысленным текстом. Генераторы с бессмысленным набором слов или с шаблонными фразами имеют узкую сферу применения.

Разработка и оптимизация сайтов

править

Генераторы текстов широко используются при разработке и поисковой оптимизации сайтов: для генерации названий, описаний, и содержимого целых сайтов с помощью доргенов (генераторов дорвеев).

Существуют крупные англоязычные сайты, зарабатывающие на размещении рекламы, на которых весь контент пишут не журналисты, а боты — статьи автоматически рерайтятся из других источников. Примеры таких сайтов: Demand Media[англ.] и Associated Content[англ.][1]. Русский язык, в отличие от английского, имеет сложную морфологию, поэтому появление подобных ботов-рерайтеров в рунете сильно осложнено.

Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного отбора по критерию уникальности.[прояснить] Производится данный отбор при помощи специализированного программного обеспечения, имеющего различный алгоритм проверки.[источник не указан 3437 дней]

Виртуальные собеседники

править

Виртуальные собеседники (чат-боты) — программы, предназначенные имитировать общение в чатах. Они массово применяются для рассылки спама в соцсетях (спам-боты), а также как автоответчики, способные реагировать на множества ключевых слов по разным сценариям.

Поскольку при этом человек не видит своего собеседника, у него может сложиться впечатление, что он переписывается с живым человеком. Тем не менее, ещё ни одному чат-боту не удавалось с успехом пройти тест Тьюринга, а программам, использующим генераторы текста, это сделать ещё сложнее.

Массовая пропаганда и троллинг в соцсетях

править

В связи с развитием интернет-пропаганды и «кибер-войн» в соцсетях применяются боты для массовой имитации общественного мнения. При создании ботов у них автоматически генерируются имена и интернет-адреса, а при их ответах — текст комментариев, обычно провокационного, пропагандистского, или оскорбительного содержания.

Относительно широкую известность в русскоязычном Интернете получил генератор текста Rareguest, оформленный в виде php-скрипта. Некоторое время он использовался в рамках сатирического интернет-проекта «Гавгав-центр», а затем получил распространение в качестве робота для живых журналов, блогов и т. д. Вот примеры последовательной генерации однотипных сообщений данным роботом:

Все ваши посты — типичное клише лживой инсинуации, которая стремится дискредитировать и осмеять всякого, кто начинает прозревать и открыто говорить о преступлениях преступного режима. Колет глаза держимордам кровавого кремлёвского упыря правда об их бесчеловечии и о фашистской сути кровавого кремлёвского режима! Интересной особенностью данного форума является то, что путинисты в основном занимаются флудом или обсуждением личностей, а топиков по существу проблем России, вроде этого, боятся как черт ладана. Во врунете достаточно простора, где НКВД-фашисты, вроде вас, могут, не отягощаясь правдой и анализом сталино-путинизма, проводить своё время. Потому и считаю я вас, путинистов, моральными выродками. Ведь подобного рода «участники дискуссии» не появляются на подконтрольных кремлю и ястржембскому «чеченских» сайтах врунета. Пути-Пут и его кровожадные подёнщики ответят за всё.

На этих примерах видно, что даже знакомый с обсуждаемой проблематикой читатель может принять сообщения робота за сообщения реального живого человека, пусть и несколько экзальтированного. Выдает робота в этих сообщениях только типовая структура построения предложений и их комбинирования.

Проверка качества рецензирования издательств

править

Известны случаи, когда генераторы текстов успешно использовались для выявления низкого качества (а иногда и полного отсутствия) рецензирования в научных журналах. Особенно известна в этом плане программа SCIgen.

См. также

править

Примечания

править
  1. Контент-генераторы по ключевым словам. Хабрахабр (8 июля 2010). Дата обращения: 2 июля 2015. Архивировано 3 июля 2015 года.

Ссылки

править