Вы здесь

Google Brain генерирует краткий пересказ текстов

Современные алгоритмы уже способны создавать краткие пересказы новостей. Судя по всему, это связано с обилием примеров для тренировки. Однако с другими типами текстов искусственный интеллект пока справляется намного хуже. Важный шаг в разработке универсального алгоритма для написания кратких резюме сделали сотрудники исследовательского проекта Google Brain. Они создали нейросеть под названием SummAE, которая работает без вмешательства человека.

Алгоритм сначала переводит тексты в цифровой вид, а затем на основе этих данных генерирует краткий пересказ. Благодаря двум системам шумоподавления ИИ создает достаточно сложные словосочетания. Это достигается за счет изменения порядка предложений в абзацах и произвольной маскировки отдельных фрагментов текста.

Работу трех вариантов SummAE протестировали на корпусе прозы ROCStories. 98 159 текстов разделили на три группы — набор для обучения, набор для проверки и набор для теста. Для примеров, относящихся к двум последним группам, исследователи подобрали по три написанных человеком резюме. После 100 000 этапов обучения лучшая версия SummAE достигла значительных успехов. 80% добровольцев, участвовавших в работе над оценкой алгоритма, отметили высокое качество сгенерированных резюме.

Тем не менее, авторы отмечают, что SummAE — всего лишь первый этап в работе над проектом и нуждается в усовершенствовании. Помочь с этим может каждый: набор данных и код алгоритма доступны на GitHub.

Другие компании также активно работают над алгоритмами, распознающими текст. Например, ИИ от компании Alibaba научился самостоятельно искать ответы на заданные вопросы. В этом он не уступает человеку, а иногда даже превосходит нас.

Сергей Коленов