Ищете выполнение чертежей на заказ во Владивостоке ? Обратитесь в Work5.
Более того результаты использования этого метода оказываются наиболее ценными для повышения легкости восприятия в процессе чтения у детей, людей с расстройствами речи, такими как афазия и дислексия, людей с аутизмом, а также для изучающих иностранные языки и людей с низким уровнем грамотности. Изначально, системы, упрощающие текст, основывались на вручную написанных правилах с использованием словарей синонимов и парафразов для внесения синтаксических и лексических изменений в предложения. Однако упрощение текста стало наиболее популярным с появлением одноязычного машинного перевода, когда система учится переводить данное ей сложное предложение в простую форму. Исследователи стали применять методы статистического машинного перевода, основанного на фразах или синтаксических конструкциях нередко в комбинации с вручную созданными правилами или признаками. Начиная с недавнего времени начали появляться системы нейронного машинного перевода, которые сразу же показали перспективные результаты и сейчас успешно применяются в сочетании со статистическими подходами или в виде только нейронных моделей. Упрощение текста в настоящее время представляет собой генерацию нового осмысленного текста благодаря рекуррентным нейронным сетям (Recurrent Neural Networks или RNNs), сетям с долговременной и кратковременной памятью (Long Short-Term Memory или LSTM) и сверточным нейронным сетям (Convolutional Neural Networks или CNNs), позволяющие использовать sequence-to-sequence моделирование. Итак, суммаризацию можно определить, как автоматическое создание краткого содержания (заголовка, резюме, аннотации) исходного текста. Существует 2 существенно отличающихся подхода к этой задаче: экстрактивный и абстрактивный. В рамках текущего исследования будет рассмотрен подход абстрактивной суммаризации. Цель исследования – построить и оценить алгоритм абстрактивной суммаризации seq2seq. Задачи исследования: - Обобщить теоретические основы суммаризации текстов; - Провести анализ выбранных данных; - Реализовать эксперимент с построением алгоритма seq2seq. Объектом исследования выступают данные из новостных источников, по которым проводится суммаризация. Предмет исследования – абстрактивный метод суммаризации текстов – seq2seq. Методы исследования: анализ, синтез, машинное обучение, нейронные сети. Реализация выбранного в ходе исследования метода автоматического упрощения текста проводилась на языке программирования Python с использованием среды разработки JupyterNotebook. В качестве данных для обучения sequence-to-sequence моделей были использованы данные новостей Gazeta.ru за последние 10 лет. Оценка реализованных методов была проведена с использованием метрик Bleu, Rogue и Meteor. Работа состоит из введения, трех глав, заключения и списка использованных источников.