В условиях современности всё возрастающие объемы данных с трудом поддаются анализу и обобщению, при этом в базах данных могут быть скрытые закономерности, не видимые невооруженным глазом, но при этом весьма полезные для различных экспертов и менеджеров, принимающих решения. Анализ такого рода информации экспертом будет весьма сложной задачей, однако эти закономерности можно извлечь с помощью компьютерных систем, способных быстро обрабатывать большое количество данных, извлекать знания из них, и представлять новые знания в удобной для восприятия человеком форме.
Одной из задач искусственного интеллекта является построение обобщенных моделей данных или извлечений знаний с использованием больших массивов экспериментальных данных, содержащих информацию об исследуемых процессах и явлениях. Интеллектуальные системы, решающие эти задачи, находят практическое применение во множестве областей – медицина и здравоохранение (установление диагноза, выписка лекарств), менеджмент, бизнес, маркетинг (вопрос о выдаче кредитов, инвестировании, исследование рынка, подбор товаров покупателю по характеристикам).
Очевидно, вся информация, охватывающая такие явления, и имеющаяся в распоряжении исследователей, обычно не является полной и точной. Это может быть вызвано некорректным измерением входного параметра, неверным или слишком субъективным описанием значения параметра экспертом, использованием испорченных измерительных приборов, потерей данных при хранении и пересылке информации.
Поэтому задачей данной работы будет моделирование систем машинного обучения при наличии шума в массивах данных, описывающих реальные предметные области и использующиеся на практике (медицина, бизнес и т.
Если зачет проходит онлайн решить задачу вам помогут в Work5.
. п.) и изучение работы алгоритмов индуктивного формирования понятия на данных, подверженных влиянию шума и сравнение «вреда» различных видов шума в массивах данных.
Таким образом, актуальность данной работы видится в детальной проработке и программной реализации системы обобщения информации на основе методов решающих деревьев с учетом наличия шума в данных.
Целью данного дипломного проекта является разработка и программная реализация системы обобщения информации на основе методов решающих деревьев.
Задачами дипломного проекта, в соответствии с целью, являются:
• анализ предметной области, определение имеющихся проблем в работе, нахождение путей их решения;
• изучение методик решений и комплексов средств решения задачи;
• определение требований, предъявляемых к проектируемой программной системе;
• моделирование алгоритмов одних из самых лучших алгоритмов индуктивного формирования понятий, а именно: ID3 и UD3, а также различного вида шума в массивах данных;
• изучение работы алгоритмов индуктивного формирования понятия на данных, подверженных влиянию шума и сравнение «вреда» различных видов шума в массивах данных.
• проектирование и внедрение программной системы.