Введение 3 ГЛАВА 1. БАЛАНСИРОВКА КЛАССОВ В МАШИННОМ ОБУЧЕНИИ 4 1.1 Общее описание проблемы балансировки классов в машинном обучении 4 1.2 Сокращение числа примеров мажоритарного класса 7 1.3 Увеличение числа примеров миноритарного класса 10 ГЛАВА 2. АЛГОРИТМЫ ОБУЧЕНИЯ С УЧЕТОМ ИЗДЕРЖЕК КЛАССИФИКАЦИИ (COST-SENSETIVE) 16 2.1 Алгоритм обучения с учетом издержек на примере обнаружения мошенничества с банковскими картами 16 2.2 Обучение с учетом издержек и классификация, зависящая от издержек 18 2.3 Проведение обучения с учетом издержек 20 Заключение 28 Список использованных источников 29

«Решение проблемы дисбаланса классов в машинном обучении»

реферат

Программирование

30 страниц

93% уникальность

2022 год

4 просмотров

Кондратьева Е.

Эксперт по предмету «Программирование»

Узнать стоимость консультации

Это бесплатно и займет 1 минуту

Отправляя форму, вы соглашаетесь с офертой, политикой обработки персональных данных и даёте согласие на обработку данных

Оглавление

Введение

Заключение

Список литературы

Актуальность. Машинное обучение завоевывает мир. Коммуникации и связь, финансовая сфера, транспорт, производство товаров и даже сельское хозяйство – практически каждая отрасль технологии изменилась под влиянием машинного обучения или изменится в ближайшем будущем. Алгоритмы машинного обучения широко применяются во многих сферах деятельности. Задача классификации обычно направлена на минимизацию количества ложных срабатываний. Например, в банковской сфере задача классификации может быть применена к обработке транзакций для выявления мошеннических действий или мошеннических схем. Однако, при разработке самообучающейся модели возникает проблема несбалансированности данных, так как соотношение мошеннических транзакций к общему количеству транзакций слишком мало. При использовании стандартных методов классификации в такой ситуации часто возникает проблема, что при уменьшении общей ошибки классификатор полностью относит интересуемый класс к шуму. В таком случае возникает парадокс точности, когда показатели точности отражают только распределение базового класса, игнорируя при этом интересуемый класс нелегитимных транзакций. Таким образом, появляется потребность в решении проблемы несбалансированности.

Если вы хотите заказать преддипломную практику , сделать это можно, зайдя на сайт Work5.

Основной целью работы является обзор и анализ существующих методов борьбы с сильной несбалансированностью классов. Для достижения цели необходимо решить задачи:  рассмотреть методы балансировки классов в машинном обучении;  изучить алгоритмы обучения с учетом издержек классификации (cost-sensitive). Работа состоит из введения, двух взаимосвязанных глав, заключения и списка использованных источников.

Заключение В процессе работы над рефератом была достигнута основная цель: проведен обзор и анализ существующих методов борьбы с сильной несбалансированностью классов. Для достижения цели были решены следующие задачи:  рассмотрены методы балансировки классов в машинном обучении;  изучены алгоритмы обучения с учетом издержек классификации (cost-sensitive). Классическая проблема дисбаланса данных признана одной из основных проблем в области интеллектуального анализа данных и машинного обучения, поскольку большинство алгоритмов машинного обучения предполагают, что данные распределены поровну. В случае несбалансированных данных классы большинства доминируют над классами меньшинства, в результате чего классификаторы машинного обучения более склонны к классам большинства. В примере обнаружения мошенничества цель состоит в том, чтобы определить, является ли транзакция мошеннической или нет. Поскольку большинство транзакций не являются мошенническими, это заставляет модель предсказывать мошеннические транзакции как действительные. Для преодоления этих проблем было разработано несколько подходов, которые можно реализовать на этапе предварительной обработки. Одна из часто используемых стратегий называется повторной выборкой, которая включает в себя методы недостаточной и избыточной выборки. Если кто-то уравновешивает набор данных, удаляя экземпляр из чрезмерно представленного класса, то это называется недостаточной выборкой. Передискретизация может быть достигнута путем добавления аналогичных экземпляров непредставленного класса, чтобы сбалансировать соотношение классов с перекосом. Повторная выборка может быть выполнена с заменой или без нее.

1. Беликов, В. В. Использование методов глубокого обучения с подкреплением для отбора признаков сетевого трафика при обнаружении компьютерных атак / В. В. Беликов // Программирование. – 2022. – № 6. – С. 3-13. 2. Загудаева, Е. В. Применение метода передискретизации несбалансированных классов данных (SMOTE) для поиска мошеннических транзакций / Е. В. Загудаева, С. С. Звежинский // Технологии информационного общества : Сборник трудов XVI Международной отраслевой научно-технической конференции, Москва, 02–03 марта 2022 года. – Москва: ООО "Издательский дом Медиа паблишер", 2022. – С. 113-115. 3. Менщиков, А. А. Методы и подходы к предобработки данных платежей при условии сильной несбалансированности классов / А. А. Менщиков, М. Ю. Федосенко // StudNet. – 2021. – Т. 4. – № 9. 4. Чио, К. Машинное обучение и безопасность / К. Чио, Д. Фримэн / пер. с анг. А. В. Снастина. – М.: ДМК Пресс, 2020. – 388 с. 5. Сэмплинг в условиях несбалансированности классов [Электронный ресурс]. – Режим доступа: https://crm-systems.info/crm-dlya-operatorov-svyazi/?ysclid=laye9v9pd825147526 (дата обращения 28.11.2022) 6. Обучение с учетом издержек классификации (Cost-sensitive learning) [Электронный ресурс]. – Режим доступа: https://wiki.loginom.ru/articles/cost-sensitive-learning.html (дата обращения 28.11.2022) 7. Cost-Sensitive Meta-learning for Progress Prediction of Subjective Cognitive Decline with Brain Structural MRI / H. Guan, Y. Liu, M. Liu [et al.] // Lecture Notes in Computer Science. – 2021. – Vol. 12905 LNCS. – P. 248-258. 8. Fraud detection with cost-sensitive machine learning [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/fraud-detection-with-cost-sensitive-machine-learning-24b8760d35d9 (дата обращения 28.11.2022) 9. How to do Cost-Sensitive Learning [Электронный ресурс]. – Режим доступа: https://medium.com/rv-data/how-to-do-cost-sensitive-learning-61848bf4f5e7 (дата обращения 28.11.2022) 10. Not All Mistakes Are Created Equal: Cost-sensitive Learning [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/not-all-mistakes-are-created-equal-cost-sensitive-learning-96bbc92bab88 (дата обращения 28.11.2022)

Поможем с написанием такой-же работы от 500 р.

Лучшие эксперты сервиса ждут твоего задания

Поможем с работой
любого уровня сложности!

Это бесплатно и займет 1 минуту

«Решение проблемы дисбаланса классов в машинном обучении»

Похожие работы

Поможем с работойлюбого уровня сложности!

Поможем с работой
любого уровня сложности!