Введение 3
ГЛАВА 1. БАЛАНСИРОВКА КЛАССОВ В МАШИННОМ ОБУЧЕНИИ 4
1.1 Общее описание проблемы балансировки классов в машинном обучении 4
1.2 Сокращение числа примеров мажоритарного класса 7
1.3 Увеличение числа примеров миноритарного класса 10
ГЛАВА 2. АЛГОРИТМЫ ОБУЧЕНИЯ С УЧЕТОМ ИЗДЕРЖЕК КЛАССИФИКАЦИИ (COST-SENSETIVE) 16
2.1 Алгоритм обучения с учетом издержек на примере обнаружения мошенничества с банковскими картами 16
2.2 Обучение с учетом издержек и классификация, зависящая от издержек 18
2.3 Проведение обучения с учетом издержек 20
Заключение 28
Список использованных источников 29
Читать дальше
Заключение
В процессе работы над рефератом была достигнута основная цель: проведен обзор и анализ существующих методов борьбы с сильной несбалансированностью классов.
Для достижения цели были решены следующие задачи:
рассмотрены методы балансировки классов в машинном обучении;
изучены алгоритмы обучения с учетом издержек классификации (cost-sensitive).
Классическая проблема дисбаланса данных признана одной из основных проблем в области интеллектуального анализа данных и машинного обучения, поскольку большинство алгоритмов машинного обучения предполагают, что данные распределены поровну. В случае несбалансированных данных классы большинства доминируют над классами меньшинства, в результате чего классификаторы машинного обучения более склонны к классам большинства.
В примере обнаружения мошенничества цель состоит в том, чтобы определить, является ли транзакция мошеннической или нет. Поскольку большинство транзакций не являются мошенническими, это заставляет модель предсказывать мошеннические транзакции как действительные.
Для преодоления этих проблем было разработано несколько подходов, которые можно реализовать на этапе предварительной обработки. Одна из часто используемых стратегий называется повторной выборкой, которая включает в себя методы недостаточной и избыточной выборки. Если кто-то уравновешивает набор данных, удаляя экземпляр из чрезмерно представленного класса, то это называется недостаточной выборкой. Передискретизация может быть достигнута путем добавления аналогичных экземпляров непредставленного класса, чтобы сбалансировать соотношение классов с перекосом. Повторная выборка может быть выполнена с заменой или без нее.
Читать дальше
1. Беликов, В. В. Использование методов глубокого обучения с подкреплением для отбора признаков сетевого трафика при обнаружении компьютерных атак / В. В. Беликов // Программирование. – 2022. – № 6. – С. 3-13.
2. Загудаева, Е. В. Применение метода передискретизации несбалансированных классов данных (SMOTE) для поиска мошеннических транзакций / Е. В. Загудаева, С. С. Звежинский // Технологии информационного общества : Сборник трудов XVI Международной отраслевой научно-технической конференции, Москва, 02–03 марта 2022 года. – Москва: ООО "Издательский дом Медиа паблишер", 2022. – С. 113-115.
3. Менщиков, А. А. Методы и подходы к предобработки данных платежей при условии сильной несбалансированности классов / А. А. Менщиков, М. Ю. Федосенко // StudNet. – 2021. – Т. 4. – № 9.
4. Чио, К. Машинное обучение и безопасность / К. Чио, Д. Фримэн / пер. с анг. А. В. Снастина. – М.: ДМК Пресс, 2020. – 388 с.
5. Сэмплинг в условиях несбалансированности классов [Электронный ресурс]. – Режим доступа: https://crm-systems.info/crm-dlya-operatorov-svyazi/?ysclid=laye9v9pd825147526 (дата обращения 28.11.2022)
6. Обучение с учетом издержек классификации (Cost-sensitive learning) [Электронный ресурс]. – Режим доступа: https://wiki.loginom.ru/articles/cost-sensitive-learning.html (дата обращения 28.11.2022)
7. Cost-Sensitive Meta-learning for Progress Prediction of Subjective Cognitive Decline with Brain Structural MRI / H. Guan, Y. Liu, M. Liu [et al.] // Lecture Notes in Computer Science. – 2021. – Vol. 12905 LNCS. – P. 248-258.
8. Fraud detection with cost-sensitive machine learning [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/fraud-detection-with-cost-sensitive-machine-learning-24b8760d35d9 (дата обращения 28.11.2022)
9. How to do Cost-Sensitive Learning [Электронный ресурс]. – Режим доступа: https://medium.com/rv-data/how-to-do-cost-sensitive-learning-61848bf4f5e7 (дата обращения 28.11.2022)
10. Not All Mistakes Are Created Equal: Cost-sensitive Learning [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/not-all-mistakes-are-created-equal-cost-sensitive-learning-96bbc92bab88 (дата обращения 28.11.2022)
Читать дальше