АЛГОРИТМ ДЛЯ СОЗДАНИЯ ПОЛУСИНТЕТИЧЕСКОГО НАБОРА ДАННЫХ ПО ДИАБЕТУ
DOI:
https://doi.org/10.26577/JMMCS1291202610Ключевые слова:
прогнозирование диабета, полусинтетический набор данных, аугментация данных, алгоритмы машинного обучения, синтетические медицинские данные, генеративная модель, сходство объектовАннотация
Последние достижения в области искусственного интеллекта и машинного обучения открыли новые возможности для совершенствования практики медицинской диагностики. Однако исследователи сталкиваются с трудностями в доступе к качественным наборам данных изза конфиденциальности реальных клинических данных, связанных с сахарным диабетом. Основной целью данного исследования является разработка алгоритма, предназначенного для генерации полусинтетического обучающего набора данных, направленного на повышение точности классификации сахарного диабета, в частности, диабета 1 и 2 типа. Был разработан алгоритм для генерации полусинтетических данных о диабете путем статистического анализа клинических атрибутов из реальных записей пациентов. Для улучшения генерации синтетических выборок без изменения свойств исходных данных был использован подход, основанный на сходстве и ориентированный на отношения между классами и объектами. Этот подход успешно сгенерировал примеры синтетических данных, которые сохранили присущую структуру и распределение, типичные для реальных данных пациентов. Механизм, основанный на сходстве, обеспечил релевантность созданных примеров, в то время как в исследовании была определена последовательность шагов, направленных на повышение качества синтетических наборов данных. Предложенный алгоритм создает искусственные наборы данных для классификации диабета с защитой данных пациентов. Данная методика привела к увеличению внутриклассового сходства с 76.18% до 82.93%, что, в свою очередь, повысило диагностическую точность моделей на основе искусственного интеллекта.










