banner
Дом / Блог / Сравнительная эффективность алгоритмов машинного обучения в радиомике и влияющие факторы
Блог

Сравнительная эффективность алгоритмов машинного обучения в радиомике и влияющие факторы

Jun 26, 2023Jun 26, 2023

Научные отчеты, том 13, Номер статьи: 14069 (2023) Цитировать эту статью

76 Доступов

1 Альтметрика

Подробности о метриках

В настоящее время нет рекомендаций относительно того, какие алгоритмы машинного обучения (ML) следует использовать в радиомике. Цель заключалась в том, чтобы сравнить эффективность алгоритмов МО в радиомике при применении к различным клиническим вопросам, чтобы определить, могут ли некоторые стратегии обеспечить наилучшие и наиболее стабильные результаты независимо от наборов данных. В этом исследовании сравниваются характеристики девяти алгоритмов выбора признаков в сочетании с четырнадцатью алгоритмами двоичной классификации на десяти наборах данных. Эти наборы данных включали радиомикологические характеристики и клинический диагноз для бинарных клинических классификаций, включая пневмонию или саркопению COVID-19 на КТ, поражения головы и шеи, орбиты или матки на МРТ. Для каждого набора данных было создано разделение поезд-тест. Каждая из 126 (9 × 14) комбинаций алгоритмов выбора признаков и алгоритмов классификации была обучена и настроена с использованием десятикратной перекрестной проверки, затем рассчитывалась AUC. Эту процедуру повторяли три раза для каждого набора данных. Наилучшие общие характеристики были получены при использовании JMI и JMIM в качестве алгоритмов выбора признаков, а также моделей случайного леса и линейной регрессии в качестве алгоритмов классификации. Выбор алгоритма классификации был фактором, объясняющим большую часть изменений производительности (10% от общей дисперсии). Выбор алгоритма выбора признаков объяснил только 2% вариаций, тогда как разделение поезд-тест объяснило 9%.

Радиомику можно определить как количественное извлечение большого количества признаков из медицинских изображений для открытия новых прогностических, диагностических или прогностических биомаркеров заболеваний. Радиомика позволяет неинвазивно извлекать информацию, невидимую для человеческого глаза, из медицинских изображений с использованием методов машинного обучения и показывает многообещающие результаты. Однако отсутствие стандартов препятствует использованию радиомикроных биомаркеров в клинических условиях1.

Радиомикальное исследование состоит из пяти этапов: формирование когорты и получение изображений, сегментация области интереса (ROI), извлечение признаков, моделирование и внешняя проверка на (в идеале) независимом наборе данных2.

Сам этап моделирования состоит из двух отдельных этапов: выбора признаков и прогнозирования. Для каждого шага доступно множество различных методов и алгоритмов, что приводит к большому количеству возможных комбинаций. На сегодняшний день не разработано стратегии или рекомендаций относительно того, какой алгоритм(ы) следует использовать предпочтительно при выполнении радиомикроники. Поэтому некоторые команды решили одновременно тестировать разные алгоритмы при проведении исследований, поскольку считается, что алгоритмы, дающие наилучшие результаты, зависят от сценария3. Однако тестирование большого количества стратегий при выполнении радиомикроники на заданном наборе данных увеличивает риск ложных открытий. Поэтому может оказаться желательным использовать меньшее количество выбранных моделей, чтобы повысить вероятность получения значимых результатов.

Даже если есть некоторые инициативы по выпуску таких рекомендаций, как «Показатель качества радиомики»2 или «Контрольный список для искусственного интеллекта в медицинской визуализации» (CLAIM)4, эти рекомендации не соблюдаются должным образом. Например, из 69 исследований машинного обучения по диагностике или прогнозированию Covid-19, исследованных Робертсом и др.5, только 25 получили RQS выше 6 из 36. Эти результаты подтверждаются обзором Спадареллы и др.6, в котором получены медианный RQS 21% (7,5) для 44 радиомикологических исследований. Это серьезная проблема, поскольку неправильный методологический выбор на разных этапах исследования может привести к предвзятым результатам. Смещение может быть введено уже на этапе формирования когорты, если распределение набора обучающих данных отличается от целевой совокупности7. Это также может быть связано с изменчивостью оператора во время аннотации набора данных. Йоскович и соавт.8 показали на 3193 сегментах КТ, что средняя вариабельность перекрытия объема между двумя наблюдателями составила 37%. Эта изменчивость может помешать воспроизведению некоторых функций радиомики. Кроме того, алгоритмы машинного обучения могут переопределяться или обеспечивать плохо оцененную производительность. Эксперименты Варокво и др.9 с наборами данных нейровизуализации показывают, что размер выборки исследования в сто человек приводит к ошибкам ± 10% в точности прогнозирования. И наоборот, исследование Рулофса и др.10, посвященное соревнованиям Kaggle, показало, что переобучение можно предотвратить с помощью достаточно больших тестовых выборок. Рулофс считал 10 000 примеров минимумом для защиты от переобучения.