Рекурсивное разбиение - Википедия - Recursive partitioning

Рекурсивное разбиение это статистический метод для многовариантный анализ.[1] Рекурсивное разбиение создает Древо решений который стремится правильно классифицировать членов популяции путем разделения ее на подгруппы на основе нескольких дихотомических независимые переменные. Этот процесс называется рекурсивный потому что каждая подгруппа, в свою очередь, может быть разделена неопределенное количество раз, пока процесс разделения не завершится после достижения определенного критерия остановки.

Рекурсивное дерево разбиения, показывающее выживаемость пассажиров на Титаник («sibsp» - это количество супругов или братьев и сестер на борту). Цифры под листьями показывают вероятность выживания и процент наблюдений в листе. Подводя итог: ваши шансы на выживание были хорошими, если бы вы были (i) женщиной или (ii) мальчиком без нескольких членов семьи.

Рекурсивные методы разбиения разрабатываются с 1980-х годов. Хорошо известные методы рекурсивного разбиения включают метод Росс Куинлана. Алгоритм ID3 и его преемники, C4.5 и C5.0 и Деревья классификации и регрессии. Ансамблевое обучение такие методы как Случайные леса помогают преодолеть общую критику этих методов - их уязвимость переоснащение данных - используя разные алгоритмы и каким-либо образом комбинируя их выходные данные.

Эта статья посвящена рекурсивному разделению для медицинских диагностический тесты, но этот метод имеет гораздо более широкое применение. Древо решений.

По сравнению с регрессионным анализом, который создает формулу, которую медицинские работники могут использовать для расчета вероятности того, что у пациента есть заболевание, рекурсивное разделение создает правило, такое как `` Если пациент обнаружил x, y или z, у него, вероятно, есть болезнь q '.

Разновидностью является «линейное рекурсивное разбиение Кокса».[2]

Преимущества и недостатки

По сравнению с другими методами с несколькими переменными, рекурсивное разбиение имеет преимущества и недостатки.

  • Преимущества:
    • Создает клинически более интуитивно понятные модели, не требующие от пользователя выполнения расчетов.[3]
    • Позволяет варьировать приоритетность неправильной классификации, чтобы создать правило принятия решения, которое имеет больше чувствительность или же специфичность.[2]
    • Может быть точнее.[4]
  • Недостатки:
    • Не работает для непрерывных переменных[5]
    • Может привести к перегрузке данных.

Примеры

Имеются примеры использования рекурсивного разбиения при исследовании диагностических тестов.[6][7][8][9][10][11] Goldman использовал рекурсивное разбиение для определения приоритетов чувствительность в диагностике инфаркт миокарда среди пациентов с болью в груди в отделении неотложной помощи.[11]

Смотрите также

Рекомендации

  1. ^ Брейман, Лео (1984). Деревья классификации и регрессии. Бока-Ратон: Чепмен и Холл / CRC. ISBN  978-0-412-04841-8.
  2. ^ а б Кук EF, Goldman L (1984). «Эмпирическое сравнение многомерных аналитических методов: преимущества и недостатки рекурсивного разбиения анализа». Журнал хронических болезней. 37 (9–10): 721–31. Дои:10.1016/0021-9681(84)90041-9. PMID  6501544.
  3. ^ Джеймс К.Э., Белый RF, Kraemer HC (2005). «Повторная проверка разделения выборки для оценки логистической регрессии и рекурсивного разбиения: приложение для прогнозирования когнитивных нарушений». Статистика в медицине. 24 (19): 3019–35. Дои:10.1002 / sim.2154. PMID  16149128.
  4. ^ Каттан М.В., Гесс К.Р., Бек Дж. Р. (1998). «Эксперименты по определению того, преодолевает ли рекурсивное разделение (CART) или искусственная нейронная сеть теоретические ограничения регрессии пропорциональных рисков Кокса». Comput. Биомед. Res. 31 (5): 363–73. Дои:10.1006 / cbmr.1998.1488. PMID  9790741.
  5. ^ Ли JW, Um SH, Ли JB, Мун Дж, Чо Х (2006). «Оценка и постановка систем с использованием моделирования линейной регрессии Кокса и рекурсивного разбиения». Методы информации в медицине. 45 (1): 37–43. Дои:10.1055 / с-0038-1634034. PMID  16482368.
  6. ^ Фонаров Г.К., Адамс К.Ф., Абрахам В.Т., Янси К.В., Боскардин В.Дж. (2005). «Стратификация риска госпитальной смертности при острой декомпенсированной сердечной недостаточности: классификация и регрессионный древовидный анализ». JAMA. 293 (5): 572–80. Дои:10.1001 / jama.293.5.572. PMID  15687312.
  7. ^ Стиелл И.Г., Уэллс Г.А., Вандемхин К.Л. и др. (2001). «Канадское правило шейного отдела позвоночника для рентгенографии у настороженных и стабильных пациентов с травмой». JAMA. 286 (15): 1841–8. Дои:10.1001 / jama.286.15.1841. PMID  11597285.
  8. ^ Хайдель М.Дж., Престон, Калифорния, Миллс Т.Дж., Любер С., Блодо Э., ДеБлиё PM (2000). «Показания к компьютерной томографии у больных с легкой травмой головы». N. Engl. J. Med. 343 (2): 100–5. Дои:10.1056 / NEJM200007133430204. PMID  10891517.
  9. ^ Эдуорти С.М., Затараин Э., МакШейн Д.Д., Блох Д.А. (1988). «Анализ набора данных критериев ARA lupus 1982 года с помощью методологии рекурсивного разделения: новое понимание относительных достоинств отдельных критериев». J. Rheumatol. 15 (10): 1493–8. PMID  3060613.
  10. ^ Стиелл И.Г., Гринберг Г.Х., Уэллс Г.А. и др. (1996). «Перспективная проверка решающего правила для использования рентгенографии при острых травмах колена». JAMA. 275 (8): 611–5. Дои:10.1001 / jama.275.8.611. PMID  8594242.
  11. ^ а б Гольдман Л., Вайнберг М., Вайсберг М. и др. (1982). «Компьютерный протокол для помощи в диагностике пациентов отделения неотложной помощи с острой болью в груди». N. Engl. J. Med. 307 (10): 588–96. Дои:10.1056 / NEJM198209023071004. PMID  7110205.