Сбивает с толку - Confounding

Иллюстрация простого смешивающего фактора. Другими словами, Z является причиной Икс и Y.

В статистике смущающий (также смешивающая переменная, мешающий фактор, или же скрытая переменная) - это переменная, которая влияет как на зависимая переменная и независимая переменная, вызывая ложная ассоциация. Смущение - это причинный понятие, и как таковое, не может быть описано в терминах корреляций или ассоциаций.[1][2][3]

Определение

В то время как посредник является фактором в причинно-следственной цепочке (1), вмешивающийся фактор - это ложный фактор, неправильно подразумевающий причинность (2).

Смешение определяется в терминах модели генерации данных (как на рисунке выше). Позволять Икс быть некоторыми независимая переменная, и Y немного зависимая переменная. Чтобы оценить эффект Икс на Y, статистик должен подавлять эффекты посторонние переменные это влияет на оба Икс и Y. Мы говорим что Икс и Y сбиты с толку какой-то другой переменной Z в любое время Z причинно влияет на оба Икс и Y.

Позволять быть вероятностью события Y = у при гипотетическом вмешательстве Икс = Икс. Икс и Y не смешиваются тогда и только тогда, когда выполняется следующее:

 

 

 

 

(1)

для всех значений Икс = Икс и Y = у, куда это условная возможность увидев Икс = Икс. Интуитивно это равенство утверждает, что Икс и Y не сбиваются с толку всякий раз, когда наблюдаемая связь между ними такая же, как связь, которая была бы измерена в контролируемый эксперимент, с Икс рандомизированный.

В принципе, определяющее равенство можно проверить на основе модели генерации данных, предполагая, что у нас есть все уравнения и вероятности, связанные с моделью. Это делается путем моделирования вмешательства (видеть Байесовская сеть ) и проверка того, равна ли полученная вероятность Y условной вероятности . Однако оказывается, что одной структуры графа достаточно для проверки равенства .

Контроль

Рассмотрим исследователя, пытающегося оценить эффективность препарата. Икс, на основе данных о населении, в котором пациенты выбирали наркотики. Данные показывают, что пол (Z) влияет на выбор пациентом препарата, а также на его шансы на выздоровление (Y). В этом сценарии пол Z запутывает отношения между Икс и Y, поскольку Z является причиной обоих Икс и Y:

Причинно-следственная диаграмма гендера как распространенной причины употребления наркотиков и выздоровления

У нас есть это

 

 

 

 

(2)

поскольку наблюдаемая величина содержит информацию о корреляции между Икс и Z, а интервенционная величина - нет (поскольку Икс не коррелирует с Z в рандомизированном эксперименте). Статистику нужна объективная оценка , но в случаях, когда доступны только данные наблюдений, несмещенную оценку можно получить только путем «корректировки» всех смешивающих факторов, а именно, обусловив их различные значения и усреднив результат. В случае единственного мешающего фактора Z, это приводит к "формуле корректировки":

 

 

 

 

(3)

что дает объективную оценку причинного эффекта Икс на Y. Та же формула корректировки работает, когда есть несколько факторов, мешающих, за исключением, в данном случае, выбора набора. Z переменных, которые гарантировали бы объективные оценки, нужно делать с осторожностью. Критерий правильного выбора переменных называется лазейкой. [4][5] и требует, чтобы выбранный набор Z «блокирует» (или перехватывает)[требуется разъяснение ] каждый путь[требуется разъяснение ] из Икс к Y который заканчивается стрелкой на X. Такие наборы называются «допустимыми с черного хода» и могут включать переменные, которые не являются общими причинами Икс и Y, а только его прокси.

Возвращаясь к примеру употребления наркотиков, поскольку Z соответствует требованиям Back-Door (то есть перехватывает один Black-Door путь ) действует формула корректировки Back-Door:

 

 

 

 

(4)

Таким образом, врач может предсказать вероятный эффект от введения лекарства на основе наблюдательных исследований, в которых условные вероятности, появляющиеся в правой части уравнения, можно оценить с помощью регрессии.

Вопреки распространенному мнению, добавление ковариат в набор корректировок Z может внести предвзятость. Типичный контрпример возникает, когда Z это общий эффект Икс и Y,[6] случай, когда Z не мешает (т. е. нулевой набор является допустимым с черного хода) и корректируется для Z приведет к смещению, известному как "коллайдер смещение "или"Парадокс Берксона."

В общем, смешивание можно контролировать с помощью корректировки тогда и только тогда, когда существует набор наблюдаемых ковариат, удовлетворяющих условию Back-Door. Более того, если Z такой набор, то формула настройки уравнения. (3) действительно <4,5>. До-исчисление Перла дает дополнительные условия, при которых P (у | делать(Икс)) можно оценить, не обязательно корректировкой.[7]

История

Согласно Морабиа (2011),[8] это слово происходит от Средневековая латынь глагол «confudere», что означало «смешивание», вероятно, был выбран для обозначения путаницы (от латинского: con = with + fusus = смешивать или объединять вместе) между причиной, которую нужно оценить, и другими причинами, которые могут повлиять на результат и таким образом сбивают с толку или мешают желаемой оценке. Фишер использовал слово «смешение» в своей книге 1935 года «План экспериментов»[9] для обозначения любого источника ошибки в его идеале рандомизированного эксперимента. По словам Ванденбрука (2004)[10] это было Киш[11] кто использовал слово «смешивание» в современном смысле этого слова для обозначения «несравнимости» двух или более групп (например, подвергшихся и не подвергавшихся воздействию) в наблюдательном исследовании.

Формальные условия, определяющие, что делает одни группы «сопоставимыми», а другие «несравненными», были позже разработаны в эпидемиология Гренландия и Робинс (1986)[12] используя контрфактический язык Нейман (1935)[13] и Вбивать в голову (1974).[14] Позже они были дополнены графическими критериями, такими как условие Back-Door (Жемчужина 1993; Гренландия, Жемчуг и Робинс, 1999).[3][4]

Было показано, что графические критерии формально эквивалентны контрфактическому определению,[15] но более прозрачным для исследователей, полагающихся на модели процессов.

Типы

В случае Рискованные оценки оценка величины и характера риска для человек здоровье, важно контролировать смешение, чтобы изолировать эффект от конкретной опасности, такой как пищевая добавка, пестицид, или новый препарат. Для проспективных исследований сложно набирать и проверять добровольцев с одинаковым опытом (возраст, диета, образование, география и т. Д.), А в исторических исследованиях могут быть аналогичные различия. Из-за невозможности контролировать вариабельность добровольцев и исследований на людях, смешивание является особой проблемой. Поэтому, эксперименты предлагают способ избежать большинства форм смешения.

В некоторых дисциплинах смешение подразделяется на разные типы. В эпидемиология, один тип - "смешение по признаку",[16] что касается смешения с наблюдательные исследования. Поскольку прогностические факторы могут влиять на решения о лечении (и смещать оценки эффектов лечения), контроль известных прогностических факторов может уменьшить эту проблему, но всегда возможно, что забытый или неизвестный фактор не был включен или что факторы сложно взаимодействуют. Смешение по показаниям было описано как наиболее важное ограничение наблюдательных исследований. На рандомизированные испытания не влияет искажение показаний из-за случайное присвоение.

Смешивающие переменные также можно разделить на категории в соответствии с их источником. Выбор инструмента измерения (операционное смешение), ситуационных характеристик (процедурное смешение) или межличностных различий (личностное смешение).

  • An оперативное смешение может встречаться как в экспериментальный и неэкспериментальные исследования. Этот тип смешения возникает, когда мера, предназначенная для оценки конкретной конструкции, непреднамеренно измеряет и что-то еще.[17]
  • А процедурное смешение может произойти в лабораторном эксперименте или квазиэксперимент. Этот тип смешения возникает, когда исследователь ошибочно позволяет другой переменной изменяться вместе с управляемой независимой переменной.[17]
  • А сбивающий с толку человек возникает, когда две или более группы единиц анализируются вместе (например, работники разных профессий), несмотря на то, что они различаются по одной или нескольким другим (наблюдаемым или ненаблюдаемым) характеристикам (например, полу).[18]

Примеры

Допустим, кто-то изучает связь между очередностью рождения (1-й ребенок, 2-й ребенок и т. Д.) И наличием Синдром Дауна в ребенке. В этом сценарии возраст матери будет мешающей переменной:

  1. Более высокий возраст матери напрямую связан с синдромом Дауна у ребенка
  2. Более высокий возраст матери напрямую связан с синдромом Дауна, независимо от очередности рождения (мать, имеющая первого или третьего ребенка в возрасте 50 лет, представляет такой же риск)
  3. Возраст матери напрямую связан с очередностью рождения (второй ребенок, за исключением двойни, рождается, когда мать старше, чем она была на момент рождения 1-го ребенка)
  4. Возраст матери не является следствием очередности рождения (наличие второго ребенка не влияет на возраст матери)

В Рискованные оценки, такие факторы, как возраст, пол и уровень образования, часто влияют на состояние здоровья, и поэтому их следует контролировать. Помимо этих факторов, исследователи могут не принимать во внимание или не иметь доступа к данным о других причинных факторах. Примером может служить исследование влияния курения табака на здоровье человека. Курение, употребление алкоголя и диета связаны между собой. Оценка риска, которая учитывает последствия курения, но не учитывает потребление алкоголя или диету, может переоценить риск курения.[19] Курение и вмешательство рассматриваются при оценке профессионального риска, например, при оценке безопасности добычи угля.[20] Когда нет большой выборки некурящих или непьющих, занимающихся определенной профессией, оценка риска может быть смещена в сторону выявления негативного воздействия на здоровье.

Снижение возможности смешения

Снижение вероятности появления и влияния мешающих факторов может быть получено за счет увеличения типов и количества сравнений, выполняемых в анализе. Если измерения или манипуляции с основными конструкциями ошибочны (т.е. существуют операционные или процедурные затруднения), анализ подгрупп может не выявить проблем в анализе. Кроме того, увеличение количества сравнений может создать другие проблемы (см. множественные сравнения ).

Экспертная оценка это процесс, который может помочь в сокращении случаев искажения либо до проведения исследования, либо после анализа. Рецензирование полагается на коллективную экспертизу в рамках дисциплины для выявления потенциальных слабых мест в дизайне и анализе исследования, включая то, как результаты могут зависеть от искажения. По аналогии, репликация может проверить надежность результатов одного исследования при альтернативных условиях исследования или альтернативных анализах (например, с учетом возможных искажений, не выявленных в первоначальном исследовании).

Смежные эффекты могут иметь меньшую вероятность возникновения и действовать одинаково во многих случаях и в разных местах.[нужна цитата ] При выборе исследовательских участков можно детально охарактеризовать окружающую среду на участках исследования, чтобы убедиться, что участки экологически схожи и, следовательно, с меньшей вероятностью будут иметь искажающие переменные. Наконец, можно изучить взаимосвязь между переменными окружающей среды, которые могут затруднять анализ, и измеренными параметрами. Информация, относящаяся к переменным окружающей среды, затем может быть использована в моделях для конкретных участков для определения остаточной дисперсии, которая может быть вызвана реальными эффектами.[21]

В зависимости от типа существующего дизайна исследования существуют различные способы его изменения для активного исключения или контроля смешивающих переменных:[22]

  • Исследования методом случай-контроль в равной степени назначьте вмешивающиеся факторы для обеих групп, случаев и контроля. Например, если кто-то хочет изучить причину инфаркта миокарда и считает, что возраст является вероятной искажающей переменной, каждому 67-летнему пациенту с инфарктом будет сопоставлен здоровый 67-летний «контрольный» человек. В исследованиях случай-контроль наиболее часто совпадающими переменными являются возраст и пол. Недостаток: исследования случай-контроль возможны только тогда, когда легко найти элементы управления, т.е. лица, чей статус по отношению ко всем известным потенциальным смешивающим факторам такой же, как и у пациента данного случая: предположим, что исследование методом случай-контроль пытается найти причину данного заболевания у человека, которому 1) 45 лет, 2 ) Афроамериканец, 3) из Аляска, 4) заядлый футболист, 5) вегетарианец и 6) работает в сфере образования. Теоретически совершенным контролем был бы человек, который, помимо того, что у него нет исследуемого заболевания, соответствует всем этим характеристикам и не имеет болезней, которых также не было бы у пациента, - но найти такой контроль было бы огромной задачей.
  • Когортные исследования: Степень соответствия также возможна, и это часто достигается путем включения только определенных возрастных групп или определенного пола в исследуемую популяцию, создавая когорту людей, которые имеют схожие характеристики, и, таким образом, все когорты сопоставимы в отношении возможной смешивающей переменной. . Например, если считается, что возраст и пол противоречат друг другу, только мужчины в возрасте от 40 до 50 лет будут участвовать в когортном исследовании, которое будет оценивать риск инфаркта миокарда в когортах, которые либо физически активны, либо неактивны. Недостаток: в когортных исследованиях чрезмерное исключение входных данных может привести к тому, что исследователи будут слишком узко определять набор лиц, находящихся в аналогичном положении, для которых, по их мнению, исследование полезно, так что другие люди, к которым действительно применима причинная связь, могут потерять возможность воспользоваться рекомендациями исследования. Точно так же «чрезмерная стратификация» входных данных в рамках исследования может уменьшить размер выборки в данной страте до точки, когда обобщения, сделанные путем наблюдения за членами этой страты, не являются статистически значимый.
  • Двойное ослепление: скрывает от исследуемой популяции и наблюдателей состав участников экспериментальной группы. Не позволяя участникам узнать, получают ли они лечение или нет, эффект плацебо должно быть одинаковым для контрольной и экспериментальной групп. Не позволяя наблюдателям узнать об их членстве, не должно быть предвзятости со стороны исследователей, которые по-разному относятся к группам или по-разному интерпретируют результаты.
  • Рандомизированное контролируемое исследование: Метод, при котором исследуемая популяция делится случайным образом, чтобы снизить вероятность самоотбора участниками или предвзятости разработчиков исследования. Перед началом эксперимента тестировщики распределяют участников пула участников по своим группам (контрольным, интервенционным, параллельным), используя процесс рандомизации, такой как использование генератора случайных чисел. Например, в исследовании влияния физических упражнений выводы были бы менее достоверными, если бы участникам был предоставлен выбор, хотят ли они принадлежать к контрольной группе, которая не будет выполнять упражнения, или к группе вмешательства, которая будет готова принять участие в тренировке. программа упражнений. Затем в исследовании будут учитываться и другие переменные, помимо упражнений, такие как уровень здоровья до эксперимента и мотивация для принятия здоровых занятий. Со стороны наблюдателя экспериментатор может выбрать кандидатов, которые с большей вероятностью продемонстрируют результаты, которые хочет увидеть исследование, или могут интерпретировать субъективные результаты (более энергичный, позитивный настрой) в соответствии с их желаниями.
  • Стратификация: Как и в примере выше, считается, что физическая активность защищает от инфаркта миокарда; и возраст считается возможным вмешивающимся фактором. Затем отобранные данные стратифицируются по возрастным группам - это означает, что связь между активностью и инфарктом будет анализироваться для каждой возрастной группы. Если разные возрастные группы (или возрастные слои) сильно различаются коэффициенты риска, возраст следует рассматривать как смешивающую переменную. Существуют статистические инструменты, в том числе методы Мантеля – Хензеля, которые учитывают стратификацию наборов данных.
  • Контроль за искажением путем измерения известных искажающих факторов и включения их в качестве ковариаты является многовариантный анализ Такие как регрессивный анализ. Многовариантный анализ дает гораздо меньше информации о сила или же полярность смешивающей переменной, чем методы стратификации. Например, если многомерный анализ контролирует антидепрессант, и он не расслаивает антидепрессанты на TCA и СИОЗС, то он проигнорирует, что эти два класса антидепрессантов имеют противоположный эффекты на инфаркт миокарда, и одно много сильнее чем другой.

У всех этих методов есть свои недостатки:

  1. Лучшая доступная защита от возможности ложных результатов из-за искажения часто состоит в том, чтобы отказаться от усилий по стратификации и вместо этого провести рандомизированное исследование из достаточно большой выборка, взятая в целом, так что все потенциальные смешивающие переменные (известные и неизвестные) будут случайно распределены по всем исследовательским группам и, следовательно, не будут коррелированы с двоичной переменной для включения / исключения в любой группе.
  2. Этические соображения: в двойных слепых и рандомизированных контролируемых испытаниях участники не знают, что они реципиенты фиктивные методы лечения и может быть отказано в эффективном лечении.[23] Существует вероятность того, что пациенты соглашаются на инвазивную операцию (которая сопряжена с реальным медицинским риском) только при том понимании, что они получают лечение. Хотя это этическая проблема, это не полный отчет о ситуации. Для операций, которые в настоящее время проводятся регулярно, но для которых нет конкретных доказательств подлинного эффекта, могут возникнуть этические проблемы для продолжения таких операций. В таких обстоятельствах многие люди подвергаются реальным рискам хирургического вмешательства, однако эти методы лечения, возможно, не принесут заметной пользы. Контроль ложной хирургии - это метод, который может позволить медицинской науке определить, является ли хирургическая процедура эффективной или нет. Учитывая, что существуют известные риски, связанные с медицинскими операциями, сомнительно этично разрешать проведение непроверенных операций до бесконечности в будущем.

Смотрите также

Рекомендации

  1. ^ Перл, Дж. (2009). Парадокс Симпсона, Смешивание и сворачивание в Причинная связь: модели, рассуждения и выводы (2-е изд.). Нью-Йорк: Издательство Кембриджского университета.
  2. ^ VanderWeele, T.J .; Шпицер И. (2013). «Об определении конфаунтера». Анналы статистики. 41 (1): 196–220. arXiv:1304.0564. Дои:10.1214 / 12-aos1058. ЧВК  4276366. PMID  25544784.
  3. ^ а б Гренландия, S .; Робинс, Дж. М .; Перл, Дж. (1999). «Смешение и коллапсируемость в причинном выводе». Статистическая наука. 14 (1): 29–46. Дои:10.1214 / сс / 1009211805.
  4. ^ а б Перл, Дж. (1993). «Аспекты графических моделей, связанные с причинностью», В трудах 49-й сессии Международного статистического института науки, С. 391 - 401.
  5. ^ Перл, Дж. (2009). Причинные диаграммы и выявление причинных эффектов в Причинность: модели, рассуждения и выводы (2-е изд.). Нью-Йорк, Нью-Йорк, США: Издательство Кембриджского университета.
  6. ^ Ли, П. Х. (2014). «Следует ли нам делать поправку на противоречие, если эмпирические и теоретические критерии дают противоречивые результаты? Исследование с помощью моделирования». Научный представитель. 4: 6085. Bibcode:2014НатСР ... 4Э6085Л. Дои:10.1038 / srep06085. ЧВК  5381407. PMID  25124526.
  7. ^ Шпицер, И .; Перл, Дж. (2008). «Полные методы идентификации причинной иерархии». Журнал исследований в области машинного обучения. 9: 1941–1979.
  8. ^ Морабия, А (2011). «История современной эпидемиологической концепции смешения» (PDF). Журнал эпидемиологии и общественного здравоохранения. 65 (4): 297–300. Дои:10.1136 / jech.2010.112565. PMID  20696848. S2CID  9068532.
  9. ^ Фишер, Р. А. (1935). План экспериментов (стр. 114-145).
  10. ^ Ванденбрук, Дж. П. (2004). «История смешения». Соз Правентивмед. 47 (4): 216–224. Дои:10.1007 / BF01326402. PMID  12415925. S2CID  198174446.
  11. ^ Киш, L (1959). «Некоторые статистические проблемы в дизайне исследования». Am Sociol. 26 (3): 328–338. Дои:10.2307/2089381. JSTOR  2089381.
  12. ^ Гренландия, S .; Робинс, Дж. М. (1986). «Идентифицируемость, возможность обмена и эпидемиологическое смешение». Международный журнал эпидемиологии. 15 (3): 413–419. CiteSeerX  10.1.1.157.6445. Дои:10.1093 / ije / 15.3.413. PMID  3771081.
  13. ^ Нейман, J., при сотрудничестве К. Иваскевича и С. Колодзейчика (1935). Статистические проблемы сельскохозяйственных экспериментов (с обсуждением). Suppl J Roy Statist Soc Ser В 2 107-180.
  14. ^ Рубин, Д. Б. (1974). «Оценка причинных эффектов лечения в рандомизированных и нерандомизированных исследованиях». Журнал педагогической психологии. 66 (5): 688–701. Дои:10,1037 / ч0037350. S2CID  52832751.
  15. ^ Перл, Дж. (2009). Причинная связь: модели, рассуждения и выводы (2-е изд.). Нью-Йорк, Нью-Йорк, США: Издательство Кембриджского университета.
  16. ^ Джонстон, С. С. (2001). «Выявление противоречий по показаниям с помощью слепого проспективного обзора». Am J Epidemiol. 154 (3): 276–284. Дои:10.1093 / aje / 154.3.276. PMID  11479193.
  17. ^ а б Пелхэм, Бретт (2006). Проведение исследований в области психологии. Бельмонт: Уодсворт. ISBN  978-0-534-53294-9.
  18. ^ Steg, L .; Buunk, A. P .; Ротенгаттер, Т. (2008). "Глава 4". Прикладная социальная психология: понимание и решение социальных проблем. Кембридж, Великобритания: Издательство Кембриджского университета.
  19. ^ Тьённеланд, Энн; Грёнбек, Мортен; Стрипп, Конни; Овервад, Ким (январь 1999 г.). «Потребление вина и диета в случайной выборке из 48763 датских мужчин и женщин». Американское общество питания Американский журнал клинического питания. 69 (1): 49–54. Дои:10.1093 / ajcn / 69.1.49. PMID  9925122.
  20. ^ Аксельсон, О. (1989). «Отказ от курения в профессиональной эпидемиологии». Британский журнал промышленной медицины. 46 (8): 505–07. Дои:10.1136 / oem.46.8.505. ЧВК  1009818. PMID  2673334.
  21. ^ Калоу, Питер П. (2009) Справочник по оценке и управлению экологическими рисками, Wiley
  22. ^ Мэйрент, Шерри Л. (1987). Эпидемиология в медицине. Липпинкотт Уильямс и Уилкинс. ISBN  978-0-316-35636-7.
  23. ^ Эмануэль, Иезекииль J; Миллер, Франклин Дж. (20 сентября 2001 г.). «Этика плацебо-контролируемых испытаний - золотая середина». Медицинский журнал Новой Англии. 345 (12): 915–9. Дои:10.1056 / nejm200109203451211. PMID  11565527.

дальнейшее чтение

внешняя ссылка

Эти сайты содержат описания или примеры смешанных переменных: