Тест Даннетта - Википедия - Dunnetts test

В статистика, Тест Даннета это множественное сравнение процедура^[1] разработан канадским статистиком Чарльз Даннетт^[2] для сравнения каждой из нескольких обработок с одним контролем.^[3]^[4] Множественные сравнения с контролем также называются сравнениями «многие к одному».

История

Тест Даннета был разработан в 1955 году;^[5] Обновленная таблица критических значений была опубликована в 1964 году.^[6]

Проблема множественных сравнений

Проблема множественных сравнений, множественности или множественного тестирования возникает, когда один одновременно рассматривает набор статистических выводов или делает вывод о подмножестве параметров, выбранных на основе наблюдаемых значений. Основной проблемой при любом обсуждении процедур множественного сравнения является вопрос о вероятности ошибок типа I. Большинство различий между альтернативными методами связано с разными подходами к вопросу о том, как контролировать эти ошибки. Проблема отчасти техническая; но на самом деле это гораздо более субъективный вопрос о том, как вы хотите определить частоту ошибок и насколько большим вы хотите позволить максимально возможную частоту ошибок.^[7] Тест Даннета хорошо известен и широко используется в процедуре множественного сравнения для одновременного сравнения, посредством интервальной оценки или проверки гипотез, всех активных обработок с контролем при выборке из распределения, в котором допущение нормальности является разумным. частота ошибок в семье на или ниже ${ displaystyle alpha}$ при выполнении множественных сравнений экспериментальной группы с контролем.^[7]

Использование теста Даннета

Оригинальная работа по проблеме множественных сравнений была сделана Tukey и Шеффе. Их метод был общим, он рассматривал все виды попарных сравнений.^[7] Методы Тьюки и Шеффе позволяют проводить любое количество сравнений среди набора выборочных средних. С другой стороны, тест Даннета сравнивает только одну группу с другими, обращаясь к частному случаю проблемы множественных сравнений - попарному сравнению нескольких групп лечения с одной контрольной группой. В общем случае, когда мы сравниваем каждую из пар, делаем ${ Displaystyle к (к-1) { big /} 2}$ сравнения (где k - количество групп), но в случае лечения и контроля мы будем делать только ${ Displaystyle (к-1)}$ сравнения. Если в случае экспериментальной и контрольной групп мы должны были использовать более общие методы Тьюки и Шеффе, они могли бы привести к излишне широким доверительным интервалам. Тест Даннета учитывает особую структуру сравнения лечения с контролем, что дает более узкие доверительные интервалы.^[5]
Очень часто тест Даннета используется в медицинских экспериментах, например, для сравнения результатов анализа крови у трех групп животных, одна из которых служила контролем, а две другие принимали два разных препарата. Другой распространенный метод использования этого метода - агрономы: агрономы могут захотеть изучить влияние определенных химикатов, добавленных в почву, на урожай, поэтому они оставят некоторые участки без обработки (контрольные участки) и сравнят их с участками, на которых были добавлены химикаты. почва (участки обработки).

Формальное описание теста Даннета

Тест Даннета выполняется путем вычисления T-статистика Стьюдента для каждой экспериментальной или лечебной группы, где статистика сравнивает экспериментальную группу с одной контрольной группой.^[8]^[9] Поскольку каждое сравнение имеет общий элемент управления, процедура включает зависимости между этими сравнениями. В частности, все t-статистики выводятся из одной и той же оценки дисперсии ошибок, которая получается путем объединения сумм квадратов ошибок по всем (экспериментальной и контрольной) группам. Формальная статистика теста для теста Даннета является либо наибольшей по абсолютной величине этой t-статистики (если требуется двусторонний критерий), либо наиболее отрицательной или наиболее положительной из t-статистики (если односторонний критерий является требуется).

В тесте Даннета мы можем использовать общую таблицу критических значений, но в настоящее время более гибкие параметры доступны во многих статистических пакетах, таких как р. Критические значения для любой заданной процентной точки зависят от того, выполняется ли односторонний или двусторонний тест; количество сравниваемых групп; общее количество испытаний.

Предположения

Анализ рассматривает случай, когда результаты эксперимента являются числовыми, и эксперимент проводится для сравнения p обработок с контрольной группой. Результаты можно обобщить в виде набора ${ Displaystyle (п + 1)}$ вычисленные средние по множествам наблюдений, ${ displaystyle ({ bar {X_ {0}}}, ..., { bar {X_ {p}}})}$ , пока ${ displaystyle ({ bar {X_ {1}}}, ..., { bar {X_ {p}}})}$ относятся к лечению и ${ displaystyle { bar {X_ {0}}}}$ относится к контрольному набору наблюдений, и ${ displaystyle s}$ независимая оценка общего стандартного отклонения всех ${ displaystyle p + 1}$ наборы наблюдений. Все ${ displaystyle { bar {X_ {i}}}}$ из ${ displaystyle p + 1}$ предполагается, что наборы наблюдений будут независимо и нормально распределены с общим отклонение ${ displaystyle sigma ^ {2}}$ и означает ${ Displaystyle mu _ {я}}$ . Также есть предположение, что есть доступная оценка ${ displaystyle s ^ {2}}$ за ${ displaystyle sigma ^ {2}}$ .

Расчет

Расчет теста Даннета - это процедура, основанная на вычислении утверждений о достоверности истинных или ожидаемых значений ${ displaystyle p}$ различия ${ displaystyle { bar {X_ {i}}} - { bar {X_ {0}}}}$ , таким образом, разница между средним значением экспериментальной группы и средним значением контрольной группы. Эта процедура гарантирует, что вероятность всех ${ displaystyle p}$ заявления ${ displaystyle { bar {X_ {i}}} - { bar {X_ {0}}}}$ быть одновременно правильным равно заданному значению, ${ displaystyle P}$ . При расчете одностороннего верхнего (или нижнего) Доверительный интервал для истинного значения разницы между средним значением лечения и контрольная группа, ${ displaystyle P}$ представляет собой вероятность того, что это фактическое значение будет меньше верхнего (или больше нижнего) предела этого интервала. При расчете двустороннего доверительный интервал, ${ displaystyle P}$ представляет собой вероятность того, что истинное значение будет между верхним и нижним пределами.

Во-первых, мы обозначим доступные N наблюдений через ${ displaystyle X_ {ij}}$ когда ${ displaystyle i = 1 ... p}$ и ${ displaystyle j = 1 ... N_ {i}}$ и оценить общие отклонение например: ${ displaystyle s ^ {2} = { frac { sum _ {i = 0} ^ {p} sum _ {j = 1} ^ {N_ {i}} (X_ {ij} - { bar { X_ {i}}}) ^ {2}} {n}}}$ когда ${ displaystyle { bar {X_ {i}}}}$ среднее значение группы ${ displaystyle i}$ и ${ displaystyle N_ {i}}$ количество наблюдений в группе ${ displaystyle i}$ , и ${ Displaystyle п = сумма _ {я = 0} ^ {р} N_ {я} - (р + 1)}$ степени свободы. Как упоминалось ранее, мы хотели бы получить отдельные доверительные интервалы для каждого из различий. ${ displaystyle m_ {i} -m_ {0}, (i = 1 ... p)}$ такая, что вероятность того, что все ${ displaystyle p}$ доверительные интервалы будут содержать соответствующие ${ displaystyle m_ {i} -m_ {0}}$ равно ${ displaystyle P}$ .

Мы будем рассматривать общий случай, когда есть ${ displaystyle p}$ группы лечения и одна контрольная группа. Напишем:

${ displaystyle z_ {i} = { cfrac {{ bar {X_ {i}}} - { bar {X_ {0}}} - (m_ {i} -m_ {0})} { sqrt { { cfrac {1} {N_ {i}}} + { cfrac {1} {N_ {0}}}}}}}$

${ displaystyle D_ {i} = { cfrac {{ bar {X_ {i}}} - { bar {X_ {0}}} - (m_ {i} -m_ {0})} {s { sqrt {{ cfrac {1} {N_ {i}}} + { cfrac {1} {N_ {0}}}}}}}}$

мы также напишем: ${ displaystyle D_ {i} = { frac {z_ {i}} {s}}}$ , который следует за T-статистика Стьюдента распределение с n степени свободы. Нижние доверительные границы с совместным доверительным коэффициентом ${ displaystyle P}$ для ${ displaystyle p}$ эффекты лечения ${ displaystyle m_ {i} -m_ {0}, (i = 1 ... p)}$ будет выдан:

${ displaystyle { bar {X_ {i}}} - { bar {X_ {0}}} - d_ {i} s { sqrt {{ frac {1} {N_ {i}}} + { frac {1} {N_ {0}}}}}, i = 1 ... p}$

и ${ displaystyle p}$ константы ${ displaystyle d_ {i} '}$ выбраны так, чтобы ${ displaystyle Prob (t_ {1}$ . Аналогично, верхние пределы будут определяться:

${ displaystyle { bar {X_ {i}}} - { bar {X_ {0}}} + d_ {i} s { sqrt {{ frac {1} {N_ {i}}} + { frac {1} {N_ {0}}}}}, i = 1 ... p}$

Для ограничения ${ displaystyle m_ {i} -m_ {0}}$ в обоих направлениях можно взять следующий интервал:

${ displaystyle { bar {X_ {i}}} - { bar {X_ {0}}} pm d_ {i} 's { sqrt {{ frac {1} {N_ {i}}} + { frac {1} {N_ {0}}}}}, i = 1 ... p}$

когда ${ displaystyle d_ {i} ''}$ выбраны для удовлетворения ${ displaystyle Prob (| t_ {1} |$ .Решение этих конкретных значений ${ displaystyle d_ {i} ''}$ для двустороннего теста и ${ displaystyle d_ {i} '}$ для одностороннего теста приведено в таблицах.^[5] Обновленная таблица критических значений была опубликована в 1964 году.^[6]

Примеры

Прочность ткани на разрыв^[5]

Следующий пример был адаптирован из примера Вилларса [6]. Данные представляют собой измерения прочности на разрыв ткани, обработанной тремя различными химическими процессами по сравнению со стандартным способом производства.

прочность на разрыв (фунты)
	стандарт	процесс 1	процесс 2	процесс 3
	55	55	55	50
	47	64	49	44
	48	64	52	41
Средства	50	61	52	45
Дисперсия	19	27	9	21

Здесь p = 3 и N = 3. Средняя дисперсия составляет ${ displaystyle s ^ {2} = 19}$ , которая представляет собой оценку общей дисперсии четырех наборов с (p + 1) (N-1) = 8 степенями свободы, которую можно вычислить следующим образом:

${ displaystyle { frac {55 ^ {2} + 47 ^ {2} + 48 ^ {2} + 55 ^ {2} + ... + 41 ^ {2} -3 (50 ^ {2} +61 ^ {2} + 52 ^ {2} + 45 ^ {2})} {8}} = { frac {152} {8}} = 19}$ .

Стандартное отклонение составляет ${ displaystyle s = { sqrt {19}} = 4,36}$ и расчетная стандартная ошибка разницы между двумя средними значениями равна ${ displaystyle s { sqrt { frac {2} {N}}} = 4,36 { sqrt { frac {2} {N}}} = 3,56}$ .

Количество, которое должно быть добавлено и / или вычтено из наблюдаемых различий между средствами, чтобы дать их доверительные границы, было названо Тьюки «допуском» и выражается формулой ${ displaystyle A = ts { sqrt { frac {2} {N}}}}$ , где t взят из Многомерное t-распределение, или может быть получено из таблицы Даннета 1, если желательны односторонние ограничения, или из таблицы Даннета 2, если требуются двусторонние ограничения. Для p = 3 и df = 8, t = 2,42 для односторонних ограничений и t = 2,88 для двух- сторонние пределы для p = 95%. Аналогичные значения t могут быть определены из таблиц, если требуется p = 99% достоверности. Для односторонних пределов допуск составляет A = (2,42) (3,56) = 9, и экспериментатор может сделать вывод, что:

Прочность на разрыв при использовании процесса 1 превышает стандарт как минимум на ${ displaystyle 61-50-9 = 2 фунта}$
Прочность на разрыв при использовании процесса 2 превышает стандарт как минимум на ${ displaystyle 52-50-9 = -7 фунтов}$ .
Прочность на разрыв при использовании процесса 3 превышает стандарт как минимум на ${ displaystyle 45-50-9 = -14 фунтов}$ .

Совместное заявление, состоящее из трех вышеупомянутых выводов, имеет коэффициент уверенности 95%, т.е. в долгосрочной перспективе 95% таких совместных заявлений действительно будут правильными. Аналогичным образом можно получить верхние пределы для трех различий. Для двусторонних пределов допуск составляет A = (2,94) (3,56) = 11, и экспериментатор может заключить, что:

Прочность на разрыв при использовании процесса 1 превышает стандарт на величину между

${ displaystyle 61-50-11 = 0 фунтов}$ и ${ displaystyle 61-50 + 11 = 22 фунта}$

Прочность на разрыв при использовании процесса 2 превышает стандарт на величину между

${ displaystyle 52-50-11 = -9 фунтов}$ и ${ displaystyle 52-50 + 11 = 13 фунтов}$ .

Прочность на разрыв при использовании процесса 3 превышает стандарт на величину между

${ displaystyle 45-50-11 = -16 фунтов}$ и ${ displaystyle 45-50 + 11 = 6 фунтов}$ Совместный коэффициент достоверности для этих трех утверждений превышает 95% (из-за приближения, сделанного при вычислении таблиц 2a и 2b, табличные значения t несколько больше, чем необходимо, так что фактические достигнутые значения p немного больше 95 и 99%. При расчетах таблиц 1а и 1б такое приближение не производилось.

Тест Даннетта - Википедия - Dunnetts test

Содержание

История

Проблема множественных сравнений

Использование теста Даннета

Формальное описание теста Даннета

Предположения

Расчет

Примеры

Прочность ткани на разрыв^[5]

Рекомендации

Тест Даннетта - Википедия - Dunnetts test

История

Проблема множественных сравнений

Использование теста Даннета

Формальное описание теста Даннета

Предположения

Расчет

Примеры

Прочность ткани на разрыв[5]

Рекомендации

Прочность ткани на разрыв^[5]