Несомненно, наиболее известный медицинским учёным всего мира статистический методt-критерий Стьюдента, об истории разработки и особенностях использования которого SP уже рассказывал ранее*. Он стал основой параметрической статистики. В 2025 году научный мир отпразднует столетие этого понятия, впервые введённого в классической, многократно переизданной работе британского биолога и статистика Рональда Фишера (Ronald Fisher) «Статистические методы для исследователей» (Statistical Methods for Research Workers)1.
* Дьяконов С.А., Москвичёва В.С. Статистический анализ медико-биологических данных. Часть II // StatusPraesens. Гинекология, акушерство, бесплодный брак. 2022. №1 (85). С. 46–48.
Эта книга стала без преувеличения краеугольным камнем статистической науки. В отличие от многих последующих работ в этой сфере она была ориентирована на практикующих биологов и агрономов. Учитывая свою аудиторию, Фишер сознательно избегал использования математических доказательств, стоящих за рассматриваемыми методами,
Впервые выделенной Рональдом Фишером параметрической статистике «подведомственны» выборки из популяций, исследуемые характеристики которых подпадают под закон распределения вероятностей, то есть в них можно выявить те или иные индексируемые статистические параметры и использовать их для оценки. Так, Уильям Сили Госсет (William Sealy Gosset), более известный математикам как «Стьюдент», сформулировал вышеупомянутый знаменитый критерий для сравнения средних значений при нормальном распределении данных, когда изображённое графически непрерывное распределение вероятностей формирует характерную, легко узнаваемую колоколообразную кривую.
При нормальном распределении данных в выборке изображённое графически непрерывное распределение вероятностей формирует характерную, легко узнаваемую колоколообразную кривую Гаусса.
Любопытно отметить, что «Статистические методы для исследователей» предостерегают от широко распространённой и век спустя в отечественной студенческой и аспирантской среде ошибки... вернее, от средней ошибки. «Общепринятое применение вероятной ошибки — единственная рекомендация в её пользу», — холодно отметил Рональд Фишер. В подавляющем большинстве научных трудов для работы с нормально распределёнными данными нужно рассчитать среднее значение и среднеквадратическое отклонение.
Нормальное распределение было впервые описано британским математиком Абрахамом де Муавром (Abraham de Moivre) ещё в первой половине XVIII века, но современные представления об этом понятии неразрывно связаны с текстами великого немецкого математика Карла Фридриха Гаусса (Carl Friedrich Gauß), работавшего столетие спустя. Кривую нормального распределения обычно называют его именем. Ещё почти столетие, до Стьюдента, основой статистики фактически служила «подстройка» полученных при обработке данных кривых под плавные изгибы гауссовой кривой и оценка адекватности их соответствия.
Для точности подсчётов с использованием критерия Стьюдента необходимо, чтобы параметры в обеих выборках распределялись нормально. Если искомые выборки зависимы — чаще всего эта ситуация возникает при оценке показателей «до и после» в одной и той же группе, когда пациенты служат контролями для самих себя, — то этого этапа достаточно.
Для точности подсчётов с использованием критерия Стьюдента необходимо, чтобы параметры в обеих независимых выборках распределялись нормально и соответствовали условию равенства дисперсий.
Как можно подтвердить или опровергнуть характер нормального распределения данных? Традиционно в российской науке c 1930-х годов для этого используют так называемый критерий Колмогорова–Смирнова. Строго говоря, под этим понятием объединены два разных статистических теста, которые обычно задействуют «в связке».
Знаменитый советский математик Андрей Николаевич Колмогоров разработал критерий согласия — с его помощью устанавливают принадлежность исследуемой выборки данных какому‑либо закону распределения. В свою очередь критерий однородности, сформулированный его коллегой Николаем Васильевичем Смирновым, позволяет установить, соответствуют ли данные в двух независимых выборках одному и тому же закону распределения.
При использовании критерия Колмогорова–Смирнова показатель статистической значимости ρ позволяет оценить значимость различий между формой двух распределений. Если этот показатель превышает 0,05, нулевую гипотезу можно считать подтверждённой, а распределение — близким к нормальному.
Критерий Колмогорова–Смирнова необходимо использовать с некоторой осторожностью, поскольку из вышеизложенного видно, что этот популярный инструмент был разработан для сравнения наборов данных любых выборок, а не для поиска дефектов именно в «гауссовом колоколе». Именно поэтому при своей универсальности он несколько «грубоват»2. При небольших объёмах выборки (менее 70–80) этот метод вполне способен засчитать отличное от нормального распределение как гауссово. Попытку модифицировать его в 1960-х годах предпринял американский профессор Хьюберт Лиллиефорс (Hubert Lilliefors), но его поправка внесла свои погрешности.
В качестве альтернатив критерию Колмогорова–Смирнова учёными были разработаны многочисленные, более специфичные критерии. Первым из сохранивших практическое значение методов стал критерий Андерсона–Дарлинга. Весьма высокую точность можно получить при использовании критерия Шапиро–Уилка, обеспечивающего проверку нормальности распределения путём расчёта показателей асимметрии и эксцесса — и «печально известного» в среде медицинских статистиков всего мира тем, что без всеобъемлющего знания высшей математики понять принцип его работы весьма затруднительно! Тем не менее все четыре вышеперечисленных теста имеют недостатки при проверке нормальности распределения в малых объёмах выборки3. Достойной альтернативой критерию Шапиро–Уилка может послужить тест Д’Агостино–Пирсона4.
Можно заключить, что идеального для всех ситуаций инструмента, с помощью которого можно выполнить статистическую операцию проверки нормальности распределения, выделить нельзя. По состоянию на 2021 год известно как минимум 40 тестов для этой цели. Все они имеют свои преимущества и недостатки, известные математикам и статистикам. Возможно, в XXI веке вышеперечисленные методы потеснит новый N-метрический критерий5.
При наличии двух независимых выборок для оптимального использования критерия Стьюдента необходимо ещё и соблюдение условия равенства дисперсий (то есть однородности рассеяния данных), но необходимо признать, что специалисты всего мира часто пренебрегают им.
Тем не менее при различающихся в несколько раз объёмах выборок с нормальным распределением лучше обратиться к медицинскому статистику для проверки равенства дисперсий с помощью f-критерия Фишера. Необходимо отметить, что этот метод не имеет никакого отношения к широко известному точному критерию Фишера — трудолюбивый британский специалист не только предложил популярный инструмент статистического анализа данных в таблицах сопряжённости, но и тест для оценки дисперсий выборок.
Как и оценка нормальности, определение дисперсий выборок позволяет выбрать тест из большого набора разнообразных методов f-критерия Фишера статистикам известны разработанные для этой цели критерии Бартлетта, Кокрейна, Хартли и другие. На случай, если по итогам их использования дисперсии оказались неравными, предусмотрено использование модифицированного t-теста Стьюдентакритерия Уэлча.
Каждой из вышеперечисленных разработок Рональда Фишера было бы достаточно, чтобы забронировать их создателю место на статистическом олимпе. Тем не менее наиболее значимой заслугой британского специалиста считают принципиально новое для своего времени продвижение — создание метода дисперсионного анализа ANOVA (ANalysis Of VAriance).
Очевидной ахиллесовой пятой t-критерия Стьюдента служит невозможность одномоментного сравнения более чем двух выборок. Рональд Фишер смог её устранить, разработав аналог этого критерия для сравнения средних значений в трёх выборках и более с нормальным распределением данных. Впервые ANOVA был описан в вышеупомянутой книге 1925 года, в которой Фишер скромно охарактеризовал своё достижение как «всего лишь способ организации арифметических действий». Различные варианты ANOVA позволяют оценить влияние какого-либо исследуемого фактора или нескольких факторов на зависимую переменную.
Некоторые авторы считают, что уже при объёме выборки более 30–40 возможно использовать критерий Стьюдента даже без проверки нормальности2. Конечно, медицинские статистики вряд ли согласятся с подобным «огрублением»! Впрочем, на помощь специалисту приходит центральная предельная теорема — чем большее количество слабо зависимых случайных величин вошло в выборку, тем вероятнее нормальное распределение данных.
Тем не менее работа с «большими данными» таит свои риски. При использовании очень крупных объёмов любые, даже пограничные отклонения от нормального распределения могут приобрести статистическую значимость. Это обстоятельство предоставляет основания специалистам контринтуитивно рассматривать огромные выборки данных из реальной практики как заведомо «ненормальные». Отметим, что в одном из будущих материалов SP, посвящённых медицинской статистике, будет разобран ещё один подобный, на первый взгляд иррациональный «математический сюрприз» — критерий Бонферрони.
При использовании очень крупных объёмов данных любые, даже пограничные отклонения от нормального распределения могут приобрести статистическую значимость. Это даёт основания контринтуитивно рассматривать огромные выборки из реальной практики как заведомо «ненормальные».
Вышеописанные особенности крупномасштабных выборок означают, что любой «царь-колокол Гаусса», как и его прославленный гигантский кремлёвский оригинал, всегда будет иметь математические «трещины» и даже «крупные осколки». Так, при графическом отображении возрастов в любой большой выборке жителей европейской страны всегда можно наблюдать характерную «выемку», которая отражает относительную нехватку рождённых в первой половине 1940-х годов людей, если, конечно, речь идёт не о Швеции, Швейцарии или Португалии! Причины этой демографической аномалии хорошо известны. Лишь в Испании аналогичная «траншея» проходит по второй половине 1930‑х годов, когда эта страна была охвачена гражданской войной.
В итоге в профильных работах можно встретить рекомендации полностью отказаться от тестирования нормальности при больших объёмах выборки — приблизительно 250 и выше6. В любом случае отличное от нормального распределение хотя бы в одной из выборок — достаточное основание для использования методов непараметрической статистики.
Отличное от нормального распределение данных хотя бы в одной из исследуемых выборок — достаточное основание для использования в работе методов непараметрической статистики.
Далеко не все выборки в медицинских исследованиях подпадают под известные математикам законы распределения. Подчинить подобную «статистику без правил» надёжным тестам оказалось несколько сложнее, чем анализировать нормальное распределение. Первые шаги в этом направлении были сделаны немецкими математиками. Так, в 1914 году Густав Дойхлер (Gustav Deuchler) почти точно описал будущий критерий Манна–Уитни7. Тем не менее эти работы не получили продолжения. Строго говоря, первый рабочий инструмент непараметрической статистики уже описан выше — её пионерами стали А.Н. Колмогоров и Н.В. Смирнов, поскольку их тест демонстрирует в том числе отсутствие каких-либо законов распределения в исследуемых выборках.
За нашими соотечественниками последовал американский химик и статистик Фрэнк Уилкоксон (FrankWilcoxon) — в 1940‑х годах он разработал аналог критерия Стьюдента для непараметрической статистики. Тем не менее сегодня его имя обычно используют для применяемого в зависимых выборках критерия, а инструмент для независимых выборок обычно называют U-критерием Манна–Уитни в честь усовершенствовавших подходы Уилкоксона американских математиков Генри Манна (Henry Mann) и Дональда Уитни (Donald Whitney).
Вероятно, читатель уже может предсказать следующий успех статистической науки — создание аналога дисперсионного анализа в области непараметрической статистики. Обеспечить сравнение трёх выборок более независимо от известных законов распределения смогли американские статистики Уильям Краскел (William Kruskal) и Аллен Уоллис (W. Allen Wallis).
Любопытно, что в 1980-х годах Аллен Уоллис закончил свою карьеру в должности заместителя государственного секретаря США по экономическим вопросам. Одному из виднейших исследователей в сфере «статистики без правил» довелось описывать в многочисленных отчётах отход от плановой экономики и всё более хаотичное состояние хозяйства восточноевропейских стран, в том числе и Советского Союза...
Вмешательство политических знаменитостей в непараметрическую статистику этим не ограничилось. Аналог ANOVA для анализа повторных измерений был разработан будущим лауреатом Нобелевской премии 1976 года по экономике Милтоном Фридманом (Milton Friedman), основоположником чикагской школы экономической теории и отцом современного неолиберализма.
Критерии Манна–Уитни и Краскела–Уоллиса теоретически можно использовать для любых выборок, в том числе и при нормальном распределении, но в последнем случае инструменты параметрической статистики оказываются однозначно точнее. В качестве важного «белого пятна» первого из вышеназванных методов необходимо отметить его частые ошибки при сравнении медиан двух выборок. Для успешной оценки этого показателя тест необходимо модифицировать8.
Критерии Манна–Уитни и Краскела–Уоллиса можно использовать для любых выборок, в том числе и при нормальном распределении, но в последнем случае параметрические методы однозначно точнее.
Столетие назад Рональд Фишер подчеркнул, что использование статистических методов — совершенно отдельная от чистой математики сфера. Эта ситуация несколько схожа с управлением автомобилем — известно, что многие гонщики «Формулы‑1», как и рядовые автомобилисты, вовсе не обладают навыками автомеханика. Аналогичным образом никто не ожидает от научного работника в медицинской сфере углублённых познаний и способности самостоятельно применять многочисленные формулы «под статистическим капотом». А вот знания в области выбора и ограничений на использование тех или иных критериев необходимы!
Fisher R.A. Statistical methods for research workers. Edinburgh: Oliver & Boyd, 1925. 239 p. ↩
Ghasemi A., Zahediasl S. Normality tests for statistical analysis: A guide for non-statisticians // Int. J. Endocrinol. Metab. 2012. Vol. 10. №2. P. 486–489. [PMID: 23843808] ↩ ↩
Razali N.M., Wah Y.B. Power comparisons of Shapiro–Wilk, Kolmogorov–Smirnov, Lilliefors and Anderson–Darling tests // Journal of statistical modeling and analytics. 2011. Vol. 2. №1. P. 21–33. ↩
Saculinggan M., Balase E.A. Empirical power comparison of goodness of fit tests for normality in the presence of outliers // J. Phys. Conf. Ser. 2013. Vol. 435. №1. P. 012041. ↩
Arnastauskaitė J., Ruzgas T., Bražėnas M. An exhaustive power comparison of normality tests // Mathematics. 2021. Vol. 9. №7. P. 788. ↩
Ruxton G.D., Wilkinson D.M., Neuhäuser M. Advice on testing the null hypothesis that a sample is drawn from a normal distribution // Anim. Behav. 2015. Vol. 107. P. 249–252. ↩
Kruskal W.H. Historical notes on the Wilcoxon unpaired two-sample test // J. Am. Stat. Assoc. 1957. Vol. 52. №279. P. 356–360. ↩
Divine G.W., Norton H.J., Barón A.E., Juarez-Colunga E. The Wilcoxon–Mann–Whitney procedure fails as a test of medians // Am. Stat. 2018. Vol. 72. №3. P. 278–286. ↩
Добро пожаловать на мероприятие!