Сразу о границах. Корректная статистическая обработка повышает методологическое качество работы, но не управляет решением диссертационного совета и не гарантирует исхода защиты. Помощь, о которой имеет смысл говорить честно, — это методология, корректный выбор и проверка методов, а также воспроизводимый код и таблицы, которые можно перепроверить. Любые обещания «защиты без замечаний» — маркетинговый шум, а не научная работа. Этот же принцип лежит в основе нашей независимой проверки расчётов и моделей.
Шаг 1. От гипотезы к данным и дизайну
Статистика начинается до сбора данных. Из исследовательской гипотезы вытекает дизайн, а из дизайна — допустимый набор методов. Полезно зафиксировать три вещи заранее.
- Тип переменных и шкалы измерения. Номинальные, порядковые, интервальные и относительные шкалы задают, какие операции корректны. Среднее по порядковой шкале (например, баллам Лайкерта) интерпретируют осторожно; для номинальных признаков работают частоты и таблицы сопряжённости, а не средние.
- Структура наблюдений. Независимые группы, связанные (повторные) измерения, иерархия (студенты внутри групп, пациенты внутри клиник) — всё это меняет выбор теста. Связанные измерения требуют парных процедур, иерархия — смешанных моделей.
- Выборка и мощность. Размер выборки лучше планировать заранее через анализ мощности (power analysis): фиксируют уровень значимости α (часто 0,05), желаемую мощность (часто 0,8), ожидаемый размер эффекта — и получают необходимое n. Это снижает риск как ложноотрицательных выводов на малой выборке, так и избыточного сбора данных. Важно: расчёт мощности делают до исследования; «постериорная мощность», вычисленная по уже полученному p-значению, методологически некорректна и не несёт новой информации.
Шаг 2. Чистка и разведочный анализ
До любого теста данные нужно увидеть. Разведочный анализ (EDA) экономит больше времени, чем любой удачный выбор критерия, потому что выявляет проблемы, которые тест молча «проглотит» и выдаст красивое, но неверное число.
- Пропуски. Сначала описывают механизм пропусков (полностью случайные, случайные, неслучайные), потому что от него зависит допустимая стратегия. Простое удаление строк смещает выводы, если пропуски неслучайны; в таких случаях рассматривают импутацию, но честно отмечают её в ограничениях.
- Выбросы. Их не удаляют автоматически. Сначала проверяют, не ошибка ли это ввода; затем оценивают влияние на результат и при необходимости приводят анализ с выбросами и без них, чтобы показать устойчивость вывода.
- Распределения. Гистограммы, ящики с усами и QQ-графики показывают форму, асимметрию и тяжесть хвостов раньше, чем формальные тесты. Часто именно график, а не p-значение, подсказывает, параметрический путь уместен или непараметрический.
Шаг 3. Выбор теста под задачу и тип данных
Тест выбирают по трём осям: что сравниваем (средние, распределения, частоты, связь), сколько групп и независимы ли наблюдения. Внутри этого выбора проходит развилка параметрические против непараметрических методов. Параметрические тесты (t-тест, дисперсионный анализ ANOVA) опираются на допущения о распределении и при их выполнении мощнее. Непараметрические (Манна–Уитни, Краскела–Уоллиса) работают с порядковыми данными и устойчивее к нарушениям нормальности, но сравнивают скорее распределения/ранги, чем строго средние.
Прежде чем применять параметрический тест, проверяют его предпосылки. Два ключевых условия для t-теста и ANOVA:
- Нормальность. Чаще всего проверяют нормальность остатков (или значений внутри групп) тестом Шапиро–Уилка. На больших выборках этот тест чувствителен к мельчайшим отклонениям, поэтому его читают вместе с QQ-графиком, а не как механический фильтр.
- Гомоскедастичность — равенство дисперсий между группами. Проверяют тестом Левена или Бартлетта. При нарушении переходят к версии без допущения равных дисперсий (поправка Уэлча для t-теста и ANOVA).
Если предпосылки нарушены и устранить это преобразованием не удаётся — это не тупик, а сигнал перейти к непараметрическому аналогу или к модели с подходящими допущениями. Соответствие задач и тестов сведено в таблицу ниже.
Задача → тип данных → тест → предпосылки
| Задача | Тип данных | Подходящий тест | Ключевые предпосылки |
|---|---|---|---|
| Сравнить средние двух независимых групп | Количественные | Независимый t-тест (Уэлча при неравных дисперсиях) | Нормальность в группах, независимость наблюдений |
| Сравнить два связанных измерения | Количественные, парные | Парный t-тест | Нормальность разностей |
| Сравнить две группы при нарушении нормальности | Порядковые / количественные | Критерий Манна–Уитни | Независимость; сопоставимая форма распределений |
| Сравнить средние трёх и более групп | Количественные | Однофакторный ANOVA + апостериорные сравнения | Нормальность, гомоскедастичность, независимость |
| То же при нарушении предпосылок ANOVA | Порядковые / количественные | Критерий Краскела–Уоллиса | Независимость; сопоставимая форма распределений |
| Проверить связь двух категориальных признаков | Номинальные / частоты | Критерий хи-квадрат (точный Фишера на малых частотах) | Независимость, достаточные ожидаемые частоты |
| Оценить связь двух количественных переменных | Количественные | Корреляция Пирсона (Спирмена при нелинейности/рангах) | Линейность и нормальность для Пирсона |
Шаг 4. Регрессия и моделирование, когда это нужно
Сравнение групп отвечает на вопрос «различаются ли», но диссертация часто требует большего: оценить вклад нескольких факторов одновременно, удержать постоянными ковариаты, описать форму зависимости. Здесь подключают регрессию. Линейная регрессия подходит для количественного отклика, логистическая — для бинарного исхода, модели со смешанными эффектами — для иерархических и повторных измерений.
У регрессии свои предпосылки, которые проверяют по остаткам: линейность, независимость и нормальность остатков, постоянство их дисперсии. Отдельно проверяют мультиколлинеарность предикторов (например, через VIF) — она не смещает прогноз, но делает коэффициенты неустойчивыми и затрудняет их интерпретацию. Для экономических и финансовых данных действует ещё ряд специфических требований (стационарность, автокорреляция), которые мы разбираем отдельно — этому будет посвящена статья об эконометрике в диссертации.
Шаг 5. Множественные сравнения и поправки
Это одна из самых частых тихих ошибок диссертаций. Если в работе проверяется много гипотез на уровне значимости α = 0,05, вероятность получить хотя бы один ложный значимый результат быстро растёт с числом тестов. При 20 независимых проверках ожидаемое число ложных «открытий» по чистой случайности — около одного, даже если реального эффекта нет нигде.
Поэтому при множественных сравнениях вводят поправку. Два базовых подхода:
- Поправка Бонферрони контролирует вероятность хотя бы одной ошибки первого рода (FWER): порог значимости делят на число тестов. Метод строгий и консервативный, при большом числе сравнений сильно теряет мощность.
- Контроль FDR (процедура Бенджамини–Хохберга) ограничивает не вероятность любой ошибки, а ожидаемую долю ложных открытий среди отвергнутых гипотез. Это более мягкий и обычно более уместный выбор там, где проверяется много гипотез (например, при скрининге множества признаков).
Какой контроль уместен — зависит от цены ошибки в конкретном исследовании; но молчаливое игнорирование множественности — это методологический дефект, который рецензенту легко заметить.
Шаг 6. Интерпретация: эффект, а не только p-value
P-значение отвечает на узкий вопрос: насколько данные совместимы с нулевой гипотезой. Оно не измеряет величину эффекта и не равно вероятности того, что гипотеза верна. На большой выборке статистически значимым становится и практически ничтожное различие. Поэтому корректный вывод опирается на три вещи вместе.
- Размер эффекта. Стандартизованные меры делают результат сопоставимым: d Коэна для разницы средних, η² (эта-квадрат) для доли объяснённой дисперсии в ANOVA, коэффициент корреляции или отношение шансов в своих контекстах. Именно размер эффекта говорит, велико ли различие содержательно.
- Доверительные интервалы. Интервал показывает не только точечную оценку, но и её неопределённость, и часто информативнее одиночного p. Узкий интервал вокруг малого эффекта — это другой вывод, чем широкий интервал, захватывающий и ноль, и крупный эффект.
- Содержательная интерпретация. Статистическая значимость и практическая значимость — разные вещи. Вывод формулируют в терминах изучаемой области, а не только в терминах «значимо / незначимо».
Шаг 7. Воспроизводимость и оформление таблиц
Статистическая часть тем сильнее, чем легче её перепроверить. Практический минимум: анализ выполнен скриптом (а не вручную в интерфейсе), зафиксирована версия окружения и зерно генератора случайных чисел, а каждое число в тексте прослеживается до строки кода. Это позволяет и автору, и рецензенту воспроизвести результат.
В таблицах принято приводить не голые p-значения, а описательные статистики (среднее и разброс или медиану и квартили в зависимости от распределения), размер выборки по группам, значение критерия с числом степеней свободы, p и размер эффекта с доверительным интервалом. Такой формат делает результат самодостаточным и проверяемым — ровно то, чего ждёт строгая рецензия.
Воспроизводимый код: предпосылки и выбор теста
Ниже исполнимый пример на Python: данные генерируются кодом, проверяются предпосылки и по их результату выбирается параметрический или непараметрический тест. Числа в примере синтетические и иллюстративные — на реальных данных результаты будут другими, а ветка выбора может оказаться иной.
# Синтетический пример: данные генерируются для воспроизводимости.
# Числа иллюстративны и не отражают реальных результатов исследования.
import numpy as np
from scipy import stats
rng = np.random.default_rng(42)
# Две независимые группы (условный пример: контроль и воздействие).
group_a = rng.normal(100, 15, 40)
group_b = rng.normal(108, 15, 40)
# 1. Проверка предпосылок параметрического теста.
# Нормальность в каждой группе (Шапиро-Уилка, H0: нормальность).
sw_a = stats.shapiro(group_a).pvalue
sw_b = stats.shapiro(group_b).pvalue
# Равенство дисперсий (Левен, H0: дисперсии равны).
levene_p = stats.levene(group_a, group_b).pvalue
normal = sw_a > 0.05 and sw_b > 0.05
equal_var = levene_p > 0.05
# 2. Выбор теста по результату проверки предпосылок.
if normal:
# equal_var=False -> поправка Уэлча при неравных дисперсиях.
stat, p = stats.ttest_ind(group_a, group_b, equal_var=equal_var)
test = "t-тест (Уэлча)" if not equal_var else "t-тест"
else:
# Нормальность нарушена -> непараметрический аналог.
stat, p = stats.mannwhitneyu(group_a, group_b, alternative="two-sided")
test = "критерий Манна-Уитни"
# 3. Размер эффекта (d Коэна по объединённому стандартному отклонению).
def cohens_d(x, y):
nx, ny = len(x), len(y)
pooled = np.sqrt(((nx - 1) * x.var(ddof=1) + (ny - 1) * y.var(ddof=1)) / (nx + ny - 2))
return (x.mean() - y.mean()) / pooled
print("тест:", test)
print("p-value:", round(p, 4))
print("d Коэна:", round(cohens_d(group_a, group_b), 3))
Тот же приём масштабируется на три и более групп: вместо t-теста и Манна–Уитни
ветвление ведёт к ANOVA или критерию Краскела–Уоллиса, а при множестве сравнений
добавляется поправка. Для регрессии и моделей с предпосылками по остаткам удобнее
statsmodels, дающий готовую сводку коэффициентов,
доверительных интервалов и диагностических тестов.
Что именно можно обещать честно
Корректная методология — необходимое, но не достаточное условие качества работы, и она не контролирует решение совета. Поэтому формат честной помощи ограничен областью, где специалист действительно отвечает за результат: постановка анализа под дизайн исследования, корректный выбор и проверка методов, воспроизводимый код и понятные таблицы, а также независимая проверка ваших расчётов и модели до того, как они попадут в текст. Этим занимается направление эконометрики и статистики для исследований в StatGazer. Никаких гарантий «защиты без замечаний» — только методологическая прочность, которую можно перепроверить.
Практический порядок работы
- Связать гипотезу с дизайном: тип переменных и шкалы, структура наблюдений, мощность и объём выборки — заранее.
- Провести чистку и разведочный анализ: пропуски, выбросы, форма распределений.
- Выбрать тест под задачу и тип данных; проверить его предпосылки (Шапиро–Уилк, гомоскедастичность).
- Где нужна оценка вклада факторов — перейти к регрессии и проверить её остатки.
- Учесть множественность сравнений (Бонферрони или FDR) — выбрать контроль осознанно.
- Отчитаться эффектом и доверительным интервалом, а не одним p-значением.
- Сделать анализ воспроизводимым и оформить таблицы так, чтобы их можно было перепроверить.
Если нужна такая статистическая часть — с корректным выбором методов, проверкой предпосылок, воспроизводимым кодом и таблицами под требования рецензии — это формат, в котором мы работаем в StatGazer.