Исследования

Статистическая обработка данных для диссертации: пошаговый план

Большинство замечаний к статистической части диссертации возникает не из-за сложной математики, а из-за нарушения порядка работы: тест выбирается раньше, чем проверены его предпосылки, поправки на множественные сравнения забываются, а вывод формулируется по одному p-значению без размера эффекта. Ниже — последовательный план анализа данных, который закрывает эти типичные слабые места.

Сразу о границах. Корректная статистическая обработка повышает методологическое качество работы, но не управляет решением диссертационного совета и не гарантирует исхода защиты. Помощь, о которой имеет смысл говорить честно, — это методология, корректный выбор и проверка методов, а также воспроизводимый код и таблицы, которые можно перепроверить. Любые обещания «защиты без замечаний» — маркетинговый шум, а не научная работа. Этот же принцип лежит в основе нашей независимой проверки расчётов и моделей.

Главное: порядок шагов важнее набора тестов. Сначала — дизайн и тип данных, затем чистка и разведочный анализ, и только потом выбор теста под задачу с проверкой его предпосылок, поправками на множественность и оценкой размера эффекта.

Шаг 1. От гипотезы к данным и дизайну

Статистика начинается до сбора данных. Из исследовательской гипотезы вытекает дизайн, а из дизайна — допустимый набор методов. Полезно зафиксировать три вещи заранее.

  • Тип переменных и шкалы измерения. Номинальные, порядковые, интервальные и относительные шкалы задают, какие операции корректны. Среднее по порядковой шкале (например, баллам Лайкерта) интерпретируют осторожно; для номинальных признаков работают частоты и таблицы сопряжённости, а не средние.
  • Структура наблюдений. Независимые группы, связанные (повторные) измерения, иерархия (студенты внутри групп, пациенты внутри клиник) — всё это меняет выбор теста. Связанные измерения требуют парных процедур, иерархия — смешанных моделей.
  • Выборка и мощность. Размер выборки лучше планировать заранее через анализ мощности (power analysis): фиксируют уровень значимости α (часто 0,05), желаемую мощность (часто 0,8), ожидаемый размер эффекта — и получают необходимое n. Это снижает риск как ложноотрицательных выводов на малой выборке, так и избыточного сбора данных. Важно: расчёт мощности делают до исследования; «постериорная мощность», вычисленная по уже полученному p-значению, методологически некорректна и не несёт новой информации.

Шаг 2. Чистка и разведочный анализ

До любого теста данные нужно увидеть. Разведочный анализ (EDA) экономит больше времени, чем любой удачный выбор критерия, потому что выявляет проблемы, которые тест молча «проглотит» и выдаст красивое, но неверное число.

  • Пропуски. Сначала описывают механизм пропусков (полностью случайные, случайные, неслучайные), потому что от него зависит допустимая стратегия. Простое удаление строк смещает выводы, если пропуски неслучайны; в таких случаях рассматривают импутацию, но честно отмечают её в ограничениях.
  • Выбросы. Их не удаляют автоматически. Сначала проверяют, не ошибка ли это ввода; затем оценивают влияние на результат и при необходимости приводят анализ с выбросами и без них, чтобы показать устойчивость вывода.
  • Распределения. Гистограммы, ящики с усами и QQ-графики показывают форму, асимметрию и тяжесть хвостов раньше, чем формальные тесты. Часто именно график, а не p-значение, подсказывает, параметрический путь уместен или непараметрический.

Шаг 3. Выбор теста под задачу и тип данных

Тест выбирают по трём осям: что сравниваем (средние, распределения, частоты, связь), сколько групп и независимы ли наблюдения. Внутри этого выбора проходит развилка параметрические против непараметрических методов. Параметрические тесты (t-тест, дисперсионный анализ ANOVA) опираются на допущения о распределении и при их выполнении мощнее. Непараметрические (Манна–Уитни, Краскела–Уоллиса) работают с порядковыми данными и устойчивее к нарушениям нормальности, но сравнивают скорее распределения/ранги, чем строго средние.

Прежде чем применять параметрический тест, проверяют его предпосылки. Два ключевых условия для t-теста и ANOVA:

  • Нормальность. Чаще всего проверяют нормальность остатков (или значений внутри групп) тестом Шапиро–Уилка. На больших выборках этот тест чувствителен к мельчайшим отклонениям, поэтому его читают вместе с QQ-графиком, а не как механический фильтр.
  • Гомоскедастичность — равенство дисперсий между группами. Проверяют тестом Левена или Бартлетта. При нарушении переходят к версии без допущения равных дисперсий (поправка Уэлча для t-теста и ANOVA).

Если предпосылки нарушены и устранить это преобразованием не удаётся — это не тупик, а сигнал перейти к непараметрическому аналогу или к модели с подходящими допущениями. Соответствие задач и тестов сведено в таблицу ниже.

Задача → тип данных → тест → предпосылки

ЗадачаТип данныхПодходящий тестКлючевые предпосылки
Сравнить средние двух независимых групп Количественные Независимый t-тест (Уэлча при неравных дисперсиях) Нормальность в группах, независимость наблюдений
Сравнить два связанных измерения Количественные, парные Парный t-тест Нормальность разностей
Сравнить две группы при нарушении нормальности Порядковые / количественные Критерий Манна–Уитни Независимость; сопоставимая форма распределений
Сравнить средние трёх и более групп Количественные Однофакторный ANOVA + апостериорные сравнения Нормальность, гомоскедастичность, независимость
То же при нарушении предпосылок ANOVA Порядковые / количественные Критерий Краскела–Уоллиса Независимость; сопоставимая форма распределений
Проверить связь двух категориальных признаков Номинальные / частоты Критерий хи-квадрат (точный Фишера на малых частотах) Независимость, достаточные ожидаемые частоты
Оценить связь двух количественных переменных Количественные Корреляция Пирсона (Спирмена при нелинейности/рангах) Линейность и нормальность для Пирсона

Шаг 4. Регрессия и моделирование, когда это нужно

Сравнение групп отвечает на вопрос «различаются ли», но диссертация часто требует большего: оценить вклад нескольких факторов одновременно, удержать постоянными ковариаты, описать форму зависимости. Здесь подключают регрессию. Линейная регрессия подходит для количественного отклика, логистическая — для бинарного исхода, модели со смешанными эффектами — для иерархических и повторных измерений.

У регрессии свои предпосылки, которые проверяют по остаткам: линейность, независимость и нормальность остатков, постоянство их дисперсии. Отдельно проверяют мультиколлинеарность предикторов (например, через VIF) — она не смещает прогноз, но делает коэффициенты неустойчивыми и затрудняет их интерпретацию. Для экономических и финансовых данных действует ещё ряд специфических требований (стационарность, автокорреляция), которые мы разбираем отдельно — этому будет посвящена статья об эконометрике в диссертации.

Шаг 5. Множественные сравнения и поправки

Это одна из самых частых тихих ошибок диссертаций. Если в работе проверяется много гипотез на уровне значимости α = 0,05, вероятность получить хотя бы один ложный значимый результат быстро растёт с числом тестов. При 20 независимых проверках ожидаемое число ложных «открытий» по чистой случайности — около одного, даже если реального эффекта нет нигде.

Поэтому при множественных сравнениях вводят поправку. Два базовых подхода:

  • Поправка Бонферрони контролирует вероятность хотя бы одной ошибки первого рода (FWER): порог значимости делят на число тестов. Метод строгий и консервативный, при большом числе сравнений сильно теряет мощность.
  • Контроль FDR (процедура Бенджамини–Хохберга) ограничивает не вероятность любой ошибки, а ожидаемую долю ложных открытий среди отвергнутых гипотез. Это более мягкий и обычно более уместный выбор там, где проверяется много гипотез (например, при скрининге множества признаков).

Какой контроль уместен — зависит от цены ошибки в конкретном исследовании; но молчаливое игнорирование множественности — это методологический дефект, который рецензенту легко заметить.

Шаг 6. Интерпретация: эффект, а не только p-value

P-значение отвечает на узкий вопрос: насколько данные совместимы с нулевой гипотезой. Оно не измеряет величину эффекта и не равно вероятности того, что гипотеза верна. На большой выборке статистически значимым становится и практически ничтожное различие. Поэтому корректный вывод опирается на три вещи вместе.

  • Размер эффекта. Стандартизованные меры делают результат сопоставимым: d Коэна для разницы средних, η² (эта-квадрат) для доли объяснённой дисперсии в ANOVA, коэффициент корреляции или отношение шансов в своих контекстах. Именно размер эффекта говорит, велико ли различие содержательно.
  • Доверительные интервалы. Интервал показывает не только точечную оценку, но и её неопределённость, и часто информативнее одиночного p. Узкий интервал вокруг малого эффекта — это другой вывод, чем широкий интервал, захватывающий и ноль, и крупный эффект.
  • Содержательная интерпретация. Статистическая значимость и практическая значимость — разные вещи. Вывод формулируют в терминах изучаемой области, а не только в терминах «значимо / незначимо».

Шаг 7. Воспроизводимость и оформление таблиц

Статистическая часть тем сильнее, чем легче её перепроверить. Практический минимум: анализ выполнен скриптом (а не вручную в интерфейсе), зафиксирована версия окружения и зерно генератора случайных чисел, а каждое число в тексте прослеживается до строки кода. Это позволяет и автору, и рецензенту воспроизвести результат.

В таблицах принято приводить не голые p-значения, а описательные статистики (среднее и разброс или медиану и квартили в зависимости от распределения), размер выборки по группам, значение критерия с числом степеней свободы, p и размер эффекта с доверительным интервалом. Такой формат делает результат самодостаточным и проверяемым — ровно то, чего ждёт строгая рецензия.

Воспроизводимый код: предпосылки и выбор теста

Ниже исполнимый пример на Python: данные генерируются кодом, проверяются предпосылки и по их результату выбирается параметрический или непараметрический тест. Числа в примере синтетические и иллюстративные — на реальных данных результаты будут другими, а ветка выбора может оказаться иной.

# Синтетический пример: данные генерируются для воспроизводимости.
# Числа иллюстративны и не отражают реальных результатов исследования.
import numpy as np
from scipy import stats

rng = np.random.default_rng(42)

# Две независимые группы (условный пример: контроль и воздействие).
group_a = rng.normal(100, 15, 40)
group_b = rng.normal(108, 15, 40)

# 1. Проверка предпосылок параметрического теста.
# Нормальность в каждой группе (Шапиро-Уилка, H0: нормальность).
sw_a = stats.shapiro(group_a).pvalue
sw_b = stats.shapiro(group_b).pvalue

# Равенство дисперсий (Левен, H0: дисперсии равны).
levene_p = stats.levene(group_a, group_b).pvalue

normal = sw_a > 0.05 and sw_b > 0.05
equal_var = levene_p > 0.05

# 2. Выбор теста по результату проверки предпосылок.
if normal:
    # equal_var=False -> поправка Уэлча при неравных дисперсиях.
    stat, p = stats.ttest_ind(group_a, group_b, equal_var=equal_var)
    test = "t-тест (Уэлча)" if not equal_var else "t-тест"
else:
    # Нормальность нарушена -> непараметрический аналог.
    stat, p = stats.mannwhitneyu(group_a, group_b, alternative="two-sided")
    test = "критерий Манна-Уитни"

# 3. Размер эффекта (d Коэна по объединённому стандартному отклонению).
def cohens_d(x, y):
    nx, ny = len(x), len(y)
    pooled = np.sqrt(((nx - 1) * x.var(ddof=1) + (ny - 1) * y.var(ddof=1)) / (nx + ny - 2))
    return (x.mean() - y.mean()) / pooled

print("тест:", test)
print("p-value:", round(p, 4))
print("d Коэна:", round(cohens_d(group_a, group_b), 3))

Тот же приём масштабируется на три и более групп: вместо t-теста и Манна–Уитни ветвление ведёт к ANOVA или критерию Краскела–Уоллиса, а при множестве сравнений добавляется поправка. Для регрессии и моделей с предпосылками по остаткам удобнее statsmodels, дающий готовую сводку коэффициентов, доверительных интервалов и диагностических тестов.

Что именно можно обещать честно

Корректная методология — необходимое, но не достаточное условие качества работы, и она не контролирует решение совета. Поэтому формат честной помощи ограничен областью, где специалист действительно отвечает за результат: постановка анализа под дизайн исследования, корректный выбор и проверка методов, воспроизводимый код и понятные таблицы, а также независимая проверка ваших расчётов и модели до того, как они попадут в текст. Этим занимается направление эконометрики и статистики для исследований в StatGazer. Никаких гарантий «защиты без замечаний» — только методологическая прочность, которую можно перепроверить.

Практический порядок работы

  1. Связать гипотезу с дизайном: тип переменных и шкалы, структура наблюдений, мощность и объём выборки — заранее.
  2. Провести чистку и разведочный анализ: пропуски, выбросы, форма распределений.
  3. Выбрать тест под задачу и тип данных; проверить его предпосылки (Шапиро–Уилк, гомоскедастичность).
  4. Где нужна оценка вклада факторов — перейти к регрессии и проверить её остатки.
  5. Учесть множественность сравнений (Бонферрони или FDR) — выбрать контроль осознанно.
  6. Отчитаться эффектом и доверительным интервалом, а не одним p-значением.
  7. Сделать анализ воспроизводимым и оформить таблицы так, чтобы их можно было перепроверить.

Если нужна такая статистическая часть — с корректным выбором методов, проверкой предпосылок, воспроизводимым кодом и таблицами под требования рецензии — это формат, в котором мы работаем в StatGazer.

Нужна не статья, а разбор ваших данных?

Опишите задачу.
Ответим в течение 1–2 рабочих дней.

Мы помогаем с методологией, выбором и проверкой методов и воспроизводимым кодом для исследователей.

NDA до передачи данных · границы работ, KPI и сроки фиксируются до старта · hello@statgazer.ru