В эконометрике диссертационного уровня модель — это инструмент проверки конкретного утверждения, а не демонстрация владения техникой. Сложная спецификация не делает работу сильнее, если она не отвечает на поставленный вопрос. Поэтому полезно сначала классифицировать саму задачу — по структуре данных и по типу гипотезы, — и только потом переходить к выбору оценки. Ниже карта такого выбора, написанная так, как её обычно проговаривают на защите. О том, как этот уровень строгости встроен в полный цикл исследования, мы пишем на странице эконометрики для исследований.
Кросс-секция: OLS и бинарные исходы
Если данные — это одно наблюдение на объект (домохозяйства, фирмы, регионы в один момент времени), а зависимая переменная непрерывна, базовый инструмент — OLS (метод наименьших квадратов). Он даёт несмещённые оценки при выполнении условий Гаусса–Маркова, и главное из них для содержательных выводов — экзогенность регрессоров: ошибка не коррелирует с объясняющими переменными. Именно это условие чаще всего нарушается, и к нему мы вернёмся ниже.
Когда зависимая переменная бинарна (наступило событие / нет, дефолт / не дефолт, поступил / не поступил), линейная вероятностная модель на OLS даёт предсказанные вероятности вне отрезка [0, 1] и гетероскедастичные остатки по построению. Здесь уместны logit или probit — модели, в которых латентная склонность связывается с вероятностью через логистическую или нормальную функцию распределения соответственно. На практике logit и probit дают близкие выводы о знаке и значимости; различаются они формой хвостов и масштабом коэффициентов, поэтому сами коэффициенты не интерпретируют напрямую — считают предельные эффекты (средние или в средней точке). Для порядковых исходов берут ordered logit/probit, для номинальных без естественного порядка — мультиномиальные модели.
Панельные данные: FE против RE и тест Хаусмана
Если по каждому объекту есть наблюдения за несколько периодов, данные панельные, и это качественно меняет арсенал. Главная ценность панели — возможность контролировать ненаблюдаемую неоднородность: устойчивые во времени характеристики объекта, которые мы не измеряем, но которые влияют на исход. Две базовые модели — с фиксированными эффектами (FE) и случайными эффектами (RE).
Оценка с фиксированными эффектами использует within-преобразование: из каждой переменной вычитается её среднее по объекту, и оценка опирается только на отклонения от внутригруппового среднего. За счёт этого вычитаются все постоянные во времени характеристики объекта — наблюдаемые и нет. Поэтому FE состоятельна даже тогда, когда индивидуальный эффект коррелирует с регрессорами. Плата — нельзя оценить влияние признаков, не меняющихся во времени (пол, факультет, отрасль регистрации): они исчезают вместе со средним.
Модель со случайными эффектами трактует индивидуальный эффект как случайную величину, не коррелированную с регрессорами, и оценивается обобщённым МНК. Если это допущение верно, RE эффективнее FE (использует и межгрупповую вариацию) и позволяет оценивать инвариантные во времени признаки. Если же допущение нарушено — RE смещена, а FE остаётся состоятельной.
Выбор между ними формализует тест Хаусмана. Его нулевая гипотеза: оценка со случайными эффектами состоятельна, то есть индивидуальный эффект не коррелирует с регрессорами (тогда RE и FE оценивают одно и то же, и RE предпочтительнее как более эффективная). Тест сравнивает оценки FE и RE: при большом расхождении нулевая гипотеза отвергается, и состоятельной остаётся только FE. Таким образом, значимый тест Хаусмана — это аргумент в пользу фиксированных эффектов. Важная оговорка: тест диагностирует именно корреляцию эффекта с регрессорами, а не корректность модели в целом, и в стандартной форме предполагает гомоскедастичность; на практике используют его робастные версии.
Временные ряды: ARIMA, VAR и стационарность
Когда наблюдается один объект во многих периодах (макропоказатель, ставка, индекс), задача переходит в область временных рядов. Здесь ключевое предварительное условие — стационарность: постоянство среднего и структуры автоковариаций во времени. Регрессия одного нестационарного ряда на другой может дать высокий R² и значимые коэффициенты при полном отсутствии связи — это классическая ложная регрессия. Поэтому ряды сначала тестируют на единичный корень (ADF, KPSS) и при необходимости берут разности.
Для одного ряда базовая модель — ARIMA (авторегрессия, интегрирование, скользящее среднее). Когда несколько рядов влияют друг на друга во времени и нужна интерпретация взаимного влияния (импульсные отклики, декомпозиция дисперсии), переходят к VAR — векторной авторегрессии. Выбор порядка, проверка коинтеграции и развилка VAR / VECM — отдельная тема; мы разобрали её подробно в материале о VAR-модели для бизнес-данных. Для диссертации важно одно: временные ряды нельзя оценивать инструментарием кросс-секции, не проверив стационарность.
Причинно-следственные вопросы: DiD, IV, RDD
Отдельный класс гипотез — причинно-следственные: «как повлияло вмешательство на исход». Здесь обычной регрессии недостаточно, потому что объекты, попавшие под воздействие, как правило системно отличаются от остальных. Нужны методы квазиэкспериментальной идентификации.
Разность разностей (difference-in-differences, DiD) сравнивает изменение исхода во времени в группе воздействия с изменением в контрольной группе. Ключевое и непроверяемое напрямую допущение — параллельные тренды: в отсутствие вмешательства обе группы изменялись бы одинаково. Это допущение защищают косвенно — показывают совпадение динамики до вмешательства (pre-trends) и проверяют чувствительность к спецификации. Без обсуждения параллельных трендов DiD на защите выглядит незавершённым.
Инструментальные переменные (IV) применяют при эндогенности регрессора: ищут инструмент, который влияет на исход только через эндогенную переменную. От инструмента требуются два свойства — релевантность (он действительно связан с эндогенным регрессором; слабый инструмент даёт смещённые и неустойчивые оценки) и экзогенность, она же исключающее ограничение (инструмент не влияет на исход иначе как через этот регрессор). Релевантность проверяется статистически (F-статистика первой ступени), а вот экзогенность в точно идентифицированном случае не тестируется и защищается содержательным аргументом — это самое уязвимое место любой IV-стратегии.
Регрессионный разрыв (regression discontinuity, RDD) работает там, где распределение по воздействию задаётся порогом по непрерывной переменной (балл, доход, возраст). Сравниваются объекты чуть выше и чуть ниже порога: при гладкости прочих факторов разрыв в исходе на пороге интерпретируется как эффект воздействия. Допущение — отсутствие манипуляции порогом и непрерывность остальных характеристик в его окрестности. RDD даёт убедительную локальную идентификацию, но и эффект она оценивает локальный — вблизи порога, а не в среднем по всей выборке.
Эндогенность: почему OLS смещается
За большинством претензий к эконометрической части стоит одно понятие — эндогенность: корреляция регрессора с ошибкой. Когда она есть, оценка OLS смещена и несостоятельна, и никакое увеличение выборки этого не лечит. Источников три, и их полезно называть явно.
- Пропущенные переменные. Фактор, влияющий и на регрессор, и на исход, но не включённый в модель, переносит своё влияние в ошибку. Классический пример — оценка отдачи от образования без учёта способностей: способности повышают и образование, и доход, поэтому коэффициент при образовании захватывает часть их эффекта.
- Обратная причинность. Не только X влияет на Y, но и Y на X. Регрессия расходов на полицию на уровень преступности смешает два встречных механизма, и знак коэффициента перестаёт быть интерпретируемым.
- Ошибка измерения. Регрессор наблюдается с шумом; классическая ошибка измерения смещает коэффициент в сторону нуля (attenuation bias).
Ответ на эндогенность зависит от её источника: панельные FE снимают пропущенные переменные, постоянные во времени; IV и квазиэксперименты адресуют обратную причинность и неустранимые пропуски. Главное для диссертации — не замолчать проблему, а назвать вероятный источник смещения и показать, чем он адресован или почему им можно пренебречь.
Робастные и кластерные стандартные ошибки
Даже корректная по структуре модель даёт неверный вывод о значимости, если неверно оценена дисперсия. Обычные стандартные ошибки OLS предполагают гомоскедастичность и независимость наблюдений — в реальных данных оба условия нарушаются регулярно, и это одна из самых частых претензий комиссии.
При гетероскедастичности (дисперсия ошибки зависит от регрессоров) сами коэффициенты остаются несмещёнными, но стандартные ошибки занижены. Лечится это робастными ошибками (тип Уайта, в коде — HC). При панельной или групповой структуре наблюдения внутри объекта коррелированы во времени, и тогда нужны кластерные стандартные ошибки — кластеризация по объекту (или по более крупной единице — региону, отрасли). Без кластеризации в панели стандартные ошибки систематически занижены, а значимость — преувеличена. Практическое правило: кластеризуют на том уровне, на котором назначается воздействие или возможна корреляция шоков; число кластеров при этом должно быть достаточным, иначе сама кластерная оценка ненадёжна.
Воспроизводимый код: FE и тест Хаусмана
Ниже исполнимый пример на Python с библиотекой linearmodels:
генерируется синтетическая панель, оцениваются модели с фиксированными и случайными
эффектами, проводится тест Хаусмана, а FE-оценка дополнительно считается с кластерными
стандартными ошибками. Числа в примере синтетические и иллюстративные —
данные создаются кодом для воспроизводимости без внешних файлов; на реальных данных
результаты будут другими.
# Синтетический пример: данные генерируются для воспроизводимости.
# Числа иллюстративны и не отражают реальных данных.
import numpy as np
import pandas as pd
from linearmodels.panel import PanelOLS, RandomEffects
from linearmodels.panel import compare
rng = np.random.default_rng(42)
n_id, n_t = 200, 6 # 200 объектов, 6 периодов
# Индивидуальный эффект alpha_i КОРРЕЛИРОВАН с регрессором x ->
# случайные эффекты будут смещены, тест Хаусмана должен указать на FE.
ids = np.repeat(np.arange(n_id), n_t)
periods = np.tile(np.arange(n_t), n_id)
alpha = rng.normal(0, 1, n_id)
x = 0.7 * np.repeat(alpha, n_t) + rng.normal(0, 1, n_id * n_t)
y = 1.5 * x + np.repeat(alpha, n_t) + rng.normal(0, 1, n_id * n_t)
df = pd.DataFrame({"id": ids, "t": periods, "y": y, "x": x})
df = df.set_index(["id", "t"]) # MultiIndex (объект, время)
# 1. Фиксированные эффекты: within-оценка (EntityEffects убирает alpha_i).
fe = PanelOLS.from_formula("y ~ x + EntityEffects", df).fit()
# 2. Случайные эффекты: GLS, предполагает cov(alpha_i, x) = 0.
re = RandomEffects.from_formula("y ~ 1 + x", df).fit()
print(compare({"FE": fe, "RE": re}))
Тест Хаусмана сравнивает оба набора оценок. Под нулевой гипотезой RE состоятельна, и разница оценок FE и RE статистически незначима; отвержение нулевой гипотезы — аргумент в пользу фиксированных эффектов.
# 3. Тест Хаусмана. H0: оценка RE состоятельна (cov(alpha_i, x) = 0),
# то есть FE и RE согласованы и RE предпочтительнее как эффективная.
def hausman(fe_res, re_res):
b = fe_res.params # FE: состоятельна при H0 и H1
B = re_res.params.reindex(b.index) # RE: эффективна только при H0
v_b = fe_res.cov.reindex(index=b.index, columns=b.index)
v_B = re_res.cov.reindex(index=b.index, columns=b.index)
diff = (b - B).values
var_diff = (v_b - v_B).values
stat = float(diff @ np.linalg.pinv(var_diff) @ diff)
from scipy.stats import chi2
dof = len(diff)
return stat, dof, 1 - chi2.cdf(stat, dof)
stat, dof, p = hausman(fe, re)
print(f"Hausman chi2={stat:.2f}, dof={dof}, p={p:.4f}")
# Малое p -> отвергаем H0 -> состоятельна только FE (выбираем within-оценку).
# 4. Кластерные стандартные ошибки по объекту (панельная корреляция).
fe_clustered = PanelOLS.from_formula(
"y ~ x + EntityEffects", df
).fit(cov_type="clustered", cluster_entity=True)
print(fe_clustered.summary)
Обратите внимание: коэффициент при x в FE близок
к заложенному в данных значению, тогда как RE его искажает — именно потому, что в этой
синтетической панели индивидуальный эффект коррелирует с регрессором. Это и есть учебная
иллюстрация того, что тест Хаусмана улавливает на реальных данных.
Карта выбора: вопрос и данные → метод → допущение
| Вопрос / данные | Метод | Ключевое допущение |
|---|---|---|
| Кросс-секция, непрерывный исход | OLS | Экзогенность регрессоров; гомоскедастичность (иначе робастные ошибки). |
| Кросс-секция, бинарный исход | Logit / probit | Верная функциональная форма связи; интерпретация через предельные эффекты. |
| Панель, есть ненаблюдаемая неоднородность | Fixed effects (within) | Эффект объекта постоянен во времени; идентификация по внутригрупповой вариации. |
| Панель, эффект не связан с регрессорами | Random effects | Cov(эффект, регрессоры) = 0; проверяется тестом Хаусмана. |
| Один ряд во времени | ARIMA | Стационарность после взятия разностей; нет ложной регрессии. |
| Несколько взаимозависимых рядов | VAR / VECM | Стационарность или коинтеграция; см. отдельный разбор. |
| Эффект вмешательства, панель «до/после» | Difference-in-differences | Параллельные тренды в отсутствие воздействия. |
| Эндогенный регрессор | Инструментальные переменные | Релевантность и экзогенность инструмента (исключающее ограничение). |
| Назначение по порогу непрерывной переменной | RDD | Непрерывность прочих факторов на пороге; нет манипуляции порогом. |
Предсказуемость не равна причинности
Самая частая концептуальная ошибка диссертационной эконометрики — выдать корреляцию или прогнозную полезность за причинно-следственную связь. Модель может хорошо предсказывать исход и при этом ничего не говорить о механизме: общий ненаблюдаемый фактор способен породить устойчивую связь между переменными, которые не влияют друг на друга. Предсказуемость — это о том, помогает ли X прогнозировать Y; причинность — о том, изменится ли Y, если мы вмешаемся в X. Это разные утверждения, и сильная работа разводит их явно.
Отсюда главный принцип: корректная идентификация важнее сложности модели. Аккуратно обоснованный DiD с честным обсуждением параллельных трендов убедительнее, чем нагромождение регрессоров без стратегии идентификации. Честная формулировка границ — где вывод причинный, а где только описательный — не слабость работы, а признак зрелости. Никакая методика не гарантирует исход защиты; что в наших силах — сделать эконометрическую часть технически безупречной и устойчивой к вопросам, чтобы дискуссия шла о содержании, а не о выборе оценки. Близкие к этому требования воспроизводимости и самопроверки мы разбираем в материалах о статистике в диссертации и о независимой проверке моделей и расчётов.
Практический порядок работы
- Сформулировать гипотезу и определить её тип: описательная связь или причинно-следственное утверждение.
- Зафиксировать структуру данных: кросс-секция, панель или временной ряд — от этого зависит класс модели.
- Выбрать оценку под пару «данные + вопрос» по карте выше; для панели — провести тест Хаусмана.
- Проверить эндогенность: назвать вероятный источник смещения и показать, чем он адресован.
- Считать стандартные ошибки корректно: робастные при гетероскедастичности, кластерные в панели.
- Развести в тексте причинные и описательные выводы и явно зафиксировать допущения идентификации.
Если нужна эконометрическая модель под конкретную гипотезу — с воспроизводимым кодом, честной диагностикой и текстом, который выдерживает вопросы комиссии, — это формат, в котором мы работаем в StatGazer.