Алгоритмы и конспекты

Сжатые заметки: формулы, интуиция, на что смотреть при тюнинге. Это конспекты, а не полный учебник.

Градиентный спуск

Итеративная оптимизация: θ := θ − η ∇_θ L(θ). Важны шаг обучения (scheduler), нормализация признаков и выбор оптимизатора (Adam, AdamW, SGD).

Логистическая регрессия

Бинарная классификация с сигмоидой и BCE‑лоссом. Регуляризация L1/L2, баланс классов, калибровка вероятностей.

Случайный лес

Ансамбль деревьев с бутстрэппингом и случайным подпространством признаков. Устойчив к выбросам, зато может быть тяжелым.

XGBoost / LightGBM

Градиентный бустинг на деревьях. Ключи: max_depth, num_leaves, learning_rate, регуляризация, ранняя остановка.

K‑Means и DBSCAN

Кластеризация: K‑Means — быстро, но сферические кластеры; DBSCAN — находит произвольные формы, требует eps, min_samples.

PCA / t‑SNE / UMAP

Снижение размерности: PCA — линейное; t‑SNE/UMAP — нелинейные для визуализации. Стандартизируйте данные.

SVM

Максимизация зазора, ядра RBF/Poly. Следите за масштабом признаков; тюньте C, gamma.

ARIMA / Prophet

Классика и аддитивная модель для рядов. Диагностика стационарности, праздники и сезонность.

LSTM / GRU

Рекуррентные сети для последовательностей. Градиентные пропадания сглаживаются воротами; смотрите на длину контекста и dropout.

Transformer

Self‑Attention: softmax(QK^T / √d) V. Масштабируется, но требователен к данным; помогает регуляризация и pretraining.

Рекомендательные системы

MF/ALS, item2vec, ранжирование с бустингом, implicit feedback, negative sampling, offline vs online‑метрики.

RL: DQN / PPO

Ценностные и policy‑методы. Replay‑буфер, target‑сеть, advantage‑оценка, клиппинг обновлений.