Кластеризации K-средних

Эта статья объясняет торговую стратегию, которая продемонстрировала исключительные результаты за 10-летний период, опередив рынок на 53% по времени доходности рынка с использованием кластеризации k-средних на исторических данных макроэкономических настроений. Стратегия достигла более высокого коэффициента Шарпа, чем на рынке, и статистически значимого рыночного коэффициента времени Трейнор-Мазуи 1,2040 (p-значение = 0,02).

Режимы макроэкономических настроений и рыночная доходность

Доходность в конечном итоге обусловлена воздействием основных факторов макроэкономического риска, которые стимулируют бизнес-циклы и долгосрочный рост. Увязка доходности актива или класса активов с этими базовыми факторами обеспечивает более надежную основу для распределения активов, которая может лучше учитывать изменяющиеся экономические условия, чем только историческая регрессия или анализ средней дисперсии.

Макроэкономические ожидания могут оказать значительное влияние на доходность активов. Макроэкономические переменные, такие как инфляция, процентные ставки и рост ВВП, тщательно контролируются инвесторами и аналитиками, поскольку они могут дать представление об общем состоянии экономики и потенциальной производительности различных классов активов. Когда ожидается, что эти переменные изменятся в будущем, инвесторы могут скорректировать свои ожидания относительно будущих перспектив рынка.

Торговая стратегия

Рассматриваемая стратегия использует кластеризацию k-средних, неконтролируемый алгоритм машинного обучения, на исторических данных макроэкономических настроений для определения наиболее похожего исторического периода на сегодняшний день. Вес, который должен быть присвоен рыночному портфелю, затем определяется после анализа того, как рынок работал в течение аналогичных периодов в прошлом. Цель стратегии состоит в том, чтобы достичь положительной альфы путем определения времени лучших моментов для избыточного или недостаточного веса воздействия на рыночный портфель, без учета какого-либо процесса выбора акций. Кроме того, число кластеров для k-средних составляет 2 с целью выявления сценариев включения и выключения риска. Единственной торгуемой ценной бумагой является траст SPDR S&P 500 ETF (NYSE: SPY), а временное окно охватывает 20 лет с января 2003 года по январь 2023 года.

Для оценки эффективности торговой стратегии будут учитываться три основных показателя: коэффициент Шарпа, который определяется как избыточная доходность, генерируемая инвестициями или портфелем на единицу принятого риска; коэффициент времени рынка Трейнора и Мазуя, который рассчитывается путем регрессирования избыточной доходности стратегии с избыточной рыночной доходностью и квадратами избыточной рыночной доходности; и альфа модели ценообразования капитальных активов (CAPM), которая определяется как доходность, не объясняемая рыночным риском. Функции Python были разработаны для всех трех метрик, чтобы наблюдать за их эволюцией в течение периода тестирования и определять, когда торговая стратегия превзошла рынок.

Рассматриваемые переменные

Сила алгоритма заключается в его способности группировать данные прошлых периодов, используя набор переменных тональности. Поэтому крайне важно определить наиболее значимые показатели для этой цели. Используемые переменные извлекаются из самого рынка, чтобы избежать каких-либо задержек публикации. К этим переменным относятся:

• Разница ожидаемой инфляции за 5 лет от скользящего среднего и скользящего стандартного отклонения: инфляционные ожидания рассчитываются путем вычитания 5-летней ставки TIPS из доходности 5-летних казначейских облигаций. Получены временные ряды инфляционных ожиданий и 60-месячное скользящее среднее значение, рассчитана процентная разница между каждым ожиданием и скользящим средним. Другой переменной является 60-месячное скользящее стандартное отклонение ожидаемой инфляции. Цель этих двух мер состоит в том, чтобы понять, как быстро рынок меняет свои ожидания, а не только их стоимость.

• Процентная разница VIX от скользящего среднего и скользящего стандартного отклонения: Подобно ожидаемой инфляции, важно знать, как быстро рынок меняет свои ожидания относительно волатильности, а не только значение волатильности в начале каждого месяца.

• Наклон кривой доходности: Существует сильная корреляция между наклоном кривой доходности и рыночными показателями, как продемонстрировал профессор Кэмпбелл Харви. Наклон рассчитывается как простая разница между доходностью 10-летних и трехмесячных казначейских облигаций США.

• Потребительские дискреционные потребительские основные продукты длинного и короткого портфеля: чтобы оценить, как рынок воспринимает вероятность рецессии, создается бета-нейтральный портфель. Он длинный по потребительским дискреционным акциям и короткий по акциям потребительских товаров, потому что потребительские основные компании должны превзойти потребительские дискреционные компании в периоды рецессии. Consumer Staples Select Sector SPDR Fund (NYSE: XLP) используется для дискреционных потребительских товаров, тогда как Consumer Discretionary Select Sector SPDR Fund (NYSE: XLY) используется для потребительских товаров.

• Портфель развивающихся рынков: Чтобы определить, изменят ли инвесторы свое распределение с точки зрения географии, из iShares MSCI Emerging Markets ETF (NYSE: EEM) извлекаются временные ряды идиосинкразических доходов.

Программа

Программа функционирует следующим образом. Во-первых, выбираются переменные тональности, которые будут использоваться для определения сценариев включения и выключения риска. Кадр данных Pandas создается путем слияния значений ряда данных. Затем создается логарифмический избыток, возвращающий временной ряд, соответствующий индексу фрейма данных, который смещается на один месяц. Это необходимо, потому что значения dataframe относятся к началу месяца, в то время как рыночная доходность относится к месяцу, который завершается на дату индекса.

Затем определяется заключительное окно для определения объема данных, которые будут учитываться в процессе кластеризации. На мой взгляд, 60 месяцев данных должно быть достаточно для проведения надежного статистического анализа без учета только самого последнего поведения рынка. После выбора длины окна начинается тестирование. Программа выбирает 61-й месяц фрейма данных и использует k-средние за предыдущие 60 месяцев. Затем выбирается избыточная доходность следующего месяца того же кластера рассматриваемой даты. Чтобы избежать использования данных из будущего, доходность месяца, следующего за указанной датой, не учитывается.

Чтобы определить вес, который нужно распределить по портфелю, я сделал предположение, что доходность логнормально распределена, и попытался сравнить рыночную доходность, достигнутую в кластере дат, с доходностью всей 60-месячной выборки. Для этого я провел проверку гипотез, которая сравнивает среднюю отдачу кластера со средней отдачей всей выборки и делит ее на стандартную погрешность возврата кластера. Если p-значение теста меньше 0,1, вес на рыночном портфеле будет отличаться от 1. В частности, левый хвост распределения находится и используется для пропорционального выбора веса. Если производительность кластеризации находится в верхних 5% возвратов, назначенный вес будет вдвое больше левого хвоста возвратов. Напротив, если рынок работал в месяцы кластера в нижних 5% от всех месяцев периода выборки, вес, назначенный на следующий месяц, будет составлять половину левого хвоста. Этот процесс повторяется в течение каждого месяца после 61-го числа. После получения весов за каждый анализируемый месяц, вычисление доходности стратегии достигается путем умножения весов на доходность следующего месяца.

Выбор барьера p-value имеет решающее значение, потому что он определяет, когда доходность стратегии будет отклоняться от рынка. В моем случае я выбрал значение 0,05. Изменение p-значения после рассмотрения результатов стратегии может рассматриваться как проблема перенастройки; поэтому я также разработал два дополнительных метода с моделированием Монте-Карло и обратным тестированием для получения оптимизатора p-значения при сохранении статистически обоснованных результатов, которые я расскажу в следующей статье.

Результаты

Что касается кумулятивной доходности, стратегия начала опережать рынок в августе 2020 года и поддерживала эти превосходные показатели в течение всего года.

Как вы можете видеть на графике выше, стратегия решила выделить большую долю своего портфеля на рынок в июле и октябре, что привело к доходности 13% и 20% в августе и ноябре соответственно, по сравнению с доходностью рынка 6,7% и 10%. Это превосходство сохранилось в 2021 году, при этом стратегия обеспечила общую годовую перевыполнение около 7%, в то время как рынок достиг доходности в 19%, несмотря на отсутствие 3 прогнозов. В 2022 году стратегия полностью повторила доходность рынка.

Изучая пятилетний коэффициент Шарпа, мы можем получить более полное представление о том, как стратегия работает по отношению к ее уровню риска. Как и ожидалось, опережающие показатели начались в течение того же периода времени, что и доходность, и сохранялись в течение 2021, 2022 и 2023 годов, даже с учетом его волатильности.

Несмотря на превосходную производительность, альфа не является статистически значимой. Скользящий альфа-график отображает положительную альфа регрессии между избыточной доходностью стратегии и избыточной доходностью рынка с августа 2020 года, но без статистической значимости.

Напротив, график коэффициента синхронизации скользящей бета-коэффициента демонстрирует значительную рыночную способность тайминга, о чем свидетельствует положительный и статистически значимый коэффициент времени рынка Трейнор-Мазуй с августа 2020 года.

Более того, ежемесячный коэффициент Шарпа для всей серии доходностей стратегии составляет 0,194, по сравнению с рыночным коэффициентом Шарпа 0,185, который всего на 5% выше. Однако, проанализировав эффективность стратегии в разные периоды времени, становится очевидным, что стратегия реплицировала рынок в течение семи лет и начала принимать решения только в последние три года данных. Это объясняет относительно небольшое увеличение коэффициента Шарпа по сравнению с рынком.

Источник