Небольшие выборки





Рассмотрим влияние на оптимизацию мелких выборок. Небольшие выборки рыночных данных вряд ли будут представительными для того рынка, который призваны охарактеризовать; следовательно, они будут заметно отличаться от других выборок данного рынка. Оптимизатор, запущенный с маленькой выборкой данных, верой и правдой будет искать лучшее решение и найдет его. Но лучшее решение для пробного образца может оказаться разрушительным для реальной торговли. Неудача произойдет не потому, что оптимизация получила неверное решение, а потому, что она получила решение некорректно поставленной задачи.
Оптимизация неадекватных выборок также часто дает ответы, представляющие собой чисто математические артефакты. Когда количество точек с данными стремится к количеству настраиваемых параметров, большинство моделей (торговых, регрессионных или других) найдут идеальное решение для любого набора случайных данных. Здесь действует тот же принцип, который гласит, что линия (модель с двумя параметрами) может быть проведена через любые две точки, но не всегда может быть проведена через три произвольные точки. В статистике это известно как принцип степеней свободы; степеней свободы столько, на сколько общее количество точек данных в выборке превышает то количество точек, в которые всегда можно идеально вписать оптимизируемую модель благодаря подгонке параметров. Даже когда данных достаточно много для того, чтобы избежать полностью артефактного решения, некоторая часть пригодности модели, тем не менее, может быть обусловлена артефактами как побочным продуктом процесса оптимизации.
Для моделей множественной регрессии существует формула, показывающая, насколько уменьшится коэффициент корреляции (показатель пригодности модели), если удалить артефактную составляющую. Формула коррекции, определяющая связь между количеством параметров (коэффициентов регрессии), подвергающихся оптимизации, размером выборки и снижением уровня кажущейся пригодности при испытании на другой выборке, представлена в виде формулы, написанной на языке FORTRAN:

RC = SQRT ( 1. - ( (N - 1. ) / (N - Р) ) * (1. - R**2) )

В этом уравнении N означает количество точек данных, Р — количество параметров модели, R — коэффициент множественной корреляции, определенный на выборке данных процедурой оптимизации, RC — скорректированный коэффициент. Обратная формула, показывающая увеличение корреляции, вызванное оптимизацией (R), в зависимости от подлинной корреляции (RC) выглядит следующим образом:

R = SQRT ( 1. - ( (N - Р) / (N - 1.) ) * (1. - RC**2) )

Эти формулы справедливы только для линейной регрессии. Тем не менее их можно использовать для оценки качества генерализации, проводимой полностью обученной нейронной сетью (т.е. частным случаем нелинейной регрессии). При работе с нейронными сетями Р будет означать общее количество весов связей в модели. Кроме того, убедитесь, что этими формулами используются простые корреляции; если нейронная сеть или регрессионная программа возвращает квадраты корреляций, следует извлечь квадратный корень.

Содержание раздела