Для статистики, а следовательно, и для нашего понимания, фундаментальным является понятие выборки — извлечения образца данных из некоей обширной, абстрактно определимой популяции. Основная идея статистического анализа состоит в том, чтобы использовать выборку для получения заключения о популяции данных. При работе с торговыми моделями под популяцией обычно понимается вся совокупность данных (прошлых, настоящих и будущих) для определенного рыночного инструмента (например, все 5- минутные штрихи на все фьючерсы S&P 500), все сделки (прошлые, настоящие и будущие), совершенные данной системой или по данному инструменту, а также все прибыли — годовые, месячные и даже дневные. Например, все квартальные прибыли IBM — пример популяции данных. Выборка может представлять собой специфические исторические данные, используемые при разработке или тестировании системы, данные о проведенных сделках или о месячной прибыли, принесенной этими сделками.
При создании торговой системы разработчик обычно определяет выборку данных из моделируемой популяции. Например, чтобы разработать систему для торговли S&P 500 на основе гипотезы: Если вчерашняя цена закрытия выше, чем цена закрытия три дня назад, то завтра рынок будет подниматься, разработчик берет выборку цен на конец дня по S&P 500, простирающуюся назад, например, на 5 лет. Остается надеяться, что выборка репрезентативна, т.е. отражает реальное типичное поведение рынка, и в будущем (или на другом, неизвестном образце данных) система будет работать не хуже, чем на использованном при разработке образце.
Чтобы подтвердить или опровергнуть результаты оптимизации, разработчики системы проводят тестирование на одном или нескольких периодах вне выборки, т.е. на образцах данных, не использовавшихся для разработки или оптимизации системы. Например, в нашем случае разработчик использует данные с 1991 г. по 1995 г. для разработки и настройки системы и резервирует данные за 1996 г. для тестирования вне пределов выборки. Очень рекомендуется заранее зарезервировать один или несколько периодов для подобного исследования.
Одна из проблем с выборкой образцов из популяций финансовых данных заключается в сложной и переменчивой природе объекта: завтрашний рынок может быть не похож на сегодняшний. Иногда эти изменения заметны, и их причины могут быть легко определены. Например, поведение индекса S&P резко изменилось в 1983 г. в результате введения фьючерсов и опционов на этот индекс. В таких случаях можно расценить изменение, как событие, создавшее две отдельные популяции: S&P до и после 1983 г. Выборка, взятая из более раннего периода, не будет репрезентативна для более позднего, поскольку она взята из другой популяции! Конечно, это экстремальный случай. Гораздо чаще структурные изменения рынка возникают ввиду слабых влияний, которые порой невозможно определить, особенно заранее. В некоторых случаях рынок может остаться принципиально тем же, но фазы процессов, которые на нем проходят, могут быть различными; неосмотрительно взятая выборка может принадлежать к другой фазе и быть репрезентативна только для нее, но не для рынка в целом.
Как же можно определить, действительно ли выборка, использованная для тестирования, относится к тому же периоду, что и данные, на которых будет идти торговля? Если не прыгать в машину времени и не тестировать будущее, то не существует достоверного способа определить, не случится ли завтра на рынке ломающая системы метаморфоза. Множественные тесты вне пределов выборки могут дать некоторую гарантию устойчивости системы, поскольку они подтвердят, что система, по крайней мере в нескольких периодах, работала более или менее стабильно. При наличии репрезентативной выборки можно сделать статистически достоверные выводы о той популяции, из которой выбраны образцы данных. Статистика не может определить будущие фундаментальные изменения рынка.