Единых научно обоснованных правил построения такой выборки не существует. Если множество, из которого делается выборка, относительно однородно, то можно ограничиться построением обычной случайной выборки. Однако если в периоде наблюдений имеются существенные изменения экономической ситуации, или если изучаемая совокупность предприятий неоднородна, то прежде, чем строить выборку, необходимо кластеризовать данные.
Использование конкретных методов кластеризации зависит в каждом конкретном случае от свойств генеральной совокупности изучаемых объектов. Для разбиения генеральной совокупности предприятий на предприятия можно использовать такие признаки, как размер предприятия, его отраслевая принадлежность, уровень получаемых доходов и выплачиваемых налогов и т.д. Такая кластеризация может быть эффективно проведена с использованием АНС. Для выявления неоднородности временных рядов и нахождения границ однородных интервалов чаще используются методы классической статистики.
Использование вместо сплошного ряда данных по случайной выборке позволяет существенно снизить требования к емкости постоянной памяти и быстродействию компьютеров. При этом если выборка репрезентативна, полученные результаты по своей надежности приближаются к тем, которые могли бы быть получены при работе с данными по генеральной совокупности.
Данные из балансовых отчетов желательно дополнить сведениями, полученными из других источников.
Например, данными налоговых, лицензирующих и регистрирующих органов. На практике добавление к записям данных дополнительной информации может быть осуществлено двумя способами.
Во-первых, можно каждой записи из основной базы данных поставить в соответствие запись из другой базы данных, которая содержит другие данные. Поскольку заранее не известно, к какому объекту конкретно относятся записи в обеих базах данных, привязка одних записей к другим должна производиться с использованием характеристик, данные по которым имеются как в одной, и в другой базе данных, например название эмитента, ИНН и т.д. В результате будет получена база данных по предприятиям, которая содержит не только основную информацию, но и дополнительную, позволяющую обнаруживать и удалять ошибочные данные.
Во-вторых, можно установить зависимость между переменными, включаемыми в балансовые отчеты (например, размер полученной прибыли, налоги и т.д.), и иными данными с помощью регрессионного анализа. Для всех основных финансово-экономических показателей можно построить уравнения регрессии, отражающие их связь. Коэффициенты этих уравнений можно найти по временным рядам из баз данных.