Поиск оптимального f пo нормальному распределению





Сейчас мы разработаем метод поиска оптимального f по нормально распределенным данным. Как и формула Келли, это способ относится к параметрическим методам. Однако он намного мощнее, так как формула Келли отражает только два возможных результата события, а этот метод позволяет получить полный спектр результатов (при условии, что результаты нормально распределены). Удобство нормально распределенных результатов (кроме того факта, что в реальности они часто являются пределом многих других распределений) состоит в том, что их можно описать двумя параметрами. Формулы Келли дадут вам оптимальное f для бернуллиевых результатов, если известны два параметра: отношение выигрыша к проигрышу и вероятность выигрыша. Метод расчета оптимального f, о котором мы сейчас расскажем, также требует только два параметра — среднее значение и стандартное отклонение результатов. Вспомним, что нормальное распределение является непрерывным распределением. Для того, чтобы использовать этот метод, необходимо дискретное распределение. Далее вспомним, что нормальное распределение является неограниченным распределением. Первые два шага, которые мы должны сделать для нахождения оптимального f по нормально распределенным данным, — это определить, (1) на сколько сигма от среднего значения мы усекаем распределение и (2) на сколько равноотстоящих точек данных мы разделим интервал между двумя крайними точками, найденными в (1).
Например, мы знаем, что 99,73% всех точек данных находятся между плюс и минус 3 сигма от среднего, поэтому можно использовать 3 сигма в качестве параметра для (1). Другими словами, мы рассматриваем нормальное распределение только между минус 3 сигма и плюс 3 сигма от среднего значения. Таким образом, мы охватываем 99,73% всей активности в пределах нормального распределения.
Вообще, для этого параметра лучше использовать значение от 3 до 5 сигма. Что касается числа равноотстоящих точек данных (шаг 2), мы будем использовать число, как минимум, в десять раз большее количества стандартных отклонений, которое используется в (1). Если мы выберем 3 сигма для (1), тогда возьмем, по крайней мере, 30 равноотстоящих точек данных для (2). Это означает, что на горизонтальной оси следует отметить отрезок от минус 3 сигма до плюс 3 сигма и нанести на нем 30 равноотстоящих точек. Так как между минус 3 сигма и плюс 3 сигма находится 6 сигма и нам надо разместить на этом отрезке 30 равноотстоящих точек, мы должны разделить 6 на 30 - 1, или 29. Это даст нам 0,2068965517.
Первой точкой данных будет минус 3. Затем мы будем добавлять 0,2068965517 к каждой предыдущей точке, пока не достигнем плюс 3. И так нанесем 30 равноотстоящих точек данных между минус 3 и плюс 3. Нашей второй точкой данных будет -3 + 0,2068965517 =-2,793103448, третьей точкой данных будет 2,79310344 + 0,2068965517 = -2,586206896, и так далее. Таким образом, мы зададим 30 точек на горизонтальной оси. Чем больше точек данных вы используете, тем лучше будет разрешение нормальной кривой. Использование количества точек в десять раз больше числа стандартных отклонений не является строгим правилом определения минимального числа точек данных. Нормальное распределение является непрерывным распределением. Однако мы должны сделать его дискретным, чтобы по нему найти оптимальное f. Чем большее число равноотстоящих точек данных мы используем, тем ближе наша дискретная модель будет к реальному непрерывному распределению. Почему не следует использовать слишком большое число точек данных? Чем больше точек данных вы будете использовать в нормальной кривой, тем больше времени понадобится для поиска оптимального f.
Даже если вы будете использовать компьютер для поиска оптимального f, при большом количестве точек данных расчет займет достаточно много времени.

Содержание раздела