DeepEdit!

Программирование баз данных на Oracle, техническая документация, литература, статьи и публикации

  • Увеличить размер шрифта
  • Размер шрифта по умолчанию
  • Уменьшить размер шрифта

Математическое ожидание


Описывая поведение непредсказуемого процесса, математики упот­ребляют термин «случайная величина». Случайная величина - это просто функция со случайными значениями. Математическое ожи­дание (expected value) E[X] случайной переменной X- это среднее из принимаемых значений. Во многих трудах по статистике и теории вероятности прописная буква (как, например, X) обозначает случай­ную величину, обладающую рядом свойств, в том числе математиче­ским ожиданием и распределением (о котором мы вскоре поговорим). В теории массового обслуживания прописные буквы часто обозначают как случайную величину, так и ее математическое ожидание. Читате­лям приходится по контексту догадываться о том, что именно подра­зумевается в каждом конкретном случае. Такие же обозначения при­няты и в этой книге, например, технически более точная, но громозд­кая формула E[R] = E[S] + E[W] заменяется на + W.
Функция плотности вероятности (pdf)
Несмотря на то, что как следует из ее названия, значением случайной переменной является случайное число, сам процесс появления таких значений обычно подчинен какому-то порядку. Например, в телефон­ной системе со средней интенсивностью поступления в 2,0 запроса в се­кунду, возможно получение 200 запросов в течение одной секунды, но такая ситуация крайне маловероятна. Математическая функция, моде­лирующая вероятность принятия случайной величиной определенного значения, называется распределением данной случайной величины. Если быть точнее, то вероятность того, что дискретная случайная вели­чина X примет определенное значение x, называется функцией плотно­сти вероятности (probability density function - pdf) случайной величи­ны и обозначается как f(x) = P(X = x) [Hogg and Tanis (1977) 51-58].
Использование pdf
Точно предсказать время поступления в систему следующего запроса невозможно, поэтому время между поступлениями последовательных запросов представляет собой случайную величину. Соответственно, интенсивность поступлений (значение, обратное предыдущему) также является случайной величиной. В 1909 г. Агнер Эрланг (Agner Erlang) показал, что интенсивность поступления вызовов в телефонной систе­ме часто характеризуется распределением Пуассона [Erlang (1909)]. Точнее, если телефонные звонки поступают со средней интенсивно­стью X > 0, то функция плотности вероятности для интенсивности по­ступления имеет вид:
Если телефонные вызовы поступают в среднем с частотой X, равной 2 вызовам в секунду, то вероятность того, что в одну секунду будет полу­чено 200 вызовов, равна f(200) = 2,7575 х 10-316. Другими словами, ес­ли процесс поступления телефонных вызовов действительно подчиня­ется распределению Пуассона для X = 2, то вероятность получения пя­тидесяти четырех наборов из десятки, валета, дамы, короля и туза од­ной масти первым игроком при игре в покер (так называемого «royal flush») больше, чем вероятность существования секундного интервала, в течение которого в систему поступило бы 200 вызовов. Вероятность же того, что односекундный интервал будет заключать в себе ровно ноль, один, два, три или четыре вызова, значительно выше. Функция плотности вероятности для распределения Пуассона с параметром X = 2 приведена на рис. 9.8. Кстати, интенсивность поступления запросов во многих компьютерных приложениях, включая и разнообразные компоненты Oracle, также подчиняется распределению Пуассона.
Необходимо отметить, что символ X, обозначающий среднюю интен­сивность поступления запросов в систему массового обслуживания,конечно же, неслучайно применяется и для обозначения среднего зна­чения распределения Пуассона. Немного забегая вперед, скажу, что специфическая модель M/M/m теории массового обслуживания (о ко­торой мы вскоре поговорим) работает только в том случае, если про­цесс поступления запросов в систему подчиняется распределению Пу­ассона с параметром X. Интенсивность поступлений в теории массово­го обслуживания обозначается буквой X, потому что это и есть среднее значение распределения Пуассона.
Время обслуживания системы - это тоже случайная величина. Напри­мер, время, необходимое банковскому кассиру для подсчета денег клиента, можно оценить и спрогнозировать в среднем, но не в каждом конкретном случае. Невозможно предугадать даже, сколько времени потребуется процессору на выполнение операции LIO в Oracle. Логиче­ский ввод/вывод (LIO) - это операция, посредством которой ядро Ora­cle осуществляет выборку одного блока из кэша буферов базы данных. Например, процессор может в среднем обслужить 40 000 запросов LIO в секунду (т. е. ц = 40 000), но скорость работы может значительно ме­няться от секунды к секунде. Элемент случайности вносят такие фак­торы, как тип и сложность блока Oracle (например, является ли блок блоком индекса или же таблицы), изменяющееся количество строк в каждом блоке Oracle и изменяющаяся ширина столбцов данных в та­ких блоках.
Почему важно понимать распределение вероятностей
Для того чтобы использовать математическое ожидание случайной ве­личины в различных прогнозирующих формулах, необходимо знать, какому распределению она подчиняется. Например, можно сказать, что во время обеденного перерыва клиенты входили в ресторан в среднем с частотой 2 клиента в минуту, так что среднее время между при­ходами составляет 30 секунд. Однако по среднему значению не восста­новить весь ход событий. Если известен только средний интервал при­бытия клиентов, то, например, нельзя ничего сказать о том, приходили ли клиенты поодиночке ровно раз в 30 секунд, или же они появлялись группами. Если известно только, что последовательные запросы по­ступают в среднем раз в 30 секунд, то, например, просто нельзя знать, какой из двух случаев из таблицы 9.1 имел место.
Таблица 9.1. Два существенно разных сценария, в обоих из которых среднее значение интервала между событиями т равно 30 секундам
Количество событий

Интервалы времени
Случай I
Случай II
11:30-11:45
0
34
11:45-12:00
0
28
12:00-12:15
240
31
12:15-12:30
0
37
12:30-12:45
0
24
12:45-13:00
0
30
13:00-13:15
0
32
13:15-13:30
0
24
Среднее для 15-минутных интервалов
30
30

Если в действительности все было подобно случаю I, то нельзя ожи­дать от математической формулы достоверного предсказания собы­тий, произошедших в период 13:00-13:15, сообщив ей, что «средняя интенсивность визитов составляла 120 в час». Для того чтобы модель массового обслуживания давала достоверные результаты, необходимо сообщить ей некоторую дополнительную информацию о свойствах случайных входных параметров, а не просто их средние значения. Мо­дель также должна знать, каким образом распределена каждая слу­чайная величина.

 









jAntivirus