- Услуги
- Цена и срок
- О компании
- Контакты
- Способы оплаты
- Гарантии
- Отзывы
- Вакансии
- Блог
- Справочник
- Заказать консультацию
Статистическое исследование начинается со сбора данных. Для этого производится n опытов (наблюдений) и регистрируются их результаты. Если xi — значение исследуемой случайной величины Х, полученное в i-м опыте, то последовательность x1, x2, x3, …, xn называют выборкой.
Если элементы выборки записать в порядке их возрастания, то полученная последовательность будет называться вариационным рядом. Разность между максимальным и минимальным элементами выборки называют размахом выборки (R).
Если в выборке объема n элемент xi встречается ni раз, то число ni называют частотой элемента xi, а последовательность пар (xi, ni) — статистическим рядом. Статистический ряд записывают в виде таблицы, 1-я строка которой содержит элементы xi, а 2-я — их частоты ni.
Затем для каждого интервала (ai; ai+1) подсчитывают число mi значений выборки, попавших в этот интервал. Очередное значение xi относится к i-му интервалу, если ai ≤ xi < ai+1.
Числа mi называются частотами. Результат этой группировки сводится в таблицу (табл. 7.2).
Первые три колонки таблицы 7.2 представляют группированную выборку.
Наряду с частотами одновременно подсчитываются и заносятся в таблицу представители интервалов, в качестве которых обычно берут середины интервалов zi = (ai + ai+1)/2, относительные частоты pi* = mi /n и плотности относительных частот:
Для контроля правильности вычислений следует проверить следующие два равенства:
Статистической или эмпирической функцией распределения случайной величины Х по имеющейся выборке называется функция F(X), равная относительной частоте события {Х < х}, то есть F(x) = nx/n, где nx — число значений в выборке, меньших x; n — объем выборки.
Если середины верхних сторон прямоугольников соединить ломаной линией, то полученная ломанная называется полигоном.
В некоторых случаях строят полигон абсолютных частот, представляющий собой ломаную, отрезки которой соединяют точки
где xi — варианты выборки, а ni — соответствующие им частоты.
Он так же позволяет судить о предполагаемом законе распределения случайной величины Х.
Форма гистограммы зависит от числа и величины интервалов разбиения. При слишком малом числе интервалов разбиения (интервал велик), плохо выявляются характерные особенности распределения.
При большом числе интервалов (интервал слишком мал) гистограмма снова теряет характерные особенности распределения, превращаясь в пределе (когда в каждом интервале будет не более одного значения) в чередование пустых интервалов и одинаковых по высоте прямоугольников.
Согласно этому правилу при объеме выборки до тысячи полных реализаций рекомендуемое число интервалов разбиения не превышает одиннадцати. Для объемов выборки n < 50, с которыми в основном приходится иметь дело при обработке результатов испытаний на надежность, вид гистограмм слишком чувствителен к способу разбиения, поэтому правило можно использовать лишь как ориентировочное. В этих случаях рекомендуется построить несколько вариантов гистограмм для различных способов разбиения вариационного ряда — для k = 6, 7, 8 и т. д.
Эта функция служит статистическим аналогом плотности распределения вероятности случайной величины.
Площадь гистограммы равна единице:
Если соединить кривыми (прямыми) линиями середины верхних (горизонтальных) сторон прямоугольников гистограммы, то получится полигон распределения в виде кривой (прямой) линии (рис. 7.1).
При построении нескольких гистограмм с разным количеством интервалов лучшей нужно считать гистограмму, имеющую меньшее число инверсий. Признаком инверсии считается изменение знака приращения высоты прямоугольника. Если число инверсий одинаково, лучшей следует считать ту, которая имеет большее число интервалов.
По данным статистического ряда можно вычислить еще одну характеристику случайной величины — эмпирическую интегральную функцию распределения. Значение эмпирической интегральной функции распределения для j-го интервала Fj определяется по формуле:
Функция распределения F(x) может быть представлена в виде графика, который строится подобно гистограмме, только высоты прямоугольников равны значениям функции распределения соответствующих интервалов (m — частота попаданий; m/n — частость, %) (рис. 7.2).
Интегральная функция распределения является более универсальной характеристикой распределения по сравнению с гистограммой, которая определяет вероятность того события, что случайная величина X будет меньше или равна заданному значению x.
Гладкая кривая, соединяющая точки — это эмпириче- ская плотность распределения. Кумулята — ломаная кривая, строящаяся на основе прямоугольной системы координат, когда по оси Х откладываются значения признака, а по оси Y — накопленные частоты.