Приложения

Доверительные интервалы

Здравствуйте и вновь добро пожаловать на занятия по теме «Байесовское машинное обучение на языке Python, часть 1».

В этой заключительной статье мы рассмотрим не-байесовский, или частотный метод, позволяющий справиться с неопределённостью в нашем измерении параметров, в частности, среднего значения случайной переменной.

Напомним,что среднее значение и в распределении Гаусса, и в распределении Бернуллиявляется суммой всех xi, делённой на N:

Заметьте,что это сумма случайных величин. Что же это может означать?

Предположим,у нас есть случайная величина X и случайная величина Y. Введём новую величину Z = X + Y. Вопрос: является ли величина Z такжеслучайной? Ответ – да. А это значит, что она имеет собственное распределениевероятностей, можно вычислить её среднее значение, дисперсию и так далее.

«Хитрость»в том, что сумма случайных величин и сама по себе также является случайнойвеличиной, а следовательно, имеет распределение вероятностей. Как вы можетепомнить из введения в теорию вероятностей, на это указывает центральнаяпредельная теорема, которая гласит, что сумма независимых и одинаковораспределённых переменных стремится к распределению Гаусса. В частности,распределение  должно быть гауссовым со средним значением μ и дисперсией σ2/N:

Заметьте,что это сумма случайных величин. Что же это может означать?

Предположим,у нас есть случайная величина X и случайная величина Y. Введём новую величину Z = X + Y. Вопрос: является ли величина Z такжеслучайной? Ответ – да. А это значит, что она имеет собственное распределениевероятностей, можно вычислить её среднее значение, дисперсию и так далее.

«Хитрость»в том, что сумма случайных величин и сама по себе также является случайнойвеличиной, а следовательно, имеет распределение вероятностей. Как вы можетепомнить из введения в теорию вероятностей, на это указывает центральнаяпредельная теорема, которая гласит, что сумма независимых и одинаковораспределённых переменных стремится к распределению Гаусса. В частности,распределение  должно быть гауссовым со средним значением μ и дисперсией σ2/N:

где μ с галкой означает оценку μ, а собственно μ – истинное значение μ; N – количество собранных примеров.

Это и логично, поскольку чем больше примеров собрано, тем сильнее уменьшается дисперсия нашей оценки. Тут надо отметить, чем являются μ и σ. На самом деле они относятся к среднему значению и дисперсии X. Так, μ – это истинное среднее значение X, также являющееся истинным средним значением μ с галкой, σ2 – дисперсия X, тогда как σ2/N – это дисперсия μ с галкой. Таким образом, если дисперсия X велика, то понадобится намного больше примеров, чтобы получить точное значение μ с галкой. Обратите внимание на разницу в масштабе чисел в числителе и знаменателе дисперсии: числитель σ2 растёт с квадратичной скоростью, тогда как знаменатель N – лишь линейно. Следовательно, нужно очень много примеров, чтобы уменьшить дисперсию μ с галкой, но достаточно лишь небольшого увеличения σ, чтобы привести к значительному росту дисперсии μ с галкой.

Другойзаписью этого же утверждения является

То есть разница между μ с галкой и μ есть гауссианой с центром в нуле и той же дисперсией. Эту формулировку мы используем чуть позже.

Когдаречь идёт о доверительных интервалах, имеется в виду, что мы хотим знатьдиапазон значений, в котором, вероятнее всего, находится истинное значениеискомого параметра. Обычно указывают что-нибудь вроде «95% доверительногоинтервала». Это значит, что мы берём функцию плотности вероятности с гауссовымраспределением, охватывающую в середине 95% площади, и говорим, что истинноесреднее значение находится, вероятно, в этой области. Другими словами, истинноесреднее значение лежит в этом интервале с вероятностью в 95%. Доверительныйинтервал обычно обозначают через 1 – α,поскольку α представляет собой то,что называется уровнем значимости. Таким образом, доверительный интервал – этонечто, противоположное уровню значимости. С понятием уровня значимости мы ещёвстретимся, когда будем рассматривать статистическую проверку в следующей части.

Теперьу нас есть символика для обозначения доверительного интервала, но не забывайте,что нас интересует фактический доверительный интервал: нам нужны два числа –минимальное и максимальное значения, в диапазоне которых, вероятно, и находитсяистинное среднее значение. Обозначим их через xleft и xright. Как же их найти? Незабывайте, что это кривая Гаусса. Когда же нам надо найти площадь под кривой,мы берём интеграл. Поэтому необходимо решить уравнение

То есть разница между μ с галкой и μ есть гауссианой с центром в нуле и той же дисперсией. Эту формулировку мы используем чуть позже.

Когдаречь идёт о доверительных интервалах, имеется в виду, что мы хотим знатьдиапазон значений, в котором, вероятнее всего, находится истинное значениеискомого параметра. Обычно указывают что-нибудь вроде «95% доверительногоинтервала». Это значит, что мы берём функцию плотности вероятности с гауссовымраспределением, охватывающую в середине 95% площади, и говорим, что истинноесреднее значение находится, вероятно, в этой области. Другими словами, истинноесреднее значение лежит в этом интервале с вероятностью в 95%. Доверительныйинтервал обычно обозначают через 1 – α,поскольку α представляет собой то,что называется уровнем значимости. Таким образом, доверительный интервал – этонечто, противоположное уровню значимости. С понятием уровня значимости мы ещёвстретимся, когда будем рассматривать статистическую проверку в следующей части.

Теперьу нас есть символика для обозначения доверительного интервала, но не забывайте,что нас интересует фактический доверительный интервал: нам нужны два числа –минимальное и максимальное значения, в диапазоне которых, вероятно, и находитсяистинное среднее значение. Обозначим их через xleft и xright. Как же их найти? Незабывайте, что это кривая Гаусса. Когда же нам надо найти площадь под кривой,мы берём интеграл. Поэтому необходимо решить уравнение

Выглядитэто довольно страшно, но не стоит беспокоиться, что не получается решить еговручную. Мы даже не будем пробовать, а вместо этого проведём преобразованияэтого выражения, чтобы иметь возможность решить его численно.

Итак,поскольку это гауссово распределение с произвольной дисперсией, первое, что мыможем сделать, – это привести его к стандартному нормальному распределению, такчтобы если ранее дисперсия была действительно большой, то теперь стала малой, атакже отмасштабировать через  При этом изменятся и пределы. Обозначим новыепределы через zleft и zright, поскольку стандартноенормальное распределение обычно обозначается буквой z:

Чутьотвлечёмся и вспомним определение кумулятивной функции распределениявероятностей:

Унас есть интеграл гауссовой плотности распределения вероятностей, и мы знаем,что кумулятивная функция распределения связана с некоторым интегралом плотностираспределения вероятностей. Возможно, это можно как-то использовать? Вчастности кумулятивная функция распределения – это интеграл от минусбесконечности до xпо функции плотности распределения вероятности и характеризует площадь подкривой от минус бесконечности до x.

Важнопомнить, что гауссово распределение симметрично: левая сторона являетсязеркальным отображением правой. Так, если мы хотим, чтобы 5% весов приходилосьна концы «хвостов», то каждый из «хвостов» будет содержать ровно 2,5% весов.Другими словами, zright – это такое z, которое даёт нам 1 – 0,05/2 = 0,975 площади.Обычно эту функцию обозначают через Φ,и на самом деле мы ищём обратную ей функцию с аргументом 0,975:

Унас есть интеграл гауссовой плотности распределения вероятностей, и мы знаем,что кумулятивная функция распределения связана с некоторым интегралом плотностираспределения вероятностей. Возможно, это можно как-то использовать? Вчастности кумулятивная функция распределения – это интеграл от минусбесконечности до xпо функции плотности распределения вероятности и характеризует площадь подкривой от минус бесконечности до x.

Важнопомнить, что гауссово распределение симметрично: левая сторона являетсязеркальным отображением правой. Так, если мы хотим, чтобы 5% весов приходилосьна концы «хвостов», то каждый из «хвостов» будет содержать ровно 2,5% весов.Другими словами, zright – это такое z, которое даёт нам 1 – 0,05/2 = 0,975 площади.Обычно эту функцию обозначают через Φ,и на самом деле мы ищём обратную ей функцию с аргументом 0,975:

Как её вычислить? В библиотеке SciPy есть функция, обратная кумулятивной функции распределения, которая именно это и делает. Она находится в модуле scipy.stats.norm и называется ppf – это сокращение от percent point function («точечная функция процентов»); называется она так потому, что статистики любят давать всему сложные названия. На самом же деле это просто функция, обратная кумулятивной функции распределения.

Ночто у нас с левой частью? Напомним, что гауссово распределение симметрично, апотому zleft – просто zright с противоположным знаком,предполагая, что гауссово распределение центрировано около нуля (а так и есть).Другой способ найти эту величину – это, конечно же, просто ещё раз использоватьфункцию, обратную кумулятивной функции распределения под площадью в 0,025, тоесть левый «хвост»:

Посколькуэто весьма стандартные показатели, во многих учебниках по статистике ужеуказываются округлённые значения этих величин. Так, zleft = -1.96, zright = +1.96. Мытакже можем обозначить zleft и zright так:

Посколькуэто весьма стандартные показатели, во многих учебниках по статистике ужеуказываются округлённые значения этих величин. Так, zleft = -1.96, zright = +1.96. Мытакже можем обозначить zleft и zright так:

где α –опять-таки уровень значимости.

Наконецмы получаем наш доверительный интервал – после измерения μ у нас есть 95% вероятности, что μ лежит в диапазоне

Правда,тут возникает одна небольшая проблема. Задумайтесь на минуту, в чём она можетзаключаться?

Таквот, проблема в том, что мы не знаем одну из входящих в диапазон величин, аименно стандартное отклонение X, то есть σ.Не зная среднее значение μ, мы,вероятнее всего, не будем знать и значение σ– это наиболее реалистичная ситуация. В случае, если мы не знаемдействительного значения σ, длянахождения доверительного интервала можно воспользоваться оценочным значением σ в качестве приближения. Оно равно

Правда,тут возникает одна небольшая проблема. Задумайтесь на минуту, в чём она можетзаключаться?

Таквот, проблема в том, что мы не знаем одну из входящих в диапазон величин, аименно стандартное отклонение X, то есть σ.Не зная среднее значение μ, мы,вероятнее всего, не будем знать и значение σ– это наиболее реалистичная ситуация. В случае, если мы не знаемдействительного значения σ, длянахождения доверительного интервала можно воспользоваться оценочным значением σ в качестве приближения. Оно равно

Длятого же, чтобы найти точный доверительный интервал, нам необходимо использоватьфункцию, обратную кумулятивной функции распределения, с распределениемСтьюдента, но это выходит за рамки данного курса. В данном курсе нам подходитприближённое значение для гауссового распределения, поскольку оно такжепозволяет найти доверительный интервал и для распределения Бернулли. Вчастности, для распределения Бернулли мы можем использовать ровно ту же формулудля нахождения приближённого значения доверительного интервала:

Заменив μ с галкой на p с галкой, а σ – на квадратный корень дисперсии распределения Бернулли, можем найти дисперсию для распределения Бернулли (гляньте в Википедии или вычислите самостоятельно):

Разумеется,zleft и zright можно заменитьна -1,96 и +1,96.

Итак,подведём итог изученному материалу, поскольку он был довольно сложен. Вначалемы использовали центральную предельную теорему, чтобы показать, что оценкамаксимального правдоподобия среднего значения примерно имеет гауссовораспределение. Затем мы нашли левую и правую границы, в пределах которыхнаходятся 95% наиболее вероятных значений среднего. Поскольку эти границыотмасштабированы для стандартного нормального распределения со среднимзначением 0 и дисперсией 1, мы перемасштабировали их обратно, умножив нарасчётное стандартное отклонение и вновь добавив расчётное среднее значение.

Хотелось бы повторить, что доверительный интервал масштабируется пропорционально стандартному отклонению и в то же время обратно пропорционально квадратному корню из N, то есть количеству собранных примеров. Это значит, что мы должны сделать очень большую выборку, чтобы уменьшить доверительный интервал по сравнению со стандартным отклонением данных. Позже мы увидим, что с помощью байесовских методов у нас найдётся гораздо более систематический и элегантный способ количественной оценки неопределённости наших параметров.

Спасибо за изучение курса по байесовскому машинному обучению и до следующих встреч!

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: