Теорема Байеса и обзор теории вероятностей. Часть 2

Максимум правдоподобия. Среднее гауссового распределения

Здравствуйте и вновь добро пожаловать на занятия по теме «Байесовское машинное обучение на языке Python, часть 1».

В этой обширной статье мы пройдем максимум правдоподобия, где вычислим среднее значение данных с гауссовым распределением и показатель кликабельности. А так же изучим доверительные интервалы вместе с байесовской парадигмой.

Следующие несколько статей будут скорее обзорами, и проходить их мы будем, не задерживаясь, но по мере того, как мы будем рассматривать примеры, я предлагаю вам подумать, какие ограничения есть у этого метода. Как вы могли заметить, мы уже несколько раз использовали термин «максимум правдоподобия». Здесь мы рассмотрим его точное значение.

Предположим,мы взяли один пример из данных, имеющих гауссово распределение. Как вычислитьвероятность одной этой точки данных? Просто подставить в формулу гауссовогораспределения:

Разумеется,в настоящих экспериментах берётся множество примеров, как правило, независимыхи одинаково распределённых. Одинаково распределённые – это значит, что все ониимеют одно и то же гауссово распределение, а потому у них одинаковые среднеезначение и дисперсия. Независимость же значит, что все примеры не зависят другот друга. Например, если мы подбрасываем монету и получили десять выпаденийорла, то каким будет результат следующего броска? Поскольку известно, чтокаждое подбрасывание монеты не зависит от других, вероятность следующеговыпадения орла по-прежнему остаётся 1/2 – это правило мы ранее обсуждали.

Независимостьтакже означает, что если мы хотим узнать совместную вероятность всех примеров,то можем просто перемножить все отдельные вероятности. Другими словами,вероятность всего набора данных равна

Разумеется,в настоящих экспериментах берётся множество примеров, как правило, независимыхи одинаково распределённых. Одинаково распределённые – это значит, что все ониимеют одно и то же гауссово распределение, а потому у них одинаковые среднеезначение и дисперсия. Независимость же значит, что все примеры не зависят другот друга. Например, если мы подбрасываем монету и получили десять выпаденийорла, то каким будет результат следующего броска? Поскольку известно, чтокаждое подбрасывание монеты не зависит от других, вероятность следующеговыпадения орла по-прежнему остаётся 1/2 – это правило мы ранее обсуждали.

Независимостьтакже означает, что если мы хотим узнать совместную вероятность всех примеров,то можем просто перемножить все отдельные вероятности. Другими словами,вероятность всего набора данных равна

Этоуравнение замечательно, но суть-то в том, чтобы найти среднее значениегауссового распределения. Поэтому мы можем переписать его в виде

Когдаречь заходит о байесовских моделях, у такой вероятности есть специальноеназвание – распределение правдоподобия. Вообще говоря, это вероятность данных сучётом заданных параметров. Сами параметры модели зависят от того, чтомоделируется. Так, для гауссового распределения параметрами являются среднеезначение и дисперсия, но в этой лекции нас интересует лишь среднее значение.

Напомню,нас интересует максимум правдоподобия. Другими словами, нас интересует ответ навопрос: каково лучшее значение μ, прикотором правдоподобие является максимальным? Конечно же, когда мы хотим узнатьмаксимум функции относительно переменной, мы прибегаем к такому инструменту,как дифференциальное счисление, а используемый метод – взять производную этойфункции, приравнять её к нулю и решить относительно параметра.

Напомню,ранее я говорил, что очень полезными оказываются логарифмы, и это тот случай,когда они особенно полезны. Мы знаем, что гауссова плотность распределениявероятностей включает экспоненту и что производная экспоненциальной функциитакже является экспоненциальной функцией, а потому не особо нам поможет. Однакомы можем избавиться от экспоненты, взяв натуральный логарифм. Взятие вначалелогарифма правомерно, поскольку логарифмическая функция является монотонно возрастающей,а это значит, что конкретное значение μ,приводящее к максимальному значению p, также приводит и к максимальному значениюлогарифма от p.

Итак,найдём сначала логарифм правдоподобия:

Когдаречь заходит о байесовских моделях, у такой вероятности есть специальноеназвание – распределение правдоподобия. Вообще говоря, это вероятность данных сучётом заданных параметров. Сами параметры модели зависят от того, чтомоделируется. Так, для гауссового распределения параметрами являются среднеезначение и дисперсия, но в этой лекции нас интересует лишь среднее значение.

Напомню,нас интересует максимум правдоподобия. Другими словами, нас интересует ответ навопрос: каково лучшее значение μ, прикотором правдоподобие является максимальным? Конечно же, когда мы хотим узнатьмаксимум функции относительно переменной, мы прибегаем к такому инструменту,как дифференциальное счисление, а используемый метод – взять производную этойфункции, приравнять её к нулю и решить относительно параметра.

Напомню,ранее я говорил, что очень полезными оказываются логарифмы, и это тот случай,когда они особенно полезны. Мы знаем, что гауссова плотность распределениявероятностей включает экспоненту и что производная экспоненциальной функциитакже является экспоненциальной функцией, а потому не особо нам поможет. Однакомы можем избавиться от экспоненты, взяв натуральный логарифм. Взятие вначалелогарифма правомерно, поскольку логарифмическая функция является монотонно возрастающей,а это значит, что конкретное значение μ,приводящее к максимальному значению p, также приводит и к максимальному значениюлогарифма от p.

Итак,найдём сначала логарифм правдоподобия:

Каквидим, в результате получается квадратичная функция, производную которой легконайти. Возьмём производную:

Приравнявеё к нулю, получим искомое значение μ:

Приравнявеё к нулю, получим искомое значение μ:

Ответпохож на выражение для среднего значения выборки случайной переменной.

Поскольку вы, вероятно, уже знакомы с этим методом, давайте разберём его подробнее. В чём его недостаток? Вы могли слышать об утверждении, что необходимо собрать достаточное количество данных, чтобы измерения были значимыми. Но сколько нужно собрать данных? Говорит ли что-либо данное уравнение о точности измерений? Ответ: нет, не говорит. Позже мы увидим, как байесовские методы учитывают эту неопределённость.

Максимум правдоподобия. Показатель кликабельности

Давайте разберём ещё один пример, посвящённый максимуму правдоподобия и куда более связанному с практической работой, которую мы выполним позже в этом курсе.

Один из самых распространённых показателей в интернет-рекламе и новостных сайтах, таких как Buzzfeed.com, – кликабельность или показатель эффективности рекламы. Он имеет распределение, отличное от гауссового и более похожее на подбрасывание монеты: тут два возможных исхода – кликнуть или не кликнуть, купить или не купить. В этом курсе используется термин «показатель кликабельности», хотя те же методы применимы и к показателям эффективности рекламы. Оба они используют один и тот же тип распределения, являющийся распределением для броска монеты, более известным как распределение Бернулли. Если вы изучали мой курс по логистической регрессии, то уже встречались с ним. Вы знаете, что кросс-энтропийная функция затрат – это то, что получается при взятии логарифма функции правдоподобия при распределении Бернулли.

Итак,сформулируем задачу. Мы подбрасываем монету несколько раз и получаемопределённое количество орлов и решек. Орлы можно заменить на клики, а решки –на отсутствие кликов. Общее количество попыток – чисто орлов плюс число решек.Вновь-таки, все они независимы и имеют одинаковое распределение, так что каждыйбросок монеты независим от других и имеет распределение Бернулли с одинаковойвероятностью выпадения орла.

Итак,вначале разберём простой пример, чтобы вы уловили суть. Пусть вероятностьвыпадения орла p(H) равна p, так что вероятность выпадения решки p(T) будет равна 1 –p. Напомню, чтораспределение Бернулли имеет только один параметр – p, в отличие от гауссового, имеющего два параметра – μ и σ.Предположим теперь, что мы выбросили два орла и три решки. Каково будет общееправдоподобие? Я дам вам минуту на размышления, так что если вы хотите найтиответ самостоятельно, пожалуйста, поставьте видео на паузу и возвращайтесь кнему, когда будете готовы.

Итак,общее правдоподобие равно

Незабывайте, что мы можем перемножать отдельные вероятности, поскольку все онипредставляют собой независимые броски монеты.

Обобщимэто понятие. Предположим, у нас выпало NH орлов и NT решек. Тогда общее правдоподобие равно

Полагаю,вы уже догадались, к чему это всё. Как и в предыдущем примере, нам нужно найтиоценку максимального правдоподобия p из собранных нами данных, которые представляют собойобщее количество выпавших орлов и решек. Конечно же, мы опять возьмём логарифм.Это не обязательное условие для решения задачи, но делает задачу гораздо легче.

Итак,первый этап – взять логарифм предыдущей формулы:

Полагаю,вы уже догадались, к чему это всё. Как и в предыдущем примере, нам нужно найтиоценку максимального правдоподобия p из собранных нами данных, которые представляют собойобщее количество выпавших орлов и решек. Конечно же, мы опять возьмём логарифм.Это не обязательное условие для решения задачи, но делает задачу гораздо легче.

Итак,первый этап – взять логарифм предыдущей формулы:

Послеэтого находим производную относительно p, приравниваем её к нулю и находим решение:

Конечноже, ответ оказался предсказуемым: вероятность выпадения орла равна числувыпадений орла, поделённому на общее число подбрасываний монеты.

Изэтого следует один любопытный вывод. Если мы возьмём некоторую случайнуюпеременную xи предположим, что x = 1 означает выпадение орла, а x = 0 – выпадениерешки, то наш результат можно переписать в виде

Конечноже, ответ оказался предсказуемым: вероятность выпадения орла равна числувыпадений орла, поделённому на общее число подбрасываний монеты.

Изэтого следует один любопытный вывод. Если мы возьмём некоторую случайнуюпеременную xи предположим, что x = 1 означает выпадение орла, а x = 0 – выпадениерешки, то наш результат можно переписать в виде

Заметьте, что это точно та же формула, которую мы получили для среднего значения при гауссовом распределении. И, вновь-таки, задумаемся, в чём тут может заключаться проблема. Проблема прежняя – мы не знаем, насколько точным является этот показатель. Чисто интуитивно мы понимаем, что 1/10 – менее точный показатель, чем 10/100, который, в свою очередь, менее точный чем 100/1000, несмотря на то что все они дают одинаковое значение p. В следующей лекции мы рассмотрим частотный метод борьбы с этой проблемой, а позже в курсе познакомимся с байесовским способом её решения.

Доверительные интервалы

В этом дополнительном разделе мы рассмотрим не-байесовский, или частотный, метод, позволяющий справиться с неопределённостью в нашем измерении параметров, в частности, среднего значения случайной переменной.

Напомним,что среднее значение и в распределении Гаусса, и в распределении Бернуллиявляется суммой всех xi, делённой на N:

Заметьте,что это сумма случайных величин. Что же это может означать?

Предположим,у нас есть случайная величина X и случайная величина Y. Введём новую величину Z = X + Y. Вопрос: является ли величина Z такжеслучайной? Ответ – да. А это значит, что она имеет собственное распределениевероятностей, можно вычислить её среднее значение, дисперсию и так далее.

«Хитрость» в том, что сумма случайных величин и сама по себе также является случайной величиной, а следовательно, имеет распределение вероятностей. Как вы можете помнить из введения в теорию вероятностей, на это указывает центральная предельная теорема, которая гласит, что сумма независимых и одинаково распределённых переменных стремится к распределению Гаусса. В частности, распределение  должно быть гауссовым со средним значением μ и дисперсией σ2/N:

Заметьте,что это сумма случайных величин. Что же это может означать?

Предположим,у нас есть случайная величина X и случайная величина Y. Введём новую величину Z = X + Y. Вопрос: является ли величина Z такжеслучайной? Ответ – да. А это значит, что она имеет собственное распределениевероятностей, можно вычислить её среднее значение, дисперсию и так далее.

«Хитрость» в том, что сумма случайных величин и сама по себе также является случайной величиной, а следовательно, имеет распределение вероятностей. Как вы можете помнить из введения в теорию вероятностей, на это указывает центральная предельная теорема, которая гласит, что сумма независимых и одинаково распределённых переменных стремится к распределению Гаусса. В частности, распределение  должно быть гауссовым со средним значением μ и дисперсией σ2/N:

где μ с галочкой означает оценку μ, а собственно μ – истинное значение μ; N – количество собранных примеров.

Это и логично, поскольку чем больше примеров собрано, тем сильнее уменьшается дисперсия нашей оценки. Тут надо отметить, чем являются μ и σ. На самом деле они относятся к среднему значению и дисперсии X. Так, μ – это истинное среднее значение X, также являющееся истинным средним значением μ с галочкой, σ2 – дисперсия X, тогда как σ2/N – это дисперсия μ с галочкой. Таким образом, если дисперсия X велика, то понадобится намного больше примеров, чтобы получить точное значение μ с галочкой. Обратите внимание на разницу в масштабе чисел в числителе и знаменателе дисперсии: числитель σ2 растёт с квадратичной скоростью, тогда как знаменатель N – лишь линейно. Следовательно, нужно очень много примеров, чтобы уменьшить дисперсию μ с галочкой, но достаточно лишь небольшого увеличения σ, чтобы привести к значительному росту дисперсии μ с галочкой.

Другойзаписью этого же утверждения является

То есть разница между μ с галочкой и μ есть гауссианой с центром в нуле и той же дисперсией. Эту формулировку мы используем чуть позже.

Когдаречь идёт о доверительных интервалах, имеется в виду, что мы хотим знатьдиапазон значений, в котором, вероятнее всего, находится истинное значениеискомого параметра. Обычно указывают что-нибудь вроде «95% доверительногоинтервала». Это значит, что мы берём функцию плотности вероятности с гауссовымраспределением, охватывающую в середине 95% площади, и говорим, что истинноесреднее значение находится, вероятно, в этой области. Другими словами, истинноесреднее значение лежит в этом интервале с вероятностью в 95%. Доверительныйинтервал обычно обозначают через 1 – α,поскольку α представляет собой то,что называется уровнем значимости. Таким образом, доверительный интервал – этонечто, противоположное уровню значимости. С понятием уровня значимости мы ещёвстретимся, когда будем рассматривать статистическую проверку в следующей части.

Теперьу нас есть символика для обозначения доверительного интервала, но не забывайте,что нас интересует фактический доверительный интервал: нам нужны два числа –минимальное и максимальное значения, в диапазоне которых, вероятно, и находитсяистинное среднее значение. Обозначим их через xleft и xright. Как же их найти? Незабывайте, что это кривая Гаусса. Когда же нам надо найти площадь под кривой,мы берём интеграл. Поэтому необходимо решить уравнение

То есть разница между μ с галочкой и μ есть гауссианой с центром в нуле и той же дисперсией. Эту формулировку мы используем чуть позже.

Когдаречь идёт о доверительных интервалах, имеется в виду, что мы хотим знатьдиапазон значений, в котором, вероятнее всего, находится истинное значениеискомого параметра. Обычно указывают что-нибудь вроде «95% доверительногоинтервала». Это значит, что мы берём функцию плотности вероятности с гауссовымраспределением, охватывающую в середине 95% площади, и говорим, что истинноесреднее значение находится, вероятно, в этой области. Другими словами, истинноесреднее значение лежит в этом интервале с вероятностью в 95%. Доверительныйинтервал обычно обозначают через 1 – α,поскольку α представляет собой то,что называется уровнем значимости. Таким образом, доверительный интервал – этонечто, противоположное уровню значимости. С понятием уровня значимости мы ещёвстретимся, когда будем рассматривать статистическую проверку в следующей части.

Теперьу нас есть символика для обозначения доверительного интервала, но не забывайте,что нас интересует фактический доверительный интервал: нам нужны два числа –минимальное и максимальное значения, в диапазоне которых, вероятно, и находитсяистинное среднее значение. Обозначим их через xleft и xright. Как же их найти? Незабывайте, что это кривая Гаусса. Когда же нам надо найти площадь под кривой,мы берём интеграл. Поэтому необходимо решить уравнение

Выглядитэто довольно страшно, но не стоит беспокоиться, что не получается решить еговручную. Мы даже не будем пробовать, а вместо этого проведём преобразованияэтого выражения, чтобы иметь возможность решить его численно.

Итак, поскольку это гауссово распределение с произвольной дисперсией, первое, что мы можем сделать, – это привести его к стандартному нормальному распределению, так чтобы если ранее дисперсия была действительно большой, то теперь стала малой, а также отмасштабировать через σ2/N. При этом изменятся и пределы. Обозначим новые пределы через zleft и zright, поскольку стандартное нормальное распределение обычно обозначается буквой z:

Чутьотвлечёмся и вспомним определение кумулятивной функции распределениявероятностей:

Унас есть интеграл гауссовой плотности распределения вероятностей, и мы знаем,что кумулятивная функция распределения связана с некоторым интегралом плотностираспределения вероятностей. Возможно, это можно как-то использовать? Вчастности кумулятивная функция распределения – это интеграл от минусбесконечности до xпо функции плотности распределения вероятности и характеризует площадь подкривой от минус бесконечности до x.

Важнопомнить, что гауссово распределение симметрично: левая сторона являетсязеркальным отображением правой. Так, если мы хотим, чтобы 5% весов приходилосьна концы «хвостов», то каждый из «хвостов» будет содержать ровно 2,5% весов.Другими словами, zright – это такое z, которое даёт нам 1 – 0,05/2 = 0,975 площади.Обычно эту функцию обозначают через Φ,и на самом деле мы ищём обратную ей функцию с аргументом 0,975:

Унас есть интеграл гауссовой плотности распределения вероятностей, и мы знаем,что кумулятивная функция распределения связана с некоторым интегралом плотностираспределения вероятностей. Возможно, это можно как-то использовать? Вчастности кумулятивная функция распределения – это интеграл от минусбесконечности до xпо функции плотности распределения вероятности и характеризует площадь подкривой от минус бесконечности до x.

Важнопомнить, что гауссово распределение симметрично: левая сторона являетсязеркальным отображением правой. Так, если мы хотим, чтобы 5% весов приходилосьна концы «хвостов», то каждый из «хвостов» будет содержать ровно 2,5% весов.Другими словами, zright – это такое z, которое даёт нам 1 – 0,05/2 = 0,975 площади.Обычно эту функцию обозначают через Φ,и на самом деле мы ищём обратную ей функцию с аргументом 0,975:

Как её вычислить? В библиотеке SciPy есть функция, обратная кумулятивной функции распределения, которая именно это и делает. Она находится в модуле scipy.stats.norm и называется ppf – это сокращение от percent point function («точечная функция процентов»); называется она так потому, что статистики любят давать всему сложные названия. На самом же деле это просто функция, обратная кумулятивной функции распределения.

Ночто у нас с левой частью? Напомним, что гауссово распределение симметрично, апотому zleft – просто zright с противоположным знаком,предполагая, что гауссово распределение центрировано около нуля (а так и есть).Другой способ найти эту величину – это, конечно же, просто ещё раз использоватьфункцию, обратную кумулятивной функции распределения под площадью в 0,025, тоесть левый «хвост»:

Посколькуэто весьма стандартные показатели, во многих учебниках по статистике ужеуказываются округлённые значения этих величин. Так, zleft = -1.96, zright = +1.96. Мытакже можем обозначить zleft и zright так:

Посколькуэто весьма стандартные показатели, во многих учебниках по статистике ужеуказываются округлённые значения этих величин. Так, zleft = -1.96, zright = +1.96. Мытакже можем обозначить zleft и zright так:

где α –опять-таки уровень значимости.

Наконец мы получаем наш доверительный интервал – после измерения μ у нас есть 95% вероятности, что μ лежит в диапазоне

Правда,тут возникает одна небольшая проблема. Задумайтесь на минуту, в чём она можетзаключаться?

Так вот, проблема в том, что мы не знаем одну из входящих в диапазон величин, а именно стандартное отклонение X, то есть σ. Не зная среднее значение μ, мы, вероятнее всего, не будем знать и значение σ – это наиболее реалистичная ситуация. В случае, если мы не знаем действительного значения σ, для нахождения доверительного интервала можно воспользоваться оценочным значением σ в качестве приближения. Оно равно

Правда,тут возникает одна небольшая проблема. Задумайтесь на минуту, в чём она можетзаключаться?

Так вот, проблема в том, что мы не знаем одну из входящих в диапазон величин, а именно стандартное отклонение X, то есть σ. Не зная среднее значение μ, мы, вероятнее всего, не будем знать и значение σ – это наиболее реалистичная ситуация. В случае, если мы не знаем действительного значения σ, для нахождения доверительного интервала можно воспользоваться оценочным значением σ в качестве приближения. Оно равно

Для того же, чтобы найти точный доверительный интервал, нам необходимо использовать функцию, обратную кумулятивной функции распределения, с распределением Стьюдента, но это выходит за рамки данного курса. В данном курсе нам подходит приближённое значение для гауссового распределения, поскольку оно также позволяет найти доверительный интервал и для распределения Бернулли. В частности, для распределения Бернулли мы можем использовать ровно ту же формулу для нахождения приближённого значения доверительного интервала:

Заменив на, а σ– на квадратный корень дисперсии распределения Бернулли, можем найти дисперсиюдля распределения Бернулли (гляньте в Википедии или вычислите самостоятельно):

Разумеется,zleft и zright можно заменитьна -1,96 и +1,96.

Итак,подведём итог изученному материалу, поскольку он был довольно сложен. Вначалемы использовали центральную предельную теорему, чтобы показать, что оценкамаксимального правдоподобия среднего значения примерно имеет гауссовораспределение. Затем мы нашли левую и правую границы, в пределах которыхнаходятся 95% наиболее вероятных значений среднего. Поскольку эти границыотмасштабированы для стандартного нормального распределения со среднимзначением 0 и дисперсией 1, мы перемасштабировали их обратно, умножив нарасчётное стандартное отклонение и вновь добавив расчётное среднее значение.

Хотелось бы повторить, что доверительный интервал масштабируется пропорционально стандартному отклонению и в то же время обратно пропорционально квадратному корню из N, то есть количеству собранных примеров. Это значит, что мы должны сделать очень большую выборку, чтобы уменьшить доверительный интервал по сравнению со стандартным отклонением данных. Позже мы увидим, что с помощью байесовских методов у нас найдётся гораздо более систематический и элегантный способ количественной оценки неопределённости наших параметров.

Что такое байесовская парадигма

В предыдущих частях мы узнали, как дать оценку параметрам распределения и количественно вычислить неопределённость этой оценки. Конкретнее говоря, это значит, что мы можем вычислить кликабельность одного из наших рекламных объявлений и хотим узнать точность оценки этого показателя. Интуитивно мы знаем, что чем больше собрать данных, тем более точным будет показатель кликабельности.

Метод, который используется для определения точности этих показателей, – это доверительные интервалы. Ключевым при оценке показателя кликабельности (или любого другого измеряемого параметра) является распределение. Уточним, что оцениваемый параметр вроде среднего значения является случайной переменной, поскольку представляет собой сумму отдельных независимых и одинаково распределённых случайных переменных. Поэтому, согласно центральной предельной теореме, он имеет распределение, примерно равное гауссовому. Но мы должны уяснить, что параметр, который мы хотим измерить, – истинное среднее значение или истинный показатель кликабельности – фиксирован. Это то, что мы хотим найти, изучая данные. Это и называется частотной статистикой. Параметры распределения установлены, просто мы не знаем их значений. Данные же затем генерируются случайным образом из этих распределений, имеющих данные параметры.

Вбайесовской статистике у нас обратная ситуация. Тут мы даём параметру распределение,и он становится случайной величиной, имеющей действительное распределениевероятностей. Данные же при этом фиксированы. Можно утверждать, что это лучшеотражает реальность. Фиксированность данных – это то, что происходит в реальноммире. Нет никакой случайности в результате подбрасывания монеты после того, каконо свершилось. Таким образом, мы можем затем промоделировать распределениепараметра с учётом некоторых данных.

Уточним, что в частотной статистике мы стараемся найти argmax правдоподобия:  

\widehat\theta = argmax_{\theta} P(X | \theta).

В байесовской статистике мы стараемся найти апостериорное распределение:

P(X | \theta)

– данные заданы и фиксированы. Следовательно, в байесовской статистике θ имеет распределение, в отличие от статистики частотной, где θ является точечной оценкой.

Позжемы увидим, как теорема Байеса начинает играть роль, когда мы стараемсявычислить апостериорное распределение. В этой лекции я дам наглядноепредставление того, как это всё работает, чтобы вы получили некотороеинтуитивное представление, а позже в курсе покажу, как это работаетматематически и в коде. Если вы хотите запустить демонстрационную программусамостоятельно, то соответствующий файл в репозитарии называется demo.py.

Итакзапустим Python, файл demo.py. Это будет байесовская апостериорная оценка показателякликабельности.

Итак,вначале видим то, что происходит после одного клика (или одного отсутствияклика).

Далееидёт график после 6 испытаний. Наша оценка показателя кликабельности получиласьоколо 0,62, хотя истинный показатель равен 0,3. Однако обратите внимание, чтораспределение всё ещё очень широкое.

Затемвидим, что получается после 11 испытаний. Прогнозируемый показателькликабельности снижается, становясь ближе к истинному значению, а дисперсиястановится меньше.

Следующийграфик – результат 26 испытаний. Предполагаемый показатель кликабельностиуменьшился ещё больше. Оценить уменьшение дисперсии можно, взглянув на высотукривой; сейчас она находится между 4 и 4,5.

После50 испытаний пик становится ещё выше, а дисперсия – меньше.

Далеевидим результат после 101 испытания. Теперь мы очень близки к истинномупоказателю – 0,31, а высота кривой приближается к 9.

Теперь– результат после 200 испытаний. График становится даже более узким и высоким.

После300 испытаний – ещё уже и выше.

После500 испытаний высота графика почти достигла 20, а оценка всё ещё находится врайоне 0,3.

Далеевидим результаты после 700, 1000 и 1500 испытаний.

Как видим, по мере сбора большего количества данных дисперсия распределения уменьшается. Она становится более узкой, поскольку мы теперь становимся более уверены в значении параметра. Таким образом, в байесовской статистике доверительный интервал как бы встроен в апостериорное распределение, вычислению которого будет посвящена одна из последующих занятиях.

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: