Традиционное АВ-тестирование. Продолжение и резюме

А-В тестирование для показателя кликабельности. Проверка хи-квадрат

Здравствуйте и вновь добро пожаловать на занятия по теме «Байесовское машинное обучение на языке Python, часть 1».

В данной статье мы продолжим изучение традиционного A/B тестирования и рассмотрим более сложный метод статистической проверки, который применим для показателей кликабельности и переходов, так же напишем код, рассмотрим еще некоторые особенности A/B тестирования и в конце подведем резюме!

Теперь, когда вы знаете основные этапы статистической проверки, вам будет проще изучить новые их виды.

Данныйметод статистической проверки работает с так называемой таблицей сопряжённости.Она предназначена для работы с категориальными переменными, число которыхподсчитывается. По строкам у нас идут группы. Назовём их «Реклама А» и «РекламаВ». По столбцам идут события – клик или его отсутствие:

  Есть клик Нет клика
Реклама А 36 14
Реклама В 30 25

Мыхотим узнать, является ли разница в показателях кликабельности «Рекламы А» и«Рекламы В» статистически значимой.

Имеятакую таблицу, мы рассчитываем так называемый критерий хи-квадрат. Называетсяон так в связи с тем, что имеет, конечно же, распределение хи-квадрат. Напомню,я уже говорил, что вы познакомитесь со множеством более экзотичныхраспределений, нежели только гауссово и Бернулли, если погрузитесь в мирстатистики. Значения в распределении хи-квадрат всегда положительны. Как и враспределении Стьюдента, главным его параметром является количество степенейсвободы. И, как и в распределении Стьюдента, параметры сдвига и масштабированияне упоминаются на соответствующих страницах Википедии, но в SciPy их можно указать. Мы будем пользоватьсяустановленными по умолчаниями значениями сдвига 0 и масштаба 1.

Итак,рассмотрим, как рассчитывается статистический критерий хи-квадрат. Он равенсумме по всем i,где iпоследовательно равно каждой ячейке таблицы, наблюдаемого значения минусожидаемое, возведённого в квадрат и поделенного на ожидаемое значение:

Достаточноочевидно, что эта величина всегда будет положительной, поскольку числительявляется квадратом, а знаменатель – ожидаемым значением, которое, поскольку мыподсчитываем количество случаев, которое всегда является положительным.

Личноя не нахожу эту форму уравнения такой уж и понятной, поэтому разберём пример.Итак, прежде всего i индексирует ячейку в таблице. Пусть, например, этобудет ссылка на строку 1, столбец 1, что представляет собой количество кликовдля рекламы А. Наблюдаемое значение мы знаем, ведь это просто значение втаблице, но каково же ожидаемое значение? Ну, мы можем собрать все данныевместе и оценить вероятность клика, равную общему количеству кликов, делённомуна общее количество просмотров. Тогда если считать рекламное объявление Асредним, то ожидаемое количество кликов будет равно общему количествупросмотров рекламы А, умноженному на вероятность клика:

Аналогично,если мы хотим оценить ожидаемое количество случаев отсутствия кликов длярекламы А, мы вначале вычисляем общую вероятность отсутствия кликов, равнуюстолбцу 2, делённому на общее количество просмотров, после чего умножаем её насумму по первой строке, которая представляет общее количество показов рекламыА. Ту же процедуру можно провести для каждой из четырёх ячеек в таблицесопряжённости, в результате чего должно получиться следующее:

Найдитеминутку, чтобы проверить этот результат и удостовериться, что у вас такой жеответ.

Итак,это были довольно утомительные вычисления, но, к счастью, существует способ ипопроще. Критерий хи-квадрат можно вычислить по этой простой формуле, которая, разумеется,работает лишь в случае таблицы сопряжённости 2×2:

Янастоятельно рекомендую доказать на бумаге, что она эквивалентна предыдущемууравнению. Это сугубо механическое упражнение без необходимости знатькакую-либо сложную математику. Полагаю, у вас уйдёт от 30 минут до часа, чтобыполностью справиться, поэтому, пожалуйста, займитесь этим – это хорошееупражнение.

Далее,что делать, когда мы получили критерий хи-квадрат? Поскольку этотстатистический критерий всегда положительный и увеличивается по мере отклоненияданных от среднего значения, большая величина хи-квадрата будет означатьзначимость. Интуитивно понятно, что рассматривается крайняя правая частьраспределения хи-квадрат, поэтому если от единицы отнять площадь подкумулятивной функцией распределения, получится очень малое число – это и будет p-значение. Какобычно, если p-значениеменьше α, нашего уровня значимости,можно утверждать, что разница в показателях кликабельности между рекламой А ирекламой В является статистически значимой.

Заметьте,что этот критерий встроен в библиотеку Scipy,поэтому обсуждавшаяся здесь процедура эквивалентна команде

scipy.stats.chi2_contingency(T, correction=False)

Что значит параметр correction? Одно важное обстоятельство заключается в том, что критерий хи-квадрат является лишь приближением. В частотной статистике часто можно встретить утверждение, что критерий хи-квадрат асимптотически стремится к распределению хи-квадрат, где под асимптотическим приближением подразумевается, что N стремится к бесконечности. Та же ситуация с центральной предельной теоремой и она же – в ситуации с оценкой среднего значения случайной переменной. Уравнение становится точным, только когда N = ∞. Это также означает, что существуют другие критерии, которые можно применить к тому же набору данных, чтобы получить тот же тип ответа, и  откорректировать значение критерия хи-квадрат. Например, как вы увидите, в Scipy по умолчанию для критерия хи-квадрат стоит поправка Йейтса, а кроме того, существует точный критерий Фишера. Оба они работают с тем же типом данных и, опять же, легко подключаются, так что их API очень схожи или одинаковы.

А/В-тест на показатель кликабельности в коде

Сейчас мы выполним уже обсуждавшееся А/В-тестирование в коде. Вы уже видели, что в чисто вычислительном отношении это весьма просто, а потому не оно будет в центре внимания данного упражнения – с ним вы вполне можете справиться самостоятельно. Мы же сосредоточимся на том, как изменяется p-значение по мере увеличения выборки, в частности, даёт ли p-значение определённый ответ на наш вопрос. Кроме того, нас интересуют возможные недостатки использования данного статистического критерия – это окажется важным далее, когда мы будем обсуждать байесовское А/В-тестирование. Если вы не хотите писать код сами, то соответствующий файл в репозитарии называется chisquare.py.

Итак,начнём с импорта библиотек.

import numpy as np

import matplotlib.pyplot as plt

from scipy.stats import chi2, chi2_contingency

Создадимкласс для генерации наших данных, который может эмулировать настоящий сервис посбору данных, например, сбор кликов из логов облаков или чего-то в этом роде. p1 и p2 – вероятностиклика для группы 1 и группы 2, а функция nextвозвращает ответ, кликнул пользователь или нет.

class DataGenerator:

  def __init__(self, p1, p2):

    self.p1 = p1

    self.p2 = p2

  defnext(self):

    click1 = 1if (np.random.random() < self.p1) else 0

    click2 = 1if (np.random.random() < self.p2) else 0

    return click1, click2

Этогарантирует, что у нас будет одинаковое количество примеров для каждой изгрупп, хотя для таблицы сопряжённости критерия хи-квадрат это не обязательно.

Далеенапишем функцию для вычисления p-значения. Она просто повторяет уже виденную намиформулу.

def get_p_value(T):

  det =T[0,0]*T[1,1] – T[0,1]*T[1,0]

  c2 = float(det) / T[0].sum() * det /T[1].sum() * T.sum() / T[:,0].sum() / T[:,1].sum()

  p = 1 –chi2.cdf(x=c2, df=1)

  return p

Следующейидёт функция для запуска нашего эксперимента.

def run_experiment(p1,p2, N):

  data =DataGenerator(p1, p2)

  p_values =np.empty(N)

  T =np.zeros((2, 2)).astype(np.float32)

  for i in xrange(N):

    c1, c2 =data.next()

    T[0,c1] += 1

    T[1,c2] += 1

Важно,что нам придётся пропустить первые несколько значений. Если вы не понимаетепочему, попробуйте поставить видео на паузу и подумать, почему формула может несработать, если мы вычисляем p-значение чересчур рано.

Надеюсь,вы всё-таки поставили видео на паузу и задумались над этим вопросом. Дело в том,что мы делим на суммы строк и столбцов, и если какой-то из них всё ещё равеннулю, мы не можем вычислить критерий хи-квадрат.

    if i <10:

     p_values[i] = None

    else:

     p_values[i] = get_p_value(T)

 plt.plot(p_values)

 plt.plot(np.ones(N)*0.05)

  plt.show()

run_experiment(0.1,0.11, 20000)

Итак,запустим программу и посмотрим, что получится.

Любопытно,что, как мы видим, в некоторый момент времени p-значение становится значимым, затем долгое времяостаётся незначительным, после чего колеблется в районе уровня значимости.

Запустимещё раз. Получилась совершенно другая возможная ситуация – значение опускаетсяниже уровня значимости, затем поднимается над ним и не возвращается. Этоозначает статистическую незначительность, хотя мы знаем, что средние значенияразличны.

Попробуемещё раз. Получаем ещё одну возможную ситуацию – показать значимость и там иостаться.

Как видите, p-значение ненадёжно: иногда оно опускается ниже уровня значимости, а затем возвращается, и наоборот. Я советую установить оба средних значения в точности одинаковыми и менять дисперсию, чтобы посмотреть, удастся ли получить значимое p-значение, даже если две группы одинаковы. Не забывайте, что p-значение должно быть ниже уровня значимости в 5% времени.

ABCD…-тестирование. Поправка Бонферрони

Как провести А/В-тестирование, когда нужно проверить более двух групп? Это очень распространённая на практике ситуация. Например, у нас может быть три и более рекламных объявления, которые мы хотим проверить, или три и более разных целевые страницы и так далее.

Чтокасается p-значений,то, как мы видели, можно получить значимое p-значение случайно, просто выполнив больше опытов. Вэтом и состоит одно из противоречий p-значения – можно просто выполнить ряд экспериментови работать «в обратном направлении», выбрав нечто такое, что кажется имеющимстатистически значимое p-значение.

Однимиз простейших решений для проверки нескольких групп является поправкаБонферрони. Всё, что нужно сделать, – это поделить уровень значимости α на количество выполненныхэкспериментов:

Одиниз способов сравнения нескольких групп – выполнить попарное тестирование, тоесть проверить каждую группу с каждой другой группой. Получается сочетание из N по 2 попарныхтестов для выполнения, а в качестве уровня значимости с поправкой Бонферронииспользуется α, делённое на сочетаниеиз Nпо 2. Это значит, что любое найденное p-значение должно быть меньше этого α, чтобы бытьстатистически значимым.

Другойметод – провести одну проверку по сравнению с остальными. Если у нас N разных групп,то получится Nразных проверок. Чтобы вычислить данные для группы, содержащей остальные тесты,мы суммируем значения для всех этих групп. Обратите внимание, что тут также применяетсяпоправка Бонферрони, так что новый уровень значимости будет равен

Одиниз способов сравнения нескольких групп – выполнить попарное тестирование, тоесть проверить каждую группу с каждой другой группой. Получается сочетание из N по 2 попарныхтестов для выполнения, а в качестве уровня значимости с поправкой Бонферронииспользуется α, делённое на сочетаниеиз Nпо 2. Это значит, что любое найденное p-значение должно быть меньше этого α, чтобы бытьстатистически значимым.

Другойметод – провести одну проверку по сравнению с остальными. Если у нас N разных групп,то получится Nразных проверок. Чтобы вычислить данные для группы, содержащей остальные тесты,мы суммируем значения для всех этих групп. Обратите внимание, что тут также применяетсяпоправка Бонферрони, так что новый уровень значимости будет равен

И наконец отмечу, что то, что я только что описал, обычно называется ретроспективным анализом. Это значит, что вначале проверка проводится на полной таблице сопряжённости, которая будет больше, чем 2×2, – она будет Nx2 для N групп и двух возможных событий. Если при этом получится значимое p-значение, то мы проверяем его ретроспективным анализом. Как и в случае большинства других рассмотренных понятий частотного А/В-тестирования, как мы убедимся далее при рассмотрении байесовского А/В-тестирования, в действительности случай с несколькими группами элегантно решается без выполнения какой-либо дополнительной работы.

Статистическая мощность

Вымогли заметить, что мы ещё не дали количественное определение мощности. Насамом деле мы можем связать его с предыдущим обсуждением несбалансированныхклассов. В этом контексте мощность фактически равна чувствительности: мыговорим, что мощность равна вероятности отвергнуть нулевую гипотезу приусловии, что альтернативная гипотеза истинна. Итак, как мы приходим к такомувыводу?

Вначалеотметим, что это похоже на задачу двоичной классификации. У нас есть двавозможных утверждения: либо нулевая гипотеза истинна, либо альтернативная. Врезультате мы получаем два прогноза: отвергнуть нулевую гипотезу или неотвергнуть. Обратите внимание, что эти прогнозы не заключаются в дилеммепринять нулевую гипотезу или принять альтернативную гипотезу. Подобные ошибки вкорректных определениях – это ещё одна причина неудобности А/В-тестирования.Это и затрудняет работу специалиста по обработке данных, и делает тяжёлымобъяснения людям нетехнических специальностей, так как весьма вероятно, чтосуть будет утеряна при донесении.

Итак,сугубо для полноты пройдёмся ещё по ряду определений статистики. Впрочем,запоминать их названия не обязательно, поскольку, как и большинство вещей встатистике, это просто сложные слова, представляющие более фундаментальные понятиятеории вероятностей, с которыми мы уже знакомы. Итак, большая мощностьуменьшает вероятность получения ложного отрицательного результата, который, всвою очередь, ещё называется ошибкой второго рода. Вероятность полученияложного отрицательного результата, или показатель ложной отрицательности,обозначается β и равна единице минусмощность. Следовательно, мощность также равна 1 – β.

Сдругой стороны, у нас также есть ошибка первого рода, ещё называемая ложнойположительностью. Как видите, крайне желательно придерживаться основополагающихпонятий – истинного положительного результата, ложного положительного,истинного отрицательного и ложного отрицательного.

Итак, зачем нам количественная оценка статистической мощности? Одна из главных причин заключается в том, что анализ мощности можно использовать для определения количества примеров, необходимых для наблюдения в нашем эксперименте. Мы уже обсуждали некоторые величины, влияющие на мощность проверки, но среди них есть две ключевые – размер эффекта и размер выборки. Размер эффекта, или, другими словами, различие между двумя группами, важен потому, что, как мы знаем, большое различие легче измерить, нежели малое, при заданной дисперсии. Размер выборки также имеет значение, поскольку, как вы также могли видеть, напрямую влияет на статистический критерий, а значит, и на p-значение.

Ловушки А/В-тестирования

Мынаблюдали в коде поведение p-значения по мере хода эксперимента. Но это делалосьлишь для того, чтобы дать представление о том, как он меняется. Вдействительности же нельзя проверять p-значение, пока эксперимент не закончится,поскольку, как вы знаете, это значение может показывать значимость, а затемуходить выше порога значимости. Некоторые иногда останавливают проверку раньшесрока, как только достигают значимости. Эта лекция объяснит, почему так делатьнельзя. Есть даже некоторые пакеты программ, позволяющие совершить такую ошибкус помощью встроенных функций. К счастью, мы пишем код на Python и не пользуемся ветхими старыми пакетами постатистической обработке.

Вернёмсяк определению p-значения.Оно гласит, что если группы А и В одинаковы, то мы будем наблюдать их разницу, равнуюp-значению ибольше, в течение 5% времени. Это значит, что в течение 5% времени мы ожидаемполучать очень малое p-значение, даже если А и В совершенно одинаковы.

Теперьрассмотрим случаи, как может изменяться p-значение. Как мы знаем, есть несколько разныхсценариев, которые следует рассмотреть. Во-первых, p-значение может оставаться на незначительном уровне.Далее, p-значениеможет стать значимым после некоторого количества испытаний. p-значение также можетбыть вначале значимым, а затем стать незначительным. И наконец, p-значение может постояннооставаться на значимом уровне.

Посмотримтеперь, что будет, если мы остановимся, как только увидим значимость. Очевидно,что в одном из случаев может быть так, что p-значение может из значимого стать незначительным,но мы этого не уловим. В итоге мы увеличиваем долю времени, в течение которогофиксируется значимость при условии, что А = В. Следовательно, слишком раноостанавливаться не стоит. В общем случае рекомендуется избрать размер выборкидо начала эксперимента и придерживаться его.

Какже выбрать размер выборки? В общем случае правило таково:

где σ2– дисперсия данных, а δ – минимальноеразличие, которое требуется обнаружить.

Напомню,что малые различия обнаружить труднее, а потому требуется большее N. Кроме того,существует масса онлайн-калькуляторов, позволяющих рассчитать размер выборки,но все они требуют допущений или оценок данных.

Странностьючастотной статистики является то, что все эти правила являются в некотором роденеуклюжими и интуитивно не понятными. В некоторых случаях их можно даже считатьнеэтичными. Например, представьте, что вы проверяете новое лекарство и в связис тем, что знакомы с научными достижениями, лежащими в основе разработки этоголекарства, совершенно убеждены, что оно работает. Вы начинаете проверку, и онаначинает показывать хорошие результаты. Но правила статистики гласят: нельзяостанавливаться чересчур рано и прописывать всем это лекарство, необходимоподождать, пока проверка не закончится. Другой пример – показатель переходов.Представьте, что после малого количества просмотров вы абсолютно уверились, чтоодна целевая страница даёт лучший показатель переходов, чем вторая. У васвозникнет желание переключиться на лучшую целевую страницу, чтобы начатьзарабатывать больше денег, но статистика требует этого не делать.

Позже мы увидим, как байесовские методы решают эту проблему. Как правило, байесовские методы требуют меньше примеров для достижения некоторого порогового значения. Кроме того, можно остановить эксперимент в любой момент и вычислить точные вероятности прямо из собранных данных.

Традиционное А/В-тестирование. Резюме

Вот и подведём итоги всему, что изучили в этой части. Традиционная статистика – вещь довольно запутанная, так что ничего страшного, если вы не смогли овладеть всем с первого раза. Тут важно, чтобы вы спросили себя: «Как я могу использовать всё это применительно к реальным данным?» Ответ на этот вопрос действительно поможет вам всё лучше понять.

Вначале части мы рассмотрели статистический критерий. Его ещё называют t-критериемСтьюдента в честь человека, который открыл его и опубликовал под псевдонимомСтьюдент. Статистический критерий предназначен для сравнения двух разных группс гауссовым распределением данных. Очень часто его используют и для данных, неимеющих точно гауссового распределения, но, как мы обсуждали, существуют идругие критерии, которые называются непараметрическими и которые не делаютподобных допущений о данных, – они могут оказаться более подходящими. Вместе стем эти критерии, поскольку они предполагают меньше допущений о данных, имеютменьшую мощность.

Мыиспользовали статистический критерий, чтобы получить представление остатистической проверке, однако этапы остаются теми же, независимо от того,какой критерий используется. В частности, вначале мы определяем нулевую иальтернативную гипотезы. В результате проверки мы либо отвергаем нулевуюгипотезу, либо нет. Однако не забывайте о важном отличии: решение не отвергатьнулевую гипотезу вовсе не означает принять её. Если различие между двумягруппами действительно есть, то, возможно, нужно собрать достаточно данных,чтобы обнаружить это различие. Кроме того, не забывайте, что если дисперсиядвух групп велика, необходимо собрать значительно больше данных для обнаруженияразличия. Большее же количество данных означает, что проверка имеет большую мощность.

Далееидёт вычисление статистического критерия, который является функцией случайныхпеременных, а потому также является случайной переменной и имеет распределениевероятностей. При t-критерии Стьюдента статистический критерий имеетраспределение Стьюдента, при критерии хи-квадрат – распределение хи-квадрат. Вобоих случаях экстремальное значение критерия выявляет факт различия междудвумя группами. При этом в случае критерия хи-квадрат, поскольку распределениехи-квадрат принимает только положительные значения, есть только один «хвост»справа. В случае же t-критерия Стьюдента, имеющего симметричноераспределение, схожее с гауссовым, но с более толстыми «хвостами», их два. Всвязи с этим можно провести как одностороннюю, так и двустороннюю проверку.

Последнее– вычисление p-значения.Не забывайте, что чем более экстремальным является статистический критерий, темменьшим является p-значение.В исследованиях, как правило, используются пороговые значения значимости в 5% и1%.

Утрадиционной статистической проверки есть много недостатков. Прежде всего онаочень запутанна даже для специалиста по обработке данных. Представьте, какойнепонятной она покажется при передаче информации тому, кто не разбирается вэтой сфере. Другим недостатком является то обстоятельство, что повторяемаяпроверка увеличивает шансы на нахождения значимого эффекта, когда его нет. Незабывайте, что p-значение– это вероятность обнаружения различия, даже если две группы идентичны. Поэтомуесли вы повторяете проверку или проверяете несколько групп, не стоит гонятьсяза значимым эффектом, лучше использовать поправку Бонферрони. И наконец,никогда нельзя останавливать проверку слишком рано, даже если обнаружитсязначимое p-значение,поскольку это увеличивает ваши шансы на получение ложного положительногорезультата.

где σ2– дисперсия данных, а δ – минимальноеразличие, которое требуется обнаружить.

Напомню,что малые различия обнаружить труднее, а потому требуется большее N. Кроме того,существует масса онлайн-калькуляторов, позволяющих рассчитать размер выборки,но все они требуют допущений или оценок данных.

Странностьючастотной статистики является то, что все эти правила являются в некотором роденеуклюжими и интуитивно не понятными. В некоторых случаях их можно даже считатьнеэтичными. Например, представьте, что вы проверяете новое лекарство и в связис тем, что знакомы с научными достижениями, лежащими в основе разработки этоголекарства, совершенно убеждены, что оно работает. Вы начинаете проверку, и онаначинает показывать хорошие результаты. Но правила статистики гласят: нельзяостанавливаться чересчур рано и прописывать всем это лекарство, необходимоподождать, пока проверка не закончится. Другой пример – показатель переходов.Представьте, что после малого количества просмотров вы абсолютно уверились, чтоодна целевая страница даёт лучший показатель переходов, чем вторая. У васвозникнет желание переключиться на лучшую целевую страницу, чтобы начатьзарабатывать больше денег, но статистика требует этого не делать.

Позже мы увидим, как байесовские методы решают эту проблему. Как правило, байесовские методы требуют меньше примеров для достижения некоторого порогового значения. Кроме того, можно остановить эксперимент в любой момент и вычислить точные вероятности прямо из собранных данных.

Традиционное А/В-тестирование. Резюме

Вот и подведём итоги всему, что изучили в этой части. Традиционная статистика – вещь довольно запутанная, так что ничего страшного, если вы не смогли овладеть всем с первого раза. Тут важно, чтобы вы спросили себя: «Как я могу использовать всё это применительно к реальным данным?» Ответ на этот вопрос действительно поможет вам всё лучше понять.

Вначале части мы рассмотрели статистический критерий. Его ещё называют t-критериемСтьюдента в честь человека, который открыл его и опубликовал под псевдонимомСтьюдент. Статистический критерий предназначен для сравнения двух разных группс гауссовым распределением данных. Очень часто его используют и для данных, неимеющих точно гауссового распределения, но, как мы обсуждали, существуют идругие критерии, которые называются непараметрическими и которые не делаютподобных допущений о данных, – они могут оказаться более подходящими. Вместе стем эти критерии, поскольку они предполагают меньше допущений о данных, имеютменьшую мощность.

Мыиспользовали статистический критерий, чтобы получить представление остатистической проверке, однако этапы остаются теми же, независимо от того,какой критерий используется. В частности, вначале мы определяем нулевую иальтернативную гипотезы. В результате проверки мы либо отвергаем нулевуюгипотезу, либо нет. Однако не забывайте о важном отличии: решение не отвергатьнулевую гипотезу вовсе не означает принять её. Если различие между двумягруппами действительно есть, то, возможно, нужно собрать достаточно данных,чтобы обнаружить это различие. Кроме того, не забывайте, что если дисперсиядвух групп велика, необходимо собрать значительно больше данных для обнаруженияразличия. Большее же количество данных означает, что проверка имеет большую мощность.

Далееидёт вычисление статистического критерия, который является функцией случайныхпеременных, а потому также является случайной переменной и имеет распределениевероятностей. При t-критерии Стьюдента статистический критерий имеетраспределение Стьюдента, при критерии хи-квадрат – распределение хи-квадрат. Вобоих случаях экстремальное значение критерия выявляет факт различия междудвумя группами. При этом в случае критерия хи-квадрат, поскольку распределениехи-квадрат принимает только положительные значения, есть только один «хвост»справа. В случае же t-критерия Стьюдента, имеющего симметричноераспределение, схожее с гауссовым, но с более толстыми «хвостами», их два. Всвязи с этим можно провести как одностороннюю, так и двустороннюю проверку.

Последнее– вычисление p-значения.Не забывайте, что чем более экстремальным является статистический критерий, темменьшим является p-значение.В исследованиях, как правило, используются пороговые значения значимости в 5% и1%.

Утрадиционной статистической проверки есть много недостатков. Прежде всего онаочень запутанна даже для специалиста по обработке данных. Представьте, какойнепонятной она покажется при передаче информации тому, кто не разбирается вэтой сфере. Другим недостатком является то обстоятельство, что повторяемаяпроверка увеличивает шансы на нахождения значимого эффекта, когда его нет. Незабывайте, что p-значение– это вероятность обнаружения различия, даже если две группы идентичны. Поэтомуесли вы повторяете проверку или проверяете несколько групп, не стоит гонятьсяза значимым эффектом, лучше использовать поправку Бонферрони. И наконец,никогда нельзя останавливать проверку слишком рано, даже если обнаружитсязначимое p-значение,поскольку это увеличивает ваши шансы на получение ложного положительногорезультата.

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: