Традиционное АВ-тестирование. Введение

А/В-тестирование. Постановка задачи

Здравствуйте и вновь добро пожаловать на занятия по теме «Байесовское машинное обучение на языке Python: часть 1».

В этой статье мы обсудим традиционное А/В-тестирование, его методы и p-значение. Затем напишем статистический критерий в коде и обсудим порядок цифр при проведении А/В-тестирования.

Есливы не знаете, что такое А/В-тестирование, то его можно описать с помощьюжизненной ситуации. Итак, предположим, мы запускаем стартап с программой в видеуслуги и у нас есть целевая страница, где даётся информация об услуге и накоторой мы стараемся убедить пользователя зарегистрироваться. При этом предполагается,что пользователь успешно зарегистрировался, если он ввёл свою электронную почтуи нажал кнопку «Регистрация». Разумеется, далеко не каждый, кто посещает нашуцелевую страницу, будет регистрироваться – некоторые её просмотрят, поймут, чтоим это не интересно, и покинут сайт. В связи с этим у нас будет показательпереходов – доля людей, которые зарегистрировались при посещении нашей целевойстраницы.

Теперьпредположим, наш главный маркетолог определил, что с целевой страницей что-тоне так – может, дизайн не побуждает к отзыву или выбранные цвета выглядят неочень, или описание компании не убедительно. Поэтому главный маркетологсообщает, что следует испытать новую целевую страницу, которая, по его мнению,приведёт к более высокому показателю переходов. Будучи специалистами пообработке данных, мы хотели бы измерить, какая целевая страница лучше,используя собранные данные и математику. Вот тут-то и вступают в игрудоверительные интервалы.

Почемумы говорим о доверительных интервалах? Потому что мы интуитивно знаем, что 1/10не настолько точно, как 10/100, а это, в свою очередь, не так точно, как100/1000, даже несмотря на то, что все они дают одинаковый показатель кликовили переходов. В связи с этим обстоятельством мы также знаем, что если одна страницадаёт один клик из 10, то она необязательно хуже другой, которая даёт 2 клика из10. Но что, если одна страница даёт 10 кликов из 100, а вторая – 20 кликов из100? Теперь мы более уверены. Вопрос, вновь-таки, в следующем: как этоопределить численно?

Вчастотной статистике ответ следующий: провести традиционную статистическуюпроверку. В этой лекции мы рассмотрим простой пример, чтобы уточнитьтерминологию и общие этапы статистической проверки, а в последующих – получимболее конкретные тесты, которые сможем использовать.

Дляначала рассмотрим более простую ситуацию. Предположим, мы измеряем рост мужчини женщин и хотим узнать, выше ли мужчины женщин или нет. В статистическойпроверке мы бы задались вопросом: «Является ли разница в росте между мужчинамии женщинами статистически значимой?» Мы вновь встречаемся с термином«значимость», который впервые увидели в связи с доверительными интервалами.Напомню, что для его обозначения используется символ α. Мы опять будем использовать 5% – стандартный уровень значимости,используемый в исследованиях. Кроме того, в них также используется 1%,требующий более значимой разницы между выборками. Это подчёркивает слабостьметода – мы всё ещё должны выбрать, какой порог считать значимым. Для большейточности переформулируем вопрос: «Является ли измеряемая разница в среднемвозрасте мужчин и женщин статистически значимой при уровне значимости α?» В статистической проверке у нас двегипотезы. Первую назовём нулевой – обычно она гласит, что нет никакой разницы,например, что нет никакой статистически значимой разницы между средним ростоммужчин и женщин. Другим примером может служить утверждение, что нет никакойзначимой разницы между новым лекарством и эффектом плацебо.

Альтернативнаягипотеза может быть нескольких видов. Она может состоять в том, что среднийрост мужчин больше среднего роста женщин. Такой вид называется одностороннейпроверкой. Гипотеза может состоять и в том, что средний рост мужчин не равенсреднему росту женщин. Это называется двусторонней проверкой, посколькуозначает, что средний рост мужчин может быть больше среднего роста женщин, аможет быть и меньше. Аналогично это может означать, что использование лекарстваприводит к худшим результатам, нежели эффект плацебо, или к лучшим.

Мы будем проводить двустороннюю проверку. Другими словами, наша альтернативная гипотеза будет заключаться в том, что средний рост мужчин не равен среднему росту женщин. В следующей лекции мы увидим, как количественно показать, что две группы имеют статистически значимую разницу.

Метод простого А/В-тестирования

Продолжим наш пример со сравнением роста мужчин и женщин (или сравнения воздействия лекарства и эффекта плацебо) и покажем, как найти количественный ответ.

Какэто часто бывает в частотной статистике, будем считать, что наши данные имеютнормальное распределение, то есть и рост мужчин, и рост женщин вытекают изгауссового распределения с, вероятно, разными средними значениями. Итак, мыделаем следующее: мы собираем некоторое количество данных, измерив некотороечисло людей. В результате у нас получается два списка с ростами – один длямужчин, второй для женщин:

Далеемы введём так называемый статистический критерий и обозначим его через t. Он равен

Далеемы введём так называемый статистический критерий и обозначим его через t. Он равен

Величинаsp называется обобщённымстандартным отклонением и равна среднему двух отдельных стандартных отклонений:

Обратитевнимание, что эти стандартные отклонения являются несмещёнными оценками, тоесть мы делим на N– 1, а не на N,и что N– это количество примеров, собранных для одной группы, то есть если у нас есть10 мужчин и 10 женщин, то N = 10. Если же у нас имеются группы неравной длины,то придётся использовать другую формулу для вычисления объединённогостандартного отклонения и статистического критерия, но для простоты мы этотслучай пропустим.

Вернёмсячуть назад, к нашей оценке среднего значения. Мы утверждали, что поскольку онаявляется суммой случайных величин, то и сама является случайной величиной, ипоказали, что она имеет гауссово распределение. Теперь если мы взглянем натолько что вычисленный статистический критерий, то заметим, что он такжеявляется функцией случайных переменных, а значит тоже является случайнойпеременной.

Следующийэтап попытаемся пояснить скорее «на пальцах», поскольку можно показать, чтотолько что вычисленный статистический критерий имеет не гауссово распределение,а распределение Стьюдента. Мы рассмотрим распределение Стьюдента наряду снекоторыми более экзотическими распределениями, когда будем изучатьстатистическую проверку и байесовские методы.

Итак,что же такое распределение Стьюдента. В основном оно очень похоже на гауссово,но имеет более «толстые хвосты», что значит, что вес вероятности на концах«хвостов» выше, чем в распределении Гаусса. Если вы помните, гауссиана спадаетпо экспоненте с показателем x2, что является очень быстрымпадением. Что касается распределения Стьюдента, то для его плотностираспределения вероятностей существует действительно сложная формула:

Обратитевнимание, что эти стандартные отклонения являются несмещёнными оценками, тоесть мы делим на N– 1, а не на N,и что N– это количество примеров, собранных для одной группы, то есть если у нас есть10 мужчин и 10 женщин, то N = 10. Если же у нас имеются группы неравной длины,то придётся использовать другую формулу для вычисления объединённогостандартного отклонения и статистического критерия, но для простоты мы этотслучай пропустим.

Вернёмсячуть назад, к нашей оценке среднего значения. Мы утверждали, что поскольку онаявляется суммой случайных величин, то и сама является случайной величиной, ипоказали, что она имеет гауссово распределение. Теперь если мы взглянем натолько что вычисленный статистический критерий, то заметим, что он такжеявляется функцией случайных переменных, а значит тоже является случайнойпеременной.

Следующийэтап попытаемся пояснить скорее «на пальцах», поскольку можно показать, чтотолько что вычисленный статистический критерий имеет не гауссово распределение,а распределение Стьюдента. Мы рассмотрим распределение Стьюдента наряду снекоторыми более экзотическими распределениями, когда будем изучатьстатистическую проверку и байесовские методы.

Итак,что же такое распределение Стьюдента. В основном оно очень похоже на гауссово,но имеет более «толстые хвосты», что значит, что вес вероятности на концах«хвостов» выше, чем в распределении Гаусса. Если вы помните, гауссиана спадаетпо экспоненте с показателем x2, что является очень быстрымпадением. Что касается распределения Стьюдента, то для его плотностираспределения вероятностей существует действительно сложная формула:

но в данном курсе мы ею пользоваться не будем.Обратите внимание, что тут только один параметр ν, который называется количеством степеней свободы. ν определяет, насколько широким илиузким является график плотности распределения вероятностей. Для нашейстатистической проверки ν = 2N – 2. Как и вслучае гауссового распределения, распределение Стьюдента имеет среднее значениеи масштабный коэффициент, но, опять же, мы не будем их использовать в данномкурсе.

Итак,вновь рассмотрим формулу статистического критерия и исследуем, как можетизменяться значение t при определённых условиях. Как можно видеть, еслисредние значения X1 и X2 одинаковы, то t = 0 и онопопадает прямо в середину функции плотности распределения вероятности. Этоситуация, когда рост мужчин и женщин одинаков.

Ночто, если средние значения сильно X1 и X2 отличаются? Втаком случае tбудет или очень большим, или очень маленьким. Заметьте, что, как и гауссово,распределение Стьюдента симметрично, так что не важно, будет ли X1 представлятьмужчин, а X2 женщин, или наоборот– всё равно у нас просто будет либо положительное значение статистическогокритерия, либо отрицательное. Мы рассмотрим эту формулу подробнее позже, а покачто перейдём к следующему этапу.

Каки в случае задачи нахождения доверительного интервала, нам нужно найти площадьпод кривой распределения Стьюдента, а потому нам потребуется кумулятивнаяфункция распределения. Не забывайте, что нам нужно рассмотреть два «хвоста»распределения – правый и левый. Если мы находимся в крайней левой части, топлощадь будет крайне малой, а вероятность будет близка к нулю. Если же мы находимсяв крайней правой части, то площадь будет близка к единице. Для уровнязначимости в 5% нам нужно попасть либо в 2,5% площади слева, либо в 2,5%справа. В этом случае можно утверждать, что различие между двумя группамиявляется статистически значимым.

К сожалению, это ещё не всё, что касается терминологии статистики. С точки зрения алгоритма мы закончили – мы знаем, как показать, что две группы имеют значимую разницу. Однако существует куда больше терминов и определений, используемых в статистике, о которых следует знать, чтобы их можно было использовать в дальнейших лекциях.

p-значение

Выше я показал алгоритм, позволяющий определить, является ли различие между двумя группами статистически значимым. Я сказал, что мы закончили, но есть и некоторые другие термины статистики, которые необходимо обсудить, поскольку они будут использоваться позже.

Встатистике если две группы различаются, то мы рассматриваем одно число, котороедолжно быть очень малым в любом случае, независимо от того, на каком конце«хвоста» мы находимся. Зачем же нам понадобилось это очень малое число?

Ононазывается p-значением,и споры о его использовании и точном значении настолько ожесточённы, что даже внаши дни можно найти людей, обсуждающих его в интернете. В данном курсе мы неставим перед собой цель подробное обсуждение p-значения, поскольку нас больше интересуетбайесовский подход, поэтому используем официальное интернет-определение изВикипедии. Оно гласит: «это вероятность получить результат, равный или болееэкстремальный по сравнению с наблюдаемым, при условии, что нулевая гипотезаверна».

Применительнок нашему примеру с ростом мужчин и женщин его можно переформулировать так: еслисредний рост мужчин равен среднему росту женщин (как помните, это и есть нашанулевая гипотеза), то полученное нами p-значение – это вероятность наблюдать измереннуюразницу (или большую). Другимисловами, если величина нашего статистического критерия (не забывайте, что онпропорционален разнице между средними значениями X1 и X2) очень великапо модулю, то мы должны получить очень малое p-значение.

Крометого, используя наш уровень значимости α,можно сказать, что если p-значение меньше α,то разница статистически значима, а нулевая гипотеза должна быть отвергнута, впротивном же случае нулевую гипотезу отвергать нельзя. Обратите внимание, чтоэто не значит, что нулевая гипотеза верна; это значит, что при собранных намиданных её нельзя отвергать.

Вслучае нашего двустороннего примера нам нужно, чтобы p-значение должнобыть меньше 5%, то есть 0,05, что является обычным уровнем значимости.Предположим, наш результат статистически значим. С кумулятивной функциейраспределения Стьюдента это значит, что мы получим число, которое или меньше0,025, или больше 0,975. Если число получится больше 0,975, то, отняв его отединицы, получим число, которое меньше 0,025.

Итак,теперь у нас есть способ получить очень малое число в случаях, когда или X1 больше X2, или X2 больше X1. Обратитевнимание, что пороговым значением для этого малого числа является 0,025, а не0,05, которое представляет наш уровень значимости. После этого мы умножаем нашемалое число на 2, и, таким образом, пороговое значение для этого нового числастановится 0,05, что соответствует нашему заданному уровню значимости. Это иесть то, что называется p-значением.

И последнее, о чём хотелось бы упомянуть, – это о том, что вышеуказанное умножение на 2 используется только для двусторонней проверки. В случае же односторонней мы просто проверяем, является ли X1 больше X2, без умножения на 2, поскольку нас интересует лишь один «хвост». В связи с этим обстоятельством говорят, что односторонняя проверка имеет большую мощность, чем двусторонняя, поскольку не требует столь большого значения статистического критерия, чтобы быть значимой. В общем случае чем больше делается допущений, тем более мощной является проверка. Верно и обратное: чем меньше допущений, тем менее мощной является проверка. Позже мы вновь встретимся с этим понятием.

Допущения и модификации характеристик проверки

Каки было обещано, мы возвращаемся к нашему уравнению статистического критерия,чтобы рассмотреть его подробнее. Мы уже знаем, что если среднее значение X1 значительнобольше среднего значения X2 или наоборот,то значение статистического критерия по модулю становится больше. Но есть и ещёдве переменные, от которых зависит t, – обобщённое стандартное отклонение и N:

Обратитевнимание, что Nнаходится в знаменателе знаменателя, так что фактически t пропорциональноквадратному корню из N. Это интересно, поскольку говорит нам о том, чтобольшее значение Nприводит к большему значению t. Почему это важно? Потому что если X1 и X2 отличаются, точем больше будет собрано примеров, тем большим будет t и меньшим p-значение. Такимобразом, для одних и тех же X1 и X2 большоезначение Nможет приводить к значительному отличию, тогда как при малом значении,возможно, этого не произойдёт.

Рассмотримтеперь стандартное отклонение. По сути оно утверждает, что если дисперсия двухгрупп велика, то труднее найти статистически значимую разницу – между этимидвумя группами будет слишком много совпадений. Сравните это с ситуацией, когдау нас равные средние значения, но гораздо меньшие дисперсии – распределенияедва перекрываются друг другом, а потому легче показать статистически значимоеразличие.

Далеерассмотрим, как меняется статистический критерий с обобщённым стандартнымотклонением при заданном N. На самом деле это должно сильно напомнить вам доверительныеинтервалы. Если вы помните, стандартное отклонение доверительного интервалабыло пропорционально стандартному отклонению данных, но обратно пропорциональнолишь квадратному корню из размера выборки, а потому нам требуется гораздобольше данных, чтобы компенсировать небольшое изменение стандартногоотклонения.

Вслучае статистического критерия ситуация аналогична – он растёт пропорциональноквадратному корню из N и в то же время он обратно пропорционаленстандартному отклонению. Для нахождения существенного различия нам необходимособрать множество примеров, чтобы компенсировать небольшие отклонения в данных.Если вы заходите на интернет-форумы, то иногда можете встретить комментарии онаучных исследованиях, в котором обнаружился статистически значимый эффект.Комментаторы пишут: «В исследовании принимало участие лишь 20 человек, это ничегоне значащий результат!» Теперь, когда вы знаете, как рассчитываетсястатистический критерий, вы можете видеть, что такое утверждение нелогично.Почему? Статистический критерий действительно зависит от N, поэтому прималом Nстатистический критерий меньше. Но нахождение статистической значимости насамом деле является функцией от N, так что N уже учитывается в размере выборки. Следовательно,неправильно просто заявить, что значение N делает утверждение ложным.

Далее рассмотрим обобщённое стандартное отклонение. В действительности тут мы опять должны вернуться к N. Напомню, что N – это число и мужчин, и женщин. Но что, если у нас имеется две группы разной численности? Тогда обобщённое стандартное отклонение будет взвешенной комбинацией этих двух выборок. Мы этим случаем заниматься не будем, поскольку тут идут довольно тривиальные преобразования, но формулы получаются следующие:

Обратитевнимание, что Nнаходится в знаменателе знаменателя, так что фактически t пропорциональноквадратному корню из N. Это интересно, поскольку говорит нам о том, чтобольшее значение Nприводит к большему значению t. Почему это важно? Потому что если X1 и X2 отличаются, точем больше будет собрано примеров, тем большим будет t и меньшим p-значение. Такимобразом, для одних и тех же X1 и X2 большоезначение Nможет приводить к значительному отличию, тогда как при малом значении,возможно, этого не произойдёт.

Рассмотримтеперь стандартное отклонение. По сути оно утверждает, что если дисперсия двухгрупп велика, то труднее найти статистически значимую разницу – между этимидвумя группами будет слишком много совпадений. Сравните это с ситуацией, когдау нас равные средние значения, но гораздо меньшие дисперсии – распределенияедва перекрываются друг другом, а потому легче показать статистически значимоеразличие.

Далеерассмотрим, как меняется статистический критерий с обобщённым стандартнымотклонением при заданном N. На самом деле это должно сильно напомнить вам доверительныеинтервалы. Если вы помните, стандартное отклонение доверительного интервалабыло пропорционально стандартному отклонению данных, но обратно пропорциональнолишь квадратному корню из размера выборки, а потому нам требуется гораздобольше данных, чтобы компенсировать небольшое изменение стандартногоотклонения.

Вслучае статистического критерия ситуация аналогична – он растёт пропорциональноквадратному корню из N и в то же время он обратно пропорционаленстандартному отклонению. Для нахождения существенного различия нам необходимособрать множество примеров, чтобы компенсировать небольшие отклонения в данных.Если вы заходите на интернет-форумы, то иногда можете встретить комментарии онаучных исследованиях, в котором обнаружился статистически значимый эффект.Комментаторы пишут: «В исследовании принимало участие лишь 20 человек, это ничегоне значащий результат!» Теперь, когда вы знаете, как рассчитываетсястатистический критерий, вы можете видеть, что такое утверждение нелогично.Почему? Статистический критерий действительно зависит от N, поэтому прималом Nстатистический критерий меньше. Но нахождение статистической значимости насамом деле является функцией от N, так что N уже учитывается в размере выборки. Следовательно,неправильно просто заявить, что значение N делает утверждение ложным.

Далее рассмотрим обобщённое стандартное отклонение. В действительности тут мы опять должны вернуться к N. Напомню, что N – это число и мужчин, и женщин. Но что, если у нас имеется две группы разной численности? Тогда обобщённое стандартное отклонение будет взвешенной комбинацией этих двух выборок. Мы этим случаем заниматься не будем, поскольку тут идут довольно тривиальные преобразования, но формулы получаются следующие:

Продолжая тему допущений в обобщённом стандартном отклонении, нужно указать ещё одно, возможно, неочевидное большое допущение: мы считаем, что дисперсия двух групп одинакова. Это допущение кажется довольно серьёзным, поэтому существует модификация, называемая критерием Уэлча, в которой такого допущения нет:

Важноотметить, что при этом все этапы остаются прежними: найти статистическийкритерий, затем степень свободы и вычислить p-значение, чтобы увидеть, существует ли значимость.

Ипоследнее допущение, о котором мы поговорим, – это допущение о гауссовомраспределении. Множество данных, включая и наши данные о кликах, не имеютгауссового распределения. В последующих лекциях мы увидим, какой тип критерия будетиспользоваться для данных по кликам, но что если мы вовсе не знаемраспределения наших данных? Для этого существуют так называемыенепараметрические статистические критерии, в котором нет этого допущения. Ониещё также называются свободными от распределения. Вот некоторые израспространённых непараметрических критериев: критерий Колмогорова-Смирнова,критерий Крускала-Уоллиса и U-критерийМанна-Уитни. Все они есть в SciPy, так что можетепросмотреть API SciPy,чтобы узнать, как они работают. Мы ими пользоваться не будем, но API у них всех одинаков, подобно тому, какне имеет значения, какая используется модель машинного обучения в SciKit-Learn – все они имеютфункции fit и predict. Поэтомунаучившись использовать на своих данных один критерий, вы аналогичным образомсможете использовать и другие.

Чтокасается непараметрических критериев, важно сделать одно замечание. Поскольку вних используется меньше допущений, то они имеют меньшую статистическую мощностьпо сравнению со статистическим критерием. Это значит, что необходимо иметьболее экстремальные различия в двух группах, чтобы получить статистическизначимое p-значение.Мы сталкивались с этим раньше: в односторонней статистической проверке большедопущений, нежели в двусторонней, а потому односторонняя проверка имеет большуюстатистическую мощность.

Одноиз допущений, которое мы рассмотрели, но не сделали, – это то, что на самомделе мы могли провести одностороннюю проверку, но вместо этого выбралидвустороннюю. Для сравнения роста мы вполне могли использовать одностороннююпроверку, поскольку и так знаем, что мужчины в среднем выше женщин. Влияние на p-значение тутсостоит в том, что легче добиться значимой разницы, поскольку нет необходимостиумножать площадь под кривой на 2. Однако существуют случаи, когда односторонняяпроверка совершенно не подходит. Рассмотрим, например, проверку влияниялекарства на человека. Интуитивно мы можем полагать, что хотим измеритьулучшение состояния больного от приёма лекарства. Однако с этической точкизрения необходимо проверить и противоположный случай – лекарство может иухудшить состояние пациента. Впрочем, если имеется уже эффективно работающийпрепарат, а мы хотим лишь проверить, будет ли новый препарат ещё эффективнее,то вполне можно воспользоваться односторонней проверкой.

Подведём итог. Суть нашего занятия состояла в том, чтобы на простом примере показать, как работает частотная статистическая проверка. Мы создаём статистический критерий и, исходя из знания распределения, смотрим, имеет ли он экстремальные значения в распределении, чтобы понять, является ли наше измерение статистически значимым. Если это так, нулевая гипотеза отвергается.

Статистическая проверка в коде

А сейчас мы напишем статистический критерий в коде. Если вы не хотите писать код самостоятельно, а лишь запустить его, то соответствующий файл называется ttest.py.

Итак, начнём с иморта библиотеки Numpy и модуля stats библиотеки Scipy.

import numpy as np

from scipy import stats

Первыйэтап – генерация данных. У нас будет 10 точек данных для каждый из групп сгауссовым распределением и средним значением, равным 2, для первой группы исредним значением 0 – для второй группы. Дисперсия обоих групп равна единице.

N = 10

a = np.random.randn(N) + 2

b = np.random.randn(N)

Итак,сделаем нашу собственную статистическую проверку. Не забывайте, у наснесмещённые оценки, поэтому делим на N – 1, а не на N:

var_a = a.var(ddof=1)

var_b = b.var(ddof=1)

Далееобобщённое стандартное отклонение:

s = np.sqrt( (var_a + var_b) / 2 )

Следующее– статистический критерий:

t = (a.mean() – b.mean()) / (s * np.sqrt(2.0/N))

Вычисляемстепень свободы:

df = 2*N – 2

p-значение:

p = 1 – stats.t.cdf(np.abs(t), df=df)

Ивыводим результаты на экран:

print “t:\t”, t, “p:\t”, 2*p

Сугубодля сравнения воспользуемся также встроенной в SciPyфункцией статистической проверки:

t2, p2 = stats.ttest_ind(a, b)

print “t2:\t”, t2, “p2:\t”, p2

Запустими посмотрим, что получится.

Мы получили одинаковые значения в обоих случаях.

0,01 и 0,011 – почему это важно

И в заключении мы обсудим порядок цифр при проведении А/В-тестирования.

Вбольшинстве случаев показатель кликабельности очень мал, а показатель переходовещё меньше – речь идёт об 1-2%. Вам может встретиться ещё меньшее значимоеразличие – возможно, 0,1%. Кажется, это и вовсе несущественно, так почему это вообщедолжно нас заботить? Стоит ли прилагать усилия для создания новой целевойстраницы просто для того, чтобы улучшить показатель переходов на 0,1%?

Ответ: может быть, и да, но для этого нужно провести тщательный анализ, чтобы определить точку безубыточности и стоит ли это всё учитывать. Предположим, у вас есть 1 миллион посетителей в день и 1% из них делают у вас покупку. Пусть каждый проданный товар стоит 20 долларов. Тогда 1% посетителей приносит вам 200 000 долларов. Но если вы сможете улучшить показатель перехода до 1,1%, то это будет приносить вам 220 000 долларов – разница в 20 000 долларов! Согласитесь, неплохо как для простого изменения целевой страницы.

Апотому мораль этой лекции том, что не стоит отбрасывать значимую разницу, дажеесли она кажется незначительной из-за своей малости. Не забывайте,статистический критерий учитывает N, то есть число примеров, дисперсию и разницу междугруппами – и всё это одновременно. Чтобы понять, стоит ли вносить изменения, необходим дальнейший анализ с точкизрения их ценности.

Понравилась статья? Поделить с друзьями:
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: