AB test: как его проводить и что для этого нужно. AB test: как его проводить и что для этого нужно Ав тестирование

A/B-тестирование, также известное как сплит-тестирование, является одним из наиболее эффективных способов прийти к измеримым (и научно обоснованным) улучшениям вашего сайта. На практике это выглядит так: разрабатываются две версии контента - например, для посадочной страницы - и две таких страницы одновременно запускаются для одинаковых по размеру аудиторий, чтобы выяснить, какая из них работает лучше. Такой тест, выполненный должным образом, показывает, какие изменения помогут увеличить конверсию.

Вопросы о том, как запустить и успешно провести A/B-тестирование, возникают у многих. Здесь собраны наиболее популярные вопросы и ответы на них.

1. Когда А/В-тестирование является хорошей/плохой идеей?

Чаще всего такие тестирования проваливаются потому, что за ними нет четких целей, - поэтому нужно знать, что вы тестируете. Например, используйте такой тест для проверки теории: поможет ли эта картинка увеличить конверсию, если добавить ее на посадочную страницу? Люди более склонны нажимать на синюю или на красную кнопку? Что будет, если поменять заголовок, подчеркнув, что срок действия предложения ограничен? Эффект от всех этих изменений вполне можно измерить.

Люди сталкиваются с большими проблемами при запуске А/В-тестирований, когда цель их слишком расплывчата, - к примеру, таким может оказаться тестирование двух вариантов дизайна со множеством отличий. Это может тянуться долго, пока не определится безоговорочный победитель, и при этом могут быть сделаны неточные выводы, появится неуверенность насчет того, что же все-таки вызвало увеличение конверсии.

2. Сколько вариантов должно быть в A/B-тестировании?

Предположим, вы хорошо поработали, и у вас есть четыре невероятных идеи дизайна для посадочной страницы. Конечно, хотелось бы запустить все четыре варианта сразу и определить победителя, но подобный одновременный запуск уже никак нельзя будет считать А/В-тестированием. Ряд факторов из каждого варианта может замусорить прозрачные воды результатов, если так можно выразиться. Прелесть правильного А/В-тестирования в том, что его результат достоверен и конкретен.

3. Что такое нулевая гипотеза?

Нулевая гипотеза - это гипотеза о том, что разница в результатах является следствием ошибки выборки или стандартных колебаний. Подумайте о подбрасывании монетки. Хотя шансы, что она приземлится на «орла», равны 50/50, иногда на практике они составляют 51/49 или еще какое-то зависящее от случая отношение. Однако чем больше вы подбрасываете монетку, тем ближе вы в итоге подходите к результату 50/50.

В статистике правильность или неправильность идеи доказывается оспариванием нулевой гипотезы. В нашем случае оспаривание этой гипотезы - проведение тестирования в течение достаточно продолжительного времени для исключения случайных результатов. Это также называют достижением статистической значимости.

4. Сколько посещений страницы нужно для хорошего результата А/В-тестирования?

Перед проверкой результатов А/В-теста, вам следует убедиться, что он достиг статистической значимости - некоторой точки, после которой можно быть на 95 и более процентов уверенным, что результат верный.

Хорошо, что во многие инструменты для тестирования уже встроен счетчик статистической значимости: с его помощью вам будет дан сигнал, когда результаты теста будут готовы для интерпретации. Если же такого счетчика нет, можно воспользоваться одним из множества бесплатных калькуляторов и инструментов для вычисления статистической значимости.

5. Что такое многомерное тестирование и чем оно отличается от A/B-тестирования?

A/B-тесты обычно применяются для определения одного эффективного решения при редизайне для достижения определенной цели (например, увеличения конверсии). Многомерное тестирование, как правило, используется для проверки небольших изменений в течение более длительного периода времени. Оно охватывает несколько элементов сайта и проверяет все возможные комбинации этих элементов для непрерывной оптимизации. Эксперт компании HubSpot Кори Эридон (Corey Eridon) объясняет различия в использовании того или иного тестирования:

«A/B тестирование - замечательный метод, если вам нужны быстрые значимые результаты. Поскольку изменения от страницы к странице отчетливо видны, будет легче сказать, какая страница наиболее эффективна. Это также правильный выбор, если у вашего сайта небольшой трафик.

А вот для корректных результатов в многомерном тестировании вам нужен сайт с высокой посещаемостью, так как в таком тестировании проверяются несколько различных изменяющихся элементов.

Если же трафика для многомерного тестирования у вас достаточно (хотя даже при этом вы можете воспользоваться А/В-тестами для проверки новых дизайнов и макетов), лучше всего проводить его тогда, когда вы хотите сделать на странице едва уловимые изменения, понять, как определённые элементы взаимодействуют друг с другом и постепенно усовершенствовать существующий дизайн».

6. Правда ли, что A/B-тестирование негативно влияет на SEO?

Существует миф, что А/В-тесты снижают рейтинг сайта в поисковых системах, поскольку могут классифицироваться как дублированный контент (а на него поисковики, как известно, реагируют не очень дружелюбно). Однако это совершенно не так - при правильном подходе к тестированию. На самом деле Мэтт Каттс (Matt Cutts) из Google советует запускать сплит-тестирования для улучшения функциональности вашего сайта. У Website Optimizer также есть хорошее опровержение этого мифа, например.

Если вы все еще убеждены в обратном, вы всегда можете добавить тег noindex на один из вариантов страницы. Ознакомьтесь с подробной инструкцией по добавлению такого тега.

Примечание главного редактора. Недавно Google опубликовала по предотвращению отрицательного влияния A/B-тестов на позиции сайта в результатах поиска Google.

7. Как и когда мне можно интерпретировать результаты сплит-теста?

Тест запускается. Начинают накапливаться данные. И вы хотите выяснить, кто же становится победителем. Но ранние стадии - неподходящее время для интерпретации результатов тестирования. Подождите, пока ваш тест достигнет статистической значимости (см. п. 4) и затем вернитесь к вашей первоначальной гипотезе. Окончательно ли тест подтвердил или опроверг ваши предположения? Если да, вы можете делать некоторые выводы. Анализируя тестирование, не спешите приписывать его результаты конкретным изменениям. Убедитесь, что между изменениями и результатом прослеживается четкая связь и что здесь не примешивается влияние каких-либо факторов.

8. Сколько изменяющихся элементов следует тестировать?

Вам нужен тест с убедительными результатами, вы тратите на него свое время и поэтому, наверняка, хотите получить в итоге четкий ответ. Проблема одновременного тестирования нескольких изменений в том, что вы не сможете точно определить, какое из них принесло больше пользы. То есть вы, конечно, можете сказать, какая из страниц в целом работает лучше, но если на каждой из них тестируются три или четыре изменяющихся элемента, вы не узнаете, какой именно элемент вредит странице, и не сможете внедрить полезные элементы на другие страницы. Наш совет: проведите серию базовых тестов, каждый раз внося какое-то одно изменение, чтобы путем перебора постепенно прийти к наиболее эффективному варианту страницы.

9. Что мне следует тестировать?

  • Призывы к действию. Даже рассматривая один этот элемент, можно протестировать несколько разных вещей. Просто убедитесь, что вы понимаете, какой конкретно аспект призыва к действию хотите проверить. Можно тестировать сам текст призыва: к чему он подталкивает того, кто его просматривает? Можно тестировать расположение: где на странице лучше всего разместить призыв? Можно тестировать также форму и стиль: как это смотрится?
  • Заголовок. Это обычно первое, что посетитель читает на вашем сайте, так что потенциал для воздействия здесь значительный. Попробуйте разные стили заголовков в вашем A/B-тестировании. Убедитесь в том, что разница между каждым заголовком ясна, и что это не просто бездумная переделка одного и того же. Это нужно для того, чтобы точно знать, что именно вызвало изменения.
  • Изображение. Что более эффективно? Изображение человека, использующего ваш продукт, или продукта самого по себе? Испробуйте различные варианты страниц с разными вспомогательными изображениями и понаблюдайте, будет ли разница в действии.
  • Длина текста. Поможет ли его сокращение сделать сообщение более ясным? Или вам наоборот нужно больше текста, чтобы объяснить суть предложения? Пробуя различные версии основного текста, вы можете определить, какое количество разъяснений необходимо читателю перед конверсией. Чтобы этот тест работал, старайтесь использовать тексты примерно одинакового содержания, изменяя лишь их объем.

10. Можно ли с помощью A/B-тестирования проверять что-то кроме веб-страниц?

Конечно! В дополнение к посадочным страницам и веб-страницам многие маркетологи применяют А/В-тесты для электронных почтовых ящиков, PPC-кампаний (pay per click) и призывов к действию.

  • Электронная почта. Здесь тестируемыми изменяющимися элементами могут быть тема письма, приемы персонализации, имя отправителя.
  • PPC-кампании. Во время таких кампаний можно применить А/В-тестирование к заголовку, основному тексту, тексту ссылок и ключевым словам.
  • Призыв к действию. Здесь можно поэкспериментировать с текстом призыва, его формой, цветовым оформлением и расположением на странице.

11. Как мне найти примеры A/B-тестирования от аналогичных компаний?

Есть ряд сайтов, на которых собраны примеры и результаты А/В-тестирований. Некоторые позволяют выполнять поиск по типу компании и большинство предоставляют подробную информацию о том, как компания интерпретировала результаты теста. Если вы только начинаете заниматься A/B-тестами, вам будет полезно почитать информацию на некоторых из этих сайтов, чтобы понять, что необходимо протестировать именно вашей компании.

  • WhichTestWon.com. На этом сайте есть несколько примеров, а также проводятся некоторые ежегодные конкурсы, на которых вы можете представить и свои тестирования.
  • Visual Website Optimizer предлагает программное обеспечение для А/В-тестирования. В блоге компании есть несколько примеров, на которых вы могли бы поучиться.
  • ABTests.com. Этот сайт больше не обновляется, но там есть хороший архив A/B-тестов.

12. Что мне делать, если я не доверяю результатам?

Если вы действительно не доверяете итогам и исключили любые ошибки или проблемы, связанные с валидностью теста, лучшее, что можно сделать, - запустить тот же тест снова. Относитесь к нему как совершенно отдельному тестированию и понаблюдайте, сможете ли вы повторить результат. Если он повторяется снова и снова, вероятно, ему можно доверять.

13. Как часто следует запускать A/B-тестирование?

На вашем сайте всегда есть возможность что-то тестировать. Просто убедитесь, что каждый тест имеет четкую цель и приводит к появлению более функционального сайта для ваших посетителей и компании. Если вы запускаете много тестов, а в результате имеете минимальный эффект и незначительные победы, пересмотрите свою стратегию тестирования.

14. Что нужно, чтобы начать A/B-тестирование на сайте?

Лучший способ запустить A/B-тестирование - использовать специальное программное обеспечение: например, Visual Website Optimizer , HubSpot , Unbounce . Если вы не против повозиться немного с кодом, у Google также имеется бесплатный инструмент под названием Content Experiments в Google Analytics. Это немного отличается от традиционного A/B-тестирования, но если вы технически продвинуты, стоит попробовать этот инструмент.

15. Какие существуют ловушки в плане валидности помимо размера выборки?

В прошлом году компания MECLABS составила коллекцию угроз валидности теста. Здесь доктор Флинт Макглафлин (Flint McGlaughlin) рассматривает ошибки тестирований и то, как снизить риск столкновения с ними в ваших тестах. Рекомендуем читать полный текст , но все же приведем пару ошибок из списка:

  • Во внешнем мире происходит что-то, что вызывает негативные смещения в результатах теста.
  • Ошибка в программном обеспечении для тестирования подрывает его результаты.

16. Нужно ли проводить А/B-тестирование главной страницы сайта?

Задача разработки действенного теста для испытания главной страницы может оказаться очень трудной. Трафик на этой странице очень переменчив, ведь туда заходят все - от случайных посетителей до потенциальных клиентов и реальных покупателей. Кроме того, на главной странице обычно присутствует огромное количество контента, так что может быть сложно на протяжении одного теста определить, что заставляет посетителей действовать или не действовать.

Наконец из-за того, что на вашу домашнюю страницу заходят совершенно разные посетители, определить конкретную цель теста и страницы может быть проблематично. Вы можете, предположим, задаться целью протестировать конверсии, но если тестовый вариант страницы будут больше посещать не потенциальные, а реальные покупатели, ваши цели для этой группы могут измениться.

Если вы все-таки хотите тестировать домашнюю страницу, займитесь тестами призывов к действию.

17. Что если у меня нет контрольной версии страницы?

Контрольная версия - это существующий вариант веб-страницы, в противововес которому вы обычно выдвигаете новые варианты. Возможно, вы также захотите протестировать две версии страницы, ранее не существовавшие. И это вполне нормально. Просто назовите одну из них контрольной. Постарайтесь выбрать ту, которая по дизайну наиболее похожа на уже имеющуюся страницу, а другую используйте в качестве варианта.

18. Почему результат A/B-тестирования не всегда равен 50/50?

Иногда при проведении А/В-теста вы можете заметить, что на разных версиях страниц неодинаковый трафик. Это не означает, что с тестом что-то не так, просто случайные отклонения проявляются случайно. Вспомните о подкидывании монетки. Шансы орла и решки равны 50/50, но иногда решка, например, выпадает 3 раза подряд. Однако, чем выше посещаемость вашей страницы, тем ближе должны быть результаты теста к 50/50.

“Не принимайте ничего на веру. Только решения из практических результатов, то есть - результатов тестирования. Тестировать надлежит все и вся. Я постоянно этим занимаюсь”. (с) Гари Хелберт.

И в этом с Королем продающих текстов (проще говоря, самым известным копирайтером современности) я полностью согласен.

A/Б тестирование - вот именно то, что необходимо, чтобы принять правильное решение, а не только основанное на собственных ощущениях. Что это такое и как его провести мы и поговорим в этой статье.

Дальние дали

Стандартно, A/B testing произошло от английского. Где его ещё называет split-testing или сплит-тестирование. Но самое интересное, это перевод.

A/Б тест (или сплит тест) - это один из методов маркетинга, когда одна группа элементов сравнивается с другой группой элементов с разными данными.

Цель действий - выяснить у какой группы элементов конверсия или показатели будут больше.

То есть все довольно просто. Вы создаете 2 различных варианта рекламной продукции (пусть это будут электронные письма продающие ваши услуги) и в конце этих писем делаете разный .

И просто считаете конверсия какого письма была выше. Именно это и есть суть а/б теста.

Вот наглядный пример на уровне сайтов, где мы определяем как влияет на результат изменённое расположение блоков. А именно поднятый наверх модельный ряд.

A/Б тест

А вот если Вы тестируете, к примеру, 2 посадочных страницы, в которых изменены заголовки, кнопки призыва к действию разной формы и разного размера, то это уже не просто а/b test, а многовариативное тестирование или A/B/N-test.

Так почему же про этот тест так много сейчас говорят? Все очень просто. Маркетологи любят показывать свою экспертность за счёт разного рода фишек, к которым тестирование можно отнести.

А владельцы компаний мечтают найти волшебную таблетку и считают, что сплит-тестирование - просто панацея для их рекламных материалов (в частности при ).

Что вам даст этот тест?

На самом деле не все так плохо и сплит тестирование сайта реально даёт пользу для компаний, и может за короткий промежуток времени изменить ситуацию, а именно:

  1. . Самый простой и при этом самый желаемый показатель любого владельца, особенно в сайтах.
  2. Изменение поведенческих факторов. Не самые очевидный, но опять же влияющий на увеличение продаж фактор.
  3. Увеличение среднего чека. Это добавление разного рода call to action или на примере сайтов, всем знакомый блок “с этим товаром покупают”.

Если обобщить, все сводится к увеличению продаж. И определённо это стоит вашего внимания.

Но есть одно “НО”. И уже возможно на этом этапе Вы поймёте, что Вам это не нужно.

Это “НО” говорит о том, что добиться взрывных продаж с помощью замены одного элемента если и можно, то очень редко.

Примерные шансы 1 к 1000. Так как идёт замена небольших составляющих, которые редко когда отличаются кардинально друг от друга.

А когда для Вас это капля в море, то лучше сфокусировать своё внимание на более важных составляющих.

К тому же, пока у Вас нет устоявшегося трафика, пока Вы только тестируете разные каналы и способы рекламы в интернете, то можете даже не начинать тестировать.

Так как показатели будут не верны, ведь трафик не однородный, а, как известно, разные люди действуют по-разному.

Если у Вас нет опыта в проведении а/б тестов (иначе вас бы тут не было), то крайне рекомендую Вам предварительно прочитать кейсы.

И особенно обратите внимание на кейсы людей, добившихся увеличения конверсии/изменения поведения в рунете. Так Вы поймете что лучше тестировать.

Либо Вы можете пойти другим путем. Составьте предварительный список (план) того, что Вы будете тестировать на сайте.

Это нужно делать исходя из своих предположений, обратной связи фокус группы (наихудший вариант) или на основе данных из . Это для того, чтобы Вас не кидало из стороны в сторону.

Важно. Забудьте про многовариативность и делайте только один тест за раз. На нашем опыте лучше всего работает связка - 1 тест = 1 изменение.

Иначе Вы не поймёте что на самом деле дало результат. А ещё интереснее будет, когда одно изменение даст +0,5, а другое изменение на этой же странице -0,5 к конверсии.

Что в результате 0 и упущенный из виду положительно влияющий элемент. Поэтому не допускайте такой ошибки.

Важно. Забудьте про расплывчатые теории. Из серии “надо что-то изменить в сайте, сделав его более продающим”.

Нормальная теория для тестирования - на одной странице кнопка красная, на другой синяя.

На одной странице есть цена, на другой нет цен. Только тогда Вы будете уверены в результатах. Четкие критерии = понятные результаты.

Важно. Результат, полученный за очень короткий срок = плохой результат.

Особенно, если за короткий срок на Ваших сайтах побывало от силы 20 человек.

Поэтому перед тем как броситься в тестирование сайта, Вам нужно понимать сколько человек его посещает ежедневно и сколько дней тестирование должно длиться.

Калькулятор времени тестирования

Чтобы Вам было не скучно, я нашел калькулятор, благодаря которому Вы сможете рассчитать оптимальную продолжительность для тестирования сайта - vwo.com/ab-split-test-duration/


Калькулятор

Он на английском языке, поэтому на всякий случай я перевел и расшифровал строчки, которые Вам необходимо будет заполнить:

  1. Конверсия Вашей страницы на данный момент. Как считать, читайте здесь - .
  2. Процент, на который Вы хотите увеличить существующую конверсию.
  3. Необходимое число комбинаций. Если Вы, к примеру, хотите узнать какой заголовок на сайте лучше конвертирует, то тогда это одна комбинация.

    Если Вы хотите поменять заголовок, но при этом изменить его текст и размер, то это будет две комбинации.

  4. Число посетителей в день на Вашем сайт (естественно, усредненное).
  5. Число посетителей, которые будут принимать участие в тестах.

Поэтому это ещё один камень в “огород” a/б теста, касаемо его не актуальности для взрывного роста продаж.

НАС УЖЕ БОЛЕЕ 29 000 чел.
ВКЛЮЧАЙТЕСЬ

Как делать?

Теперь расскажу как сделать все правильно. Заголовок письма, кнопка призыва к действию, наличие цен в , всё это можно реализовать как вручную, так и с помощью специальных сервисов.

И сразу, без долгих объяснений в любви, вручную делать это запрещено, потому что времени займёт массу.

А если у Вас времени все-таки много, то лучше и полезнее будет вам внедрить любой канал из статьи.

AB test, полезная штука, которая просто должна быть по-умолчанию в интернет проектах. Как проводить и что для этого нужно?

Сегодня тестирование гипотез и проверка идей, обязательная программа. Под эту задачу отлично подходит AB test. Давайте разберём подробнее, что это вообще такое, в чём польза и какие есть инструменты.

AB test: что это и зачем

AB test или Split test - метод маркетингового исследования, суть которого заключается в том, что вы берёте и сравниваете несколько вариантов элемента продукта с одним определенным изменением. А после смотрите какой из вариантов показал себя лучше.

К примеру, у нас родилась идея, поменять цвет кнопки на некой странице. Мы думаем, что это изменение принесёт нам больше кликов. Запускаем оба варианта, половине наших пользователей показываем вариант A, а другой половине вариант B.

По прошествии какого-то времени (продолжительность определяется перед запуском теста) замеряем результат. Смотрим какой из вариантов лучше отработал и используем его в работе. Таким образом вы можете проверять практически любые гипотезы и смотреть, что лучше работает, а что нет.

Что можно анализировать с помощью AB test?

  • Конверсии. Кол-во успешных целевых действий на вашем сайте. Это может быть нажатие на кнопку “Купить”, посещение какой-то страницы или что-то ещё.
  • Экономика. Средний чек или объём выручки.
  • Поведенческие факторы. Глубина просмотра, длительность сеанса.

Нюансы и тонкости

  • Очень важно при тестировании менять только один фактор. Если это цвет кнопки на лендинге, то мы тестируем только разные цвета кнопок и не меняем больше ничего на страницах.
  • Также и с внешними факторами. Тест запускается в одно и то же время при одних и тех же условиях. В противном случае вы можете получить данные, которые будут необъективными.

Простите, что прерываю чтение. Присоединяйтесь к моему telegram канал . Свежие анонсы статей, развитие digital продуктов и growth hack, там все. Жду вас! Продолжаем…

Важно про данные

Всё было бы очень просто, если бы не одно “Но”. Можно провести AB test, получить результаты, где откровенно видно, что один из вариантов сильно лучше другого.

Например, мы показали 2 варианта страниц с разным цветом кнопок по 1000 раз каждый. Проводили тест одну неделю. И получили следующие результаты:

При одинаковых показах баннера (это важно), кол-во кликов у варианта B больше в три раза. Делаем вывод, что этот вариант более эффективный и берём его в рабочую версию, а старый удаляем.

А если, к примеру, так?

Стоит ли брать вариант B? Или может быть это просто погрешность? Да и достаточно ли показать 1000 раз каждый из вариантов, чтобы принять решение? Может к нам на сайт в день заходит 10 000 пользователей и выборка очень мала, чтобы сделать вывод? А если, данные которые мы анализируем, не просто кол-во кликов, а средний чек с транзакций?

Статистика нам в помощь

Чтобы понять, как устроен мир цифр и экспериментов, давайте немного разберём мат.часть. Если нет времени и сил, то советую пропустить этот раздел. Дальше, я дам более простые решения задачи.

Большой соблазн, когда получили результаты эксперимента, принять решение и всё, вот оно, “светлое будущее”. Но, ведь, если копнуть немножечко глубже, то за неделю распределение кликов по дням было неравномерным. Давайте распишем.

В таблице видно, что клики по дням распределены по-разному. А значит, наши значения варианта A и варианта B могут меняться каждый день. То есть, мы имеем дело со случайными величинами. Для таких случаев применяют средние значения. Но ведь, если мы проведем эксперимент ещё раз, то какова вероятность, что результат повториться?

Изобразим на графике распределение всех данных за неделю по варианту A и B.

Если мы возьмём средние величины по каждому из вариантов (это вертикальные полоски посередине двух волн), то увидим, что разница совсем невелика. Но существуют определенные отклонения, в большую и меньшую сторону от среднего. Поэтому, мы получаем пересечение двух волн. Чем оно больше, тем меньше значимость эксперимента и, соответственно, чем меньше пересечение, тем выше статистическая значимость.

Статистическая значимость, это то, насколько верны полученные результаты. То есть в нашем примере, ответ на вопрос “нужно ли брать вариант B?”.

Обычно, по-умолчанию принимают уровень значимости равный 95%. Это означает, что мы с 95% вероятностью хотим знать, стоит ли выбирать другой вариант (B) при сравнении. Оставшиеся 5%, это вероятность ошибки, которую мы допускаем или p-value в терминологии статистики.

Интересно, что многие забывают проверять уровень значимости в своих экспериментах и тем самым могут получать ошибочные данные. 8 из 10 AB тестов проходят мимо этой оценки. ( )

Не буду вдаваться долго в подробности, как рассчитывается показатель значимости, просто дам инструмент, который посчитает все за вас.

Инструменты для расчета значимости

Для оценки значимости данных советую использовать этот инструмент .

Здесь у нас A и B соответственно наши варианты. А по цифрам:

  1. Число посетителей/можно кол-во показов вставлять.
  2. Кол-во конверсий. Нажали на кнопку, зарегистрировались. В общем выполнили целевое действие.
  3. P-value. Вероятность ошибки, которую мы опускаем при заданных данных.
  4. Ответ на вопрос существенны ли, полученные изменения в нашем эксперименте.

Пример: берём данные по показам и кликам из таблицы, которую показывал выше.

Забиваем их в сервис, нажимаем на кнопку “Calculate Significance” и…

Получаем ответ “No” или “Нет” (по-русски) в нижней строке, а чуть выше p-value 0,283. Что это означает? А то, что с вероятностью 28,3% (0,283*100), если мы выберем вариант “B”, то он не принесёт никаких существенных результатов.

Чтобы эксперимент считался успешным, p-value должен быть меньше 5%

Есть ещё один сервис, в который также вбиваете данные и смотрите результат, доступен по ссылке .

На этом строится базовый принцип измерения случайных величин. Просто в тот момент, когда получите результаты AB test, прогоните их через инструмент и посмотрите, а на столько лишь значимо улучшение от другого варианта, чтобы брать его в работу?

Как понять сколько нужно данных?

Бывает так, что для получения выводов недостаточно полученных данных.Для того, чтобы понять, сколько раз нужно показать страницу A и B, а затем получить нужное кол-во данных, используйте этот инструмент .

Очень важно, повторюсь, запускать эксперимент при одних и тех же условиях. В идеале мы берём неделю, на которой нет ни праздников, ничего остального и параллельно тестируем варианты. Вернёмся к сервису.

Благодаря этому сервису вы поймете размер выборки для каждого из вариантов.

Подробнее по пунктам:

  1. Существующий уровень конверсии. Или, например, сколько процентов из всех пользователей сейчас нажимают кнопку.
  2. Минимально значимое изменение, которое нас интересует. На сколько мы хотели бы изменить базовый показатель конверсии.
  3. Значимое отклонение, которое мы ввели на предыдущем шаге показывает, что конверсия может увеличится, так и уменьшиться.
  4. Вы выбираете значение: absolute (абсолютный) или relative (относительный). Выбирайте то значение, которое хотите получить. Если у вас baseline уровень конверсий равен 30% (как в примере с картинки) и вы хотите повысить его на 5% с помощью ab тестов, то выбирайте “relative”. То есть, финальный результат изменения в случае успешности эксперимента будет 5% от 30%, то есть 31,5%.
  5. Размер выборки для каждого варианта. Сколько мы должны раз показать страницу отдельно A и страницу B, чтобы сделать выводы по эксперименту. Очень важно! Чтобы сделать выводы по эксперименту, мы показываем 24 409 раз A и 24 409 раз B!
  6. Статистическая значимость. На сколько точный эксперимент мы хотим провести.
  7. Погрешность p-value. Какую вероятность ошибки допускаем.

Можно ли останавливать эксперимент раньше?

Можно. Существует вариант, когда мы можем не дожидаться окончания эксперимента, а на определенном этапе уже сделать выводы. Для этого используйте уже известный инструмент, вкладка “ Sequental Sampling “.

По шагам:

  1. Вбиваете свой уровень конверсии сейчас. К примеру 30%, именно столько из 100% заходящих к нам на страницу нажимает кнопку.
  2. Набираете, на сколько вы хотели бы повысить ранее введенный показатель. Поставил на 10%. Было 30, хочу до 33 поднять.
  3. Кол-во конверсий одного из экспериментов, после которого останавливаем эксперимент и принимаем решение.
  4. Разница в конверсиях между вариантом A и B, после которой останавливаем эксперимент и берем, тот, что больше набрал.
  5. Выставляем уровень значимости 95% (как положено, см.выше материал).
  6. Устанавливаем погрешность p-value (опять же, см.выше материал).

Здесь нет никакой хитрости, просто статистика. Используйте этот инструмент, когда эксперименты занимают много ресурсов (время на разработку, бюджеты на рекламу для проверки гипотез и т.д.). Теперь у вас есть два правила, при которых вы можете останавливать эксперимент и делать выводы.

Чем проводить AB test?

Готовые решения:

  • Optimizely, vwo.com, zarget.com
  • http://alternativeto.net/software/optimizely
  • Google Analytics (ссылка как проводить)

Собственное решение:

  • Пишем админку.
  • Пишем и настраиваем каждый эксперимент.

Вот про 10 сервисов для AB test. Есть из чего выбрать.

Всё

Теперь у вас есть общее представление, что такое AB test, какие существуют нюансы и какими инструментами его проводить. В заключение добавлю что данное исследование гипотез является одним из самых полезных в развитии digital проекта. Разве не прекрасно, что можно проверить практически любую идею? Главное правильно, теперь вы знаете как.

Обзор сервисов для A/B тестирования

Пробуем сервисы, которые помогают менять сайт к лучшему

A/B тестирование — маленький эксперимент, который проводится над пользователями сайта. Его суть — проверять гипотезы.

Если вы думаете, что пользователи сайта будут чаще кликать на фото модели в бикини, а не на бизнесмена в очках, это легко подтвердить или опровергнуть. Создайте две странички, на одну поместите бизнесмена, на другую — модель. И ждите. А время покажет, правы вы или нет. Аудитория сайта действием проголосует за тот вариант, который им симпатичнее. И так, проводя A/B тестирования и наблюдая за поведением пользователей, можно постепенно подгонять сайт под их вкусы и хотелки.

Подробнее об A/B тестировании мы писали в . Но чего-то в ней не хватало. Мы её покрутили, повертели, посмотрели на свет. И поняли — нужен обзор инструментов для тестирования! Итак, приступим.

Google Analytics Experiments

Google Anatytics умеет многое, просто скромно об этом умалчивает. Если в нем поковыряться, можно настроить A/B тестирование (или запрограммировать телефоны на Android на самоуничтожение — как повезет). Это удобно, если вы и так пользуетесь Analytics, немного можете в код или у вас есть знакомые разработчики, которые сделают страничку для тестирования.

Плюсы:
Удобно для пользователей, привыкших к Google Anatytics. Есть русский язык. И, главное, сервис бесплатный.

Минусы: Нет визуального редактора. Если элементы, которые вы хотите протестировать, не изменить через админку сайта, а перепрограммировать самостоятельно скила не хватает — придется обращаться к разработчикам.

Цена: Бесплатно.

Сервис прост и понятен. На каждом этапе — подсказки, что делать и зачем. В визуальном редакторе можно изменить текст, картинки и структуру сайта. Все элементарно: изменили сайт в редакторе, добавили код на страницу-оригинал и наблюдаете за результатами. Для сбора статистики сервис интегрируется с Яндекс.Метрикой.

Плюсы: Есть простой визуальный редактор. Поддерживается русский язык. .

Минусы: Визуальный редактор слишком прост. По-хорошему он работает только с текстом и изображениями. А вот со структурой не поиграться: RealROI предлагает элемент либо скрыть, либо удалить. Заменить, подвинуть, поменять форму — ничего этого сделать нельзя.

И у нас есть подозрение, что функция «Отправить код разработчику» не работает. Мы трижды пробовали, а письма все нет. Поэтому отправлять код рекомендуем самостоятельно, старым-добрым Ctrl+C — Ctrl+V.

Цена: Бесплатно.

В этом инструменте уже больше фишек. Визуальный редактор позволяет творить любое безумие: элементы можно менять, двигать, добавлять, удалять. Сервис позволяет запустить тест в заданную дату или приостановить поток трафика на страницу (может пригодиться в эксперименте, где участвует более 2 вариантов). Можно настроить таргетинг и персонализацию.

Плюсы: Удобный визуальный редактор — программисты не нужны, чтобы создавать страницы для тестирования. Сервис интегрируется с Google Analytics, WordPress и другими системами аналитики и CRM.

Минусы: Русский язык вроде бы есть, но чем сильнее углубляешься в сайт, чем сложнее становятся термины — тем его меньше.

Нет триальной версии. Можно потестировать визуальный редактор, но про остальные функции узнаёшь только из описаний.

Цена: 39 $ в месяц, если вам хватит 5 000 протестированных пользователей. Тариф пожирнее — 140 $ в месяц, позволяет протестировать сайт на 40 000 уникальных посетителях. 200 000 протестированных пользователей в месяц стоят 390 $. При оплате сразу за год — скидка на все тарифы.

Сервис, который может устроить A/B для компьютеров и мобильных устройств. В визуальном редакторе VWO можно сразу пометить цель для кликов. Остальные — добавить в следующем шаге.

Сервис предлагает посмотреть карту кликов, добавить всплывающие окна и рассылать пользователям, которые что-либо купили на сайте, призыв оставить отзыв.

А еще у VWO есть галерея идей. Вроде бы мелочь, а приятно. И полезно: владельцу сайта не нужно придумывать самому, что бы такого потестировать. Он может выбрать из вариантов, которые подготовили профессионалы. Идеи можно фильтровать по отрасли, сложности и затраченному времени. Очень круто.

Плюсы: Много функций, и везде — подсказки и инструкции. Понятный визуальный редактор заставляет программистов нервно курить в сторонке. Есть триальная версия на 30 дней. VWO интегрируется с Google Analytics, WordPress и еще 12 сервисами.

Минусы: Нет русского языка. И поэтому подсказки могут не помогать, а бесить.

Цена: Если на сайте ежемесячно менее 10 000 посетителей, стоимость сервиса — 59 $ в месяц. До 30 000 посетителей — 155 $, до 100 000 людей на сайте — 299 $, и так по нарастающей. Традиционно, при оплате за год — скидка.

Предлагает A/B, мультивариантное и сплит-тестирование, персонализацию. Цель для кликов можно пометить в визуальном редакторе.

Функций меньше, чем у некоторых конкурентов из обзора, зато у Convert (осторожно, сейчас будет очень субъективное мнение) самый удобный визуальный редактор в плане выделения и перетаскивания объектов. У других сервисов рамки объекта дрожат, как будто пользователь на них с топором набрасывается, а не аккуратно трогает мышкой.

Поймать рамку, изменить размер объекта и передвинуть его в редакторе A/B Tasty — испытание не для слабонервных. А в Convert все проходит гладко, приятно. Единственное — чтобы отредактировать текст, придется запустить руки в CSS-код.

Плюсы:
Удобный визуальный редактор, интеграция с 35 сервисами аналитики и CRM, бесплатный триальный период — 15 дней. Можно настраивать тесты под мобильные устройства.

Минусы: Нет русского языка. Визуальный редактор приятный, но в нем придется копаться и разбираться.

Цена: Тариф Lite (легкий, ага) — 499 $ в месяц за 400 000 посетителей, без техподдержки. Хотите, чтобы сотрудники сервиса вам помогали? Доплачивайте ещё 200 $. Чем больше посетителей, тем выше цена. Если оплатить сервис на год вперед — будет скидка.

Резкий скачок конверсии не отражается на продажах? А может, его просто не существует? Если основывать решения на ложных итогах теста, в лучшем случае вы упускаете шанс оптимизации, в худшем - снижаете конверсию.

К счастью, есть способ это предотвратить. Что такое A/A тестирование, как его провести - читайте в статье.

Ложноположительный результат

Допустим, вы оцениваете комбинации кнопки и заголовка. Когда достоверность достигает 99%, делаете выводы и применяете на практике.

Через несколько бизнес-циклов наблюдаете: обновленный дизайн не приносит ожидаемой прибыли. А ведь вы проводили тестирование, вкладывали в него время и ресурсы!

Это ложноположительный результат, известный также, как «статистическая ошибка первого типа» и «ошибочное отклонение верной нулевой гипотезы». Он встречается чаще, чем вы думаете - примерно в 80% случаев.

Почему это происходит?

Эффект инструмента

В начале эксперимента важно убедиться, что конфигурация инструмента правильная и он работает как надо. Иначе - риск получить:

  • Неверные показатели . Всего одна ошибка может исказить данные A/B тестирования. Как минимум, интегрируйте с Google Analytics для перепроверки.
  • Неверное отображение посадочной страницы . Убедитесь, что лендинги выглядят корректно на всех устройствах и браузерах, и посетители не сталкиваются с фликкер-эффектом. вызывает эту же проблему.
  • Преждевременное завершение теста . Иногда софт объявляет «победителя» слишком рано - при недостаточных размере или репрезентативности выборки. Помните: если вы достигли статистической значимости, это не значит, что пора прекращать тест. Чем он дольше, тем точнее результаты.

Смотрите в оба: любые из этих признаков ведут к ложному выводу. Отслеживайте каждую цель и метрику. Если какой-либо показатель не фиксируется (например, добавления товара в корзину), остановите тест, устраните проблему, и начните снова.

A/A vs A/B

A/B тест пригоняет трафик на контрольную версию и вариацию и показывает, какая работает лучше.

A/A - то же самое, только для двух одинаковых страниц. Цель - не увидеть различий в их показателях.

Только 20% экспериментов дают достоверные результаты. Статистической значимости и большой репрезентативной выборки недостаточно. Поэтому профессионалы используют эту технику до A/B теста.

Как видите, эти типы дополняют друг друга.

Если в конце эксперимента показатели конверсии обеих страниц совпадают, можно запускать A/B тест. На практике не всегда все проходит гладко.

Пример 1. Как страница может переиграть своего клона

Это лендинг, который тестировала команда Copyhackers в ноябре 2012 года:

Через 6 дней система тестирования отметила «победивший» вариант при уровне достоверности 95%. Ради точности эксперимент продлили на день - и достигли 99,6% точности:

Страница на 24% эффективнее, чем точно такая же? Результат ложноположительный. Еще через 3 дня различия исчезли:

Вывод: тест слишком рано вычислил победителя.

Пример 2. Как ничего не делать и повысить конверсию на 300%

Что мы видим:

  • 9% - рост показателя открытия писем;
  • На 300% выросло количество переходов по ссылкам;
  • На 51% упал показатель отписок от рассылки.

И все бы ничего, но это A/A тест! Контент, который конкурирует друг с другом, абсолютно идентичный.

Стоит ли проводить A/A тесты

Известный эксперт Нил Патель наблюдал большие скачки конверсии без увеличения выручки. Он советует первым делом тестировать софт, чтобы потом не расхлебывать последствия неверных решений.

По мнению Пипа Лайя, основателя агентства ConversionXL, тесты сами по себе трата времени.

Кому верить? С одной стороны, точность превыше всего, и метод A/A - способ ее обеспечить. С другой - трата ресурсов на тестирование, а также подготовку к нему.

Крейг Салливан, эксперт по пользовательскому опыту, считает, что 40 тестов в месяц - высокая нагрузка для сотрудников. Лучше убить полдня на QA, чем 2-4 недели на то, чтобы просто проверить работу инструмента.

Проблема №1 . A/A тесты занимают время и трафик, которые вы можете потратить на изучение поведения посетителей сайта.

Проблема №2 . И A/B, и A/A нужно тщательно организовывать и мониторить, чтобы не получить ложный результат. Как в примере от Copyhackers.

Потратить время или рискнуть надежностью ПО при принятии решения - решать вам.

Есть потенциально менее затратный вариант - A/A/B.

A/A/B vs A/A

Традиционное A/A тестирование ничего не говорит о посетителях. Но если добавить в процесс еще вариант - другое дело.

A/A = конкурируют 2 одинаковые страницы.

A/A/B = A/A тест + одна дополнительная вариация.

Вы поймете, стоит ли доверять инструменту. Если да, выбираете лучшую версию в соответствии с его показаниями. Если нет, их не стоит применять.

Да, нужно больше времени, чтобы достичь статистической значимости. Зато вы оцениваете и софт, а если он подтвердит свою надежность, - и поведение посетителей.

Заключение

Перевешивают ли выгоды A/A тестирования его недостатки? Нет однозначного ответа. Проводить тестирование ежемесячно - лишнее. Достаточно - при использовании нового софта (сервиса для проведения тестов). Для тех, кому совсем жалко времени, есть компромиссный вариант - A/A/B тест.

Если вы исключите ошибки сегодня, получите более точные итоги в будущем.

Высоких вам конверсий!