Как проводить эвристическую оценку

Эвристическая оценка (см Nielsen and Molich, 1990; Nielsen 1994) это один из методов науки юзабилити, который служит для обнаружения проблем с юзабилити в дизайне пользовательского интерфейса, исправление которых является частью многоэтапного процесса дизайна. Эвристическая оценка проводится небольшой группой людей, которые оценивают интерфейс и судят о его правильности, опираясь на определенные общепризнанные принципы юзабилити (которые называются "эвристиками").

В целом, эвристическая оценка - весьма трудоемкий процесс для одного человека, так как один человек никогда не сможет обнаружить все проблемы с юзабилити в интерфейсе. К счастью, опыт работы над множеством проектов показал, что различные люди находят различные проблемы. Следовательно, эффективность метода можно значительно повысить, если привлечь к оценке нескольких людей. Рис.1 демонстрирует пример результатов одной из таких оценок, где 19 участников обнаружили 16 различных проблем в системе автоответчика, с помощью которого клиенты банка получали доступ к своим счетам (Nielsen 1992). Каждый черный квадратик на рис.1 обозначает обнаружение одной из проблем одним из участников. Иллюстрация ясно показывает разницу между различными проблемами найденными различными участниками. Разумеется, некоторые проблемы было так легко обнаружить, что их нашли практически все участники, но были и такие проблемы, которые смогли обнаружить лишь немногие участники теста. Следовательно, нельзя судить о том, кто лучше находит проблемы, а кто хуже, основываясь только на количественном результате. Во-первых, не всегда один и тот же человек в разных тестах сможет показать один и тот же лучший результат. Во-вторых, проблемы, которые труднее всего было найти (самый левый столбец на рис.1), были обнаружены участниками, которые вовсе не могут похвастаться своей результативностью. Следовательно, к эвристической оценке необходимо привлекать как можно больше людей (см. ниже рассуждения о том, сколько должно быть участников). Я рекомендую привлекать от трех до пяти участников, так как при слишком большом количестве участников вы будете в основном получать повторяющуюся информацию.

 

Рис. 1

Иллюстрация показывает, какой из участников тестирования банковской системы какую проблему нашел. Каждый ряд таблицы соответствует одному из 19 участников теста, а каждый столбец - одной из 16 обнаруженных проблем. Каждый квадратик показывает, какую из проблем обнаружил тот или иной участник: если квадратик черный - участник обнаружил эту проблему, если белый - не обнаружил. Ряды таблицы выстроены так, что самые успешные участники теста находятся внизу, а самые неудачные - вверху. Столбцы таблицы были выстроены так, что проблемы, которые легче всего было найти, располагаются справа, а самые трудные проблемы - слева.

Как это делается
Во время проведения эвристической оценки каждый участник выполняет свою работу индивидуально. Только после того, как все участники закончат выполнение работы, им разрешается поговорить друг с другом и объединить полученные сведения. Очень важно соблюдать именно такой порядок, чтобы получить в результате независимые и непредвзятые оценки от каждого участника. Результаты оценок либо записываются на бумаге в виде отчетов от каждого участника, либо излагаются устно каждым участником во время выполнения теста. Письменные отчеты хороши тем, что являются формальной записью результатов оценки, но на их составление требуются дополнительные усилия от участника теста, и необходимо время руководителя теста на их прочтение и сведение. Если же отчет ведется устно, в каждом тесте требуется наблюдатель для записи комментариев, но благодаря этому снимается нагрузка с самих участников теста. Кроме того, результаты тестов можно получить почти сразу после окончания последнего теста. Задержка связана с тем, что наблюдателю самому нужно время на просмотр и сведение своих личных записей. Тем не менее на это уйдет меньше времени, чем на написание отчета каждым из участников теста. Помимо этого наблюдатель может помочь участникам в работе с интерфейсом в случае возникновения проблем, например, в случае с нестабильным прототипом, либо помочь участникам, если у них отсутствуют необходимые знания для работы с прототипом и им надо объяснить, как что работает.

В случае тестирования с участием пользователя наблюдатель (который выступает в роли "руководителя") отвечает за интерпретацию действий пользователя и их связь с проблемами юзабилити в дизайне интерфейса. Благодаря этому такие тесты можно проводить даже в тех случаях, когда пользователь-участник абсолютно ничего не знает о дизайне интерфейсов. В случае же с эвристической оценкой ответственность за анализ интерфейса возлагается на самого участника, а наблюдателю отводится лишь роль секретаря, записывающего комментарии участника, т.е. наблюдатель в данном случае не занимается оценкой действий участника.

Нельзя не напомнить о двух других различиях между эвристической оценкой системы и традиционным ее тестированием с помощью пользователя. Речь идет о праве наблюдателя отвечать на вопросы участника теста во время его проведения, а также о глубине ответов на эти вопросы. В традиционном тесте с участием пользователя задача состоит в том, чтобы обнаружить, какие ошибки в работе с интерфейсом может допустить пользователь. Таким образом, организатор тестирования не склонен давать участнику информацию больше, чем то необходимо. Также пользователей просят отыскать ответ на возникший вопрос с помощью самой системы, а не надеяться на ответ наблюдателя. В случае же с эвристической оценкой неразумно отказывать участнику оценки в ответах на вопросы, касающиеся предметной области системы, в особенности если эксперт не является специалистом в той области, с которой связана система. В данном случае полные ответы наблюдателя на вопросы эксперта помогут последнему более глубоко оценить юзабилити пользовательского интерфейса, опираясь на полученные от наблюдателя знания. Точно также, когда эксперт столкнется с затруднениями, наблюдатель может дать совет, как выйти из ситуации, чтобы не тратилось драгоценное время на борьбу с интерфейсом. Здесь, однако, важно отметить, что наблюдатель не должен помогать до тех пор, пока он ясно не убедится в том, что эксперт попал в затруднительное положение и четко отметил проблему с юзабилити.

Как правило эвристическая оценка отдельным экспертом длится один два часа. Более длительные тесты могут потребоваться в случае очень большой или очень сложной системы, где присутствуют множество диалоговых элементов. Но в этом случае оценку лучше разделить на несколько сеансов, в котором оценивается только какая-то определенная часть интерфейса.

Во время сеанса оценки эксперт несколько раз проходит по интерфейсу и рассматривает его различные диалоговые элементы, сравнивая их со списком принципов юзабилити (эвристики). Эти эвристики являются общими правилами, которые описывают общие свойства всех интерфейсов, которые считаются удобными в использовании. В дополнение к данному списку общих эвристик эксперт, разумеется, имеет право пользоваться любыми другими известными ему принципами или результатами предыдущих оценок, которые применимы к какому-то конкретному элементу интерфейса. Более того, на основе общих эвристик можно разработать список эвристик, которые специфичны именно для данной категории систем. Список таких специфических эвристик можно составить, проведя, например, анализ конкурирующей системы или тестирование существующих систем с помощью пользователей, после чего надо вывести абстрактные принципы хорошего интерфейса на основе обнаруженных проблем с юзабилити (Dykstra 1993).

Нюансы
В целом эксперты сами решают, как они собираются оценивать интерфейс. В качестве общей рекомендации мы советуем, чтобы во время сеанса эксперт прошелся по интерфейсу дважды. Первый проход служит для понимания, как работает интерфейс системы и в какой последовательности выполняются действия. Во время второго прохода эксперт концентрирует внимание на определенных элементах интерфейса, уже зная, как они складываются в общую картину.

Так как эксперты не используют интерфейс как таковой (т.е. не выполняют реальную задачу, а лишь оценивают сам интерфейс), эвристическую оценку применить даже к интерфейсу, который существует в виде бумажных прототипов [см. соответствующий метод в каталоге методов веб-дизайна и статью Нильсена на эту тему], но в реальности еще не сделан (Nielsen 1990). Это значит, что эвристическая оценка может проводиться на ранних этапах дизайна системы.

Если система имеет простой интерфейс и предназначена для широкой аудитории, или если эксперты разбираются в предметной области, им помощь в работе с интерфейсом не понадобится. В противном случае, когда система специфична и эксперты не слишком глубоко знакомы с предметной областью, им может понадобиться помощь для работы с интерфейсом. В качестве помощи экспертам можно раздать типичные сценарии использования системы, где будут перечислены различные шаги, которые должен выполнить типичный пользователь, чтобы выполнить какую-то реальную задачу. Такие сценарии составляются на основе анализа задач пользователей и их работы и в дальнейшем служат основой для понимания того, как в будущем будет использоваться система.

Результаты
Результатом оценки по эвристическому методу является список проблем с юзабилити интерфейса со ссылками на те принципы юзабилити, которые были нарушены в дизайне интерфейса по мнению каждого из экспертов. Экспертам недостаточно только сказать, что им что-то там не понравилось; они должны объяснить почему им что-то не понравилось со ссылкой на эвристики или на другие результаты оценки юзабилити. Эксперты-оценщики должны быть точны в своих словах насколько это возможно и должны указывать каждую обнаруженную проблему в отдельности. Например, если в определенном диалоговом элементе три вещи сделаны неправильно, все три следует указать по отдельности со ссылками на различные принципы юзабилити, которые объясняют, почему данный аспект элемента интерфейса содержит проблему. Отдельное упоминание каждой проблемы вызвано двумя причинами: во-первых, если проблема явно не указана, существует риск повторить неверное решение в диалоговом элементе даже в том случае, когда он полностью заменен на новый. Во-вторых, может быть и не удастся исправить все проблемы с юзабилити в интерфейсе или заменить элемент на новый, но по крайней мере какие-то из обнаруженных проблем можно будет решить, если они точно указаны в списке.

Эвристическая оценка на является методом систематического тестирования интерфейса или методом оценки качества осуществленного редизайна. Тем не менее, так как эвристическая оценка подразумевает объяснение каждой обнаруженной проблемы на основе определенных принципов юзабилити, этот метод помогает довольно легко делать новый дизайн. Кроме того, многие проблемы с юзабилити, стоит их только обнаружить, можно достаточно легко и быстро исправить.

Например, если проблема состоит в том, что пользователь не может скопировать информацию из одного окна в другое, то решение этой проблемы достаточно очевидное - добавить такую функцию в программу. Точно также, если проблема состоит в том, что в интерфейсе программы используются разные шрифты, по разному пишутся слова или называется один и тот же термин, решение данной проблемы также очевидно - выбрать единый формат для всего интерфейса. Тем не менее, даже в этих простых примерах дизайнер не получает от эксперта никакой информации как именно ему нужно изменить интерфейс (например, как именно должна быть реализована функция копирования из одного окна в другое, или какой именно надо выбрать формат шрифта для интерфейса).

В качестве расширения метода эвристической оценки, чтобы у дизайнеров появилась отправная точка для работы, мы рекомендуем проводить обще собрание экспертов после проведения последнего сеанса оценки. В число участников собрания включают экспертов, наблюдателя и представителей дизайнерской команды. Собрание проводится сначала в режиме мозгового штурма и концентрируется на том, какие надо внести изменения в дизайн, чтобы исправить обнаруженные ошибки или более общие ошибки дизайна в целом. Это собрание также хорошая возможность обсудить позитивные моменты в исследованном дизайне, так как эвристическая оценка никак не затрагивает эту важную сторону исследуемого предмета.

Эвристическая оценка относится к методам юзабилити "для малого бюджета". Независимые исследования (Jeffries et al. 1991) безусловно показали, что метод эвристической оценки является очень эффективным методом юзабилити. В одном из случаев из моего личного опыта нам удалось достичь 48-кратной эффективности: стоимость проведенного исследования составляла 10.500 долларов, в то время как ожидаемый эффект от этого исследования составил 500.000 долларов (Nielsen 1994). Являясь методом "для малого бюджета", метод эвристической оценки не может дать "идеальных" результатов или помочь вам отыскать все до единой ошибки в интерфейсе.

Определяем количество участников
В принципе эвристическую оценку пользовательского интерфейса может выполнить и один человек, однако опыт работы в нескольких проектах показывает, что при использовании только одного эксперта уровень результатов оставляет желать лучшего. Примерно в шести моих проектах эксперт, работавший один, нашел лишь 35% проблем с юзабилити. Однако, в связи с тем, что разные эксперты могут найти разные проблемы, гораздо более высокого результата можно достичь объединив усилия нескольких экспертов. На Рис.2 показано отношение количества найденных проблем к количеству экспертов, принимавших участие в тестировании. График ясно показывает, что несколько участников намного лучше, чем один. Мы считаем разумным ограничиться пятью экспертами, и уж конечно их число не должно быть меньше трех. Точное число экспертов зависит от стоимости проекта и стоимости ожидаемого результата. Большее число экспертов требуется там, где роль юзабилити очень важна, или там, где ожидается большая отдача от обнаружения ошибок в связи с чрезвычайной важностью системы или ее широкомасштабным использованием.

Рис. 2

Кривая демонстрирует отношение между числом найденных проблем и числом экспертов. Кривая отображает средние данные, выведенные на основании шести проектов.

В своей работе Нильсен и Ландауэр представили модель, основанную на формуле, позволяющей предсказать число найденных проблем, основываясь на числе участников эвристической оценки:

ProblemsFound(i) = N(1 - (1-l)i )

где ProblemsFound(i) обозначает количество различных проблем, найденных при объединении результатов работы i независимых экспертов. N обозначает общее количество проблем в интерфейсе, а l обозначает среднее количество проблем, которые находит один эксперт. В шести проектах значение l колебалось от 19 до 51 процента, а усредненное значение составляло 34 процента. Значения переменной N варьировались от 16 до 50 процентов, а усредненное значение равнялось 33. Используя эти значения в формуле, вы получите кривую, которая очень сильно приближена к той, что представлена на Рис.2, хотя точная форма кривой будет зависеть от ваших конкретных средних значений N и l, которые в вашем конкретном проекте могут отличаться от наших значений.

Для того, чтобы определить оптимальное число экспертов, необходимо соотнести стоимость эвристической оценки с её отдачей. Первый элемент при вычислении - это стоимость проведения теста, включающая фиксированные и переменные расходы. Фиксированные расходы это те, которые придется заплатить вне зависимости от того, сколько экспертов будет привлечено к тестированию: стоимость составления плана тестирования, стоимость подготовки материалов, написания отчета. Переменные расходы - это те дополнительные расходы, которые набегают всякий раз, когда к тесту привлекается очередной дополнительный эксперт. Сюда входит оплата работы эксперта, стоимость оценки его отчета, стоимость оборудования или других ресурсов. Основываясь на опыте нескольких проектов мы считаем, что постоянные расходы на эвристическую оценку составляют где-то 3.700 - 4.800 долларов, а переменные расходы - 410 - 900 долларов на каждого эксперта.

Разумеется, конкретные суммы расходов зависят от проекта, от вашей компании и от сложности оцениваемого интерфейса. В качестве отправной точки считайте, что фиксированная стоимость эвристической оценки равна 4.000 долларам, а переменная стоимость - 600 долларам на каждого эксперта. В таком случае общая стоимость тестирования при помощи i экспертов рассчитывается по формуле $(4,000 + 600i).

Выгодами от эвристической оценки являются найденные проблемы с юзабилити, хотя в некоторых случаях выгодой можно назвать побочный обучающий эффект, когда эксперты повышают уровень своих знаний, сравнивая свои отчеты с отчетами других экспертов на общем собрании. В нашем проекте стоимость каждой необнаруженной ошибки составляла 15.000 долларов. Разумеется, в вашем конкретном проекте стоимость будет другая. Например для программ, которые используются внутри вашей компании, оценивать стоимость каждой ошибки, найденной во время тестирования, можно по ожидаемому росту производительности труда пользователей; для продуктов, которые будут продаваться на рынке, оценку можно основывать на предполагаемом росте продаж благодаря более высокому уровню удовлетворения покупателей или более высоким оценкам сторонних экспертов. Обратите внимание, что в плюс вы записываете себе только те проблемы, которые были обнаружены до отправки продукта на прилавок. Так как все обнаруженные проблемы исправить невозможно, стоимость обнаруженной, но неисправленной проблемы, ниже стоимости обнаруженной и исправленной.

Рис. 3

Кривая показывает во сколько раз отдача от эвристической оценки выше расходов на ее проведение. Данные взяты из проекта, о котором идет речь в тексте. Оптимальное количество участников теста - 4 человека. При этом отдача от них в 62 раза выше расходов.

На рис.3 представлены различные соотношения отдачи от теста к его стоимости при различном количестве участников теста. Кривая показывает, что Оптимальное количество участников теста - 4 человека. Это подтверждает общие наблюдения, что эвристическая оценка лучше всего работает, когда в ней принимает участие от трех до пяти экспертов. В нашем примере, если эвристическая оценка обошлась бы в 6.400 долларов, а общая стоимость найденных проблем с юзабилити составила бы 395.000 долларов.

Якоб Нильсен