Только вы сами можете понять, что важно для конкретного отчета, презентации или научного исследования. В целом можно сформулировать такое правило: если вы сомневаетесь, что данные значимы и их визуализация нужна – скорее всего, представлять их графически не требуется.
Если вы не уверены, понадобится ли график руководству, можно подготовить и положить его в конец презентации. Если по ходу выступления или в конце возникнет соответствующий вопрос, вы сможете продемонстрировать этот график. Также полезно все материалы, не вошедшие в презентацию, собирать в текстовый файл. После выступления его можно отправить слушателям вместе с презентацией.
Однажды я помогал одному банку улучшить презентацию. Ребята говорили, что потенциальные клиенты с трудом врубаются в графики и в тему презентации. По идее, графики как раз должны были облегчать понимание. Для начала я попытался увидеть презентацию глазами потенциального читателя и самостоятельно понять смысл графиков. На одном из них мое внимание привлекло сильное колебание цены. Я подумал, что смысл графика именно в этом:
Однако оказалось, что слайд создан ради вот этого маленького фрагмента:
В итоге этот фрагмент мы и превратили в слайд.
На графике показано важное событие – покупка клиентом акций. После этой покупки цена акций может расти, а может оставаться прежней. В этом состоит ключевая мысль. При покупке через банк цена почти не меняется. При самостоятельной покупке рынок реагирует резко. Цена повышается, и дальнейшая покупка становится для человека невыгодной.
Финальная версия слайда была примерно такой:
Этот пример показывает, как именно относиться к большому массиву данных. Нужно выбирать из него только релевантные, максимально подходящие для ваших целей срезы: по времени, по категориям и так далее.
Однако в другой ситуации вам, наоборот, может понадобиться более широкий контекст, потому что иначе картина сильно искажается.
Если показать только график А, у читателей сложится обманчивое впечатление, что показатель уверенно растет. В то время как на самом деле это был лишь короткий эпизод. Это хорошо видно на графике B.
Продолжим аналогию с врачом. Представьте, что врач назначает всем пациентам одни и те же обследования, даже не взглянув на людей, вне зависимости от ситуации. Звучит абсурдно? Однако такое происходит очень часто. Сотрудника просят сделать отчет или презентацию с графиками «вот по этой табличке».
Зачастую человек не тратит время, чтобы выяснить: зачем нужна презентация, какова ее цель и что все эти цифры обозначают в разрезе цели. Он просто визуализирует все, что можно визуализировать. Графики могут получиться симпатичными, но вряд ли они улучшат понимание происходящего. Потому что, если понимания происходящего нет у автора графика, его не будет и у зрителя.
Качество данных
С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как хотелось бы, не совсем в том формате, в каком нужно, не совсем с теми переменными, с какими хотелось бы. Это следует принимать как данность и стараться выжимать максимум из того, что есть.
К данным, к тому, как они собраны, организованы и подготовлены, предъявляются определенные требования. Визуализация данных – это следующий этап после их подготовки и анализа. Если на подготовительном этапе возникли ошибки, то представление таких данных, как бы грамотно оно ни было сделано, не будет стоить многого.
Данные должны быть по возможности:
• максимально свежими
• целостными, полными, единообразными
• сравнимыми – собранными по одной методологии на сопоставимых выборках
• из источников, вызывающих доверие
Этот график, построенный на базе данных террористических актов Мэрилендского университета, показывает количество терактов, совершенных в мире с 1969 по 2019 год. Я потратил много времени, выясняя, почему в середине девяностых годов значения на графике полностью отсутствуют. Я подозревал в ошибке какие-то настройки программы, в которой создавался график. В конечном итоге пришлось обратиться к документации, сопровождавшей базу данных. Выяснилось, что данные за 1993 год отсутствуют по техническим причинам.
Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.
Очень удобно оценивать