ГлавнаяСтатьиПрименение статистического анализа в ИТ

Применение статистического анализа в ИТ

История

У.ШухартВ 1918 г в американскую компанию WesternElectric пришёл молодой инженер по имени Уолтер Эндрю Шухарт. WesternElectricв те времена производила телефонное оборудование, которое эксплуатировалось будучи закопанным в землю. Естественно, частые отказы такого оборудования значительно удорожали эксплуатацию телефонной сети, и повышение надёжности производимых устройств было приоритетной задачей. 16 мая 1924 г Шухарт опубликовал краткий меморандум, не больше страницы. Он содержал одну простую диаграмму и сопроводительный текст, который описывал принципы, составляющие основу того, что сейчас называется контролем качества. Именно Шухарт сформулировал идею вариабельности процессов и их природу. Вариацией называется разница между параметрами изделий, производимых с помощью какого-либо производственного процесса. Он предположил, что причины вариаций бывают двух типов: случайные и особые.

Случайные причины являются неотъемлемым свойством самой системы. Иначе говоря, чтобы их снизить, необходимо изменить саму систему или производственный процесс.

Особые причины являются факторами дестабилизирующими процесс и должны быть немедленно выявлены и устранены. В этом и заключается улучшение качествапроизводственного процесса.

 

Вариабельность процесса
Рис. 1 — Вариабельность процесса

Для анализа вариабельности процесса Шухарт предложил простой инструмент — контрольные карты. Теперь этот инструмент является основным в теории статистического управления процессами. Идея контрольной карты проста: это график, на котором отмечены значения измерения и контрольные границы для них. Если значение измерения находится за пределами контрольной границы, то имела место быть особая причина, если же значение находится внутри контрольных пределов, то внимания менеджера здесь не требуется.

Э.ДемингИзысканиями Шухарта в 30-х годах прошлого века заинтересовался Эдвардс Деминг, работая в то время в научно-исследовательской лаборатории министерства сельского хозяйства США. Во время второй мировой войны Деминг обучал специалистов, трудящихся на предприятиях военно-промышленного комплекса США, методам статистического контроля качества. После войны, в 1950 г состоялась встреча Эдвардса Деминга с руководителями крупнейших японских компаний, которая определила дальнейший путь экономической мысли в Японии. Проведенные вслед за этим мероприятия по улучшению качества выпускаемой продукции позволили вывести японскую продукцию на ведущие роли на мировом рынке!

 

Уолтер Эндрю Шухарт (1891–1967) — американский инженер, в начале прошлого века работал в BellLaboratories. В 1924 г. предложил метод статистического контроля вариабельности технологических процессов. В основе этого метода лежит способ отображения хода процесса на контрольной карте и правила вычисления статистик контрольных карт. Эти контрольные карты называются теперь контрольными картами Шухарта. Кроме того, Шухартом описан подход к их интерпретации и последовательному улучшению процессов.

Эдвардс Уильям Деминг (1900–1993) — американский учёный и консультант, создавший фундамент современной теории качества и в значительной мере способствовавший развитию практики качества во всем мире. Эдвардс Деминг по достоинству оценил работы Шухарта. Он приложил значительные усилия к внедрению статистических методов улучшения качества на различных производствах, а также к популяризации этого подхода. Основы теории Деминга изложены в 14 принципах, которые он представил на своих семинарах в 1980 г. 14 принципов Деминга — это его рекомендации руководству по созданию и внедрению системы качества в организации.

Факты

  • Статистические методы управления процессами (SPC) лежат в основе таких популярных концепций и стандартов как ISO900x, CMMI, ITSM, SixSigma.
  • Контрольные карты Шухарта стандартизованы в России в ГОСТ Р 50779.42-99.
  • SPC используется NASA для мониторинга производительности и улучшения DeepSpaceNetwork — компьютерной сети, объединяющей космические автоматические станции, и центры управления.
  • Для обеспечения высшего качества своей продукции SPCиспользуется следующими компаниями:

 

Статистический контроль процессов ИТ

Деминг утверждал: "все отрасли промышленности, производства товаров и услуг управляются по одним и тем же принципам". Здесь мы не будем вдаваться в идеологические и теоретические рассуждения о правильности применения именно контрольных карт Шухарта и действенности статистических методов контроля — на эту тему уже много написано. В этой статье мы рассмотрим применение статистического метода улучшения процессов ИТ. Среди современных руководителей ИТ далеко не все являются специалистами в математической статистике, поэтому постараемся не вдаваться в теорию, акцентировав внимание на практическом использовании методов, разработанных Уолтером Шухартом.

Разумеется, прежде чем задумываться об управлении процессом на основании статистической информации (уровень 4 по модели оценки зрелости процессов CMM и ProcessMaturityFramework [1]), необходимо достигнуть хотя бы уровня 3. То есть определить цели процесса, формализовать его, чётко разграничить роли и ответственность, обучить людей. Кроме этого как правило при внедрении процессов управления ИТ используется какой-либо инструмент автоматизации, который в значительной мере облегчает сбор и анализ фактических данных.

Ниже мы подробнее рассмотрим концепцию постоянного совершенствования процессов в приложении к ИТ.

 

Непрерывный цикл улучшений

Как известно, библиотека ITIL, описывающая лучшие практики управления ИТ, использует идеи Деминга, стоит вспомнить хотя бы цикл непрерывных улучшений PDCA (cм. Рис.2).

PDCA
Рис. 2 — Цикл Шухарта-Деминга

 

Цикл Шухарта-Деминга в книге ContinualServiceImprovementиз состава библиотеки ITILv3 предлагается использовать для улучшения, как услуг (сервисов), так и самих процессов Управления ИТ. Рассмотрим кратко суть. Цикл Шухарта-Деминга состоит из следующих деятельностей:

  • планирование (Plan) — планирование изменений;
  • выполнение(Do) — внедрение изменений;
  • проверка (Check) — сбор фактических данных;
  • корректировка (Act) — анализ статистической информации и выработка корректирующих воздействий.

 

Изменения чего здесь имеются ввиду? Изменения могут касаться всех аспектов деятельности в рамках процесса:

  • самого процесса и его процедур;
  • компетенции сотрудников и организации труда;
  • используемых технологий и средств автоматизации.

Постоянное совершенствование процесса заключается в непрерывном выполнении цикла Шухарта-Деминга.

 

Планирование

Когда мы говорим о каком-то процессе, подразумевается, что существует некий объект процесса и данные, состоящие из измерений результата работы процесса. В процессе Управления инцидентами ИТ таким объектом является заявка пользователя или инцидент. Измерением является некий показатель качества (KGI, KPI или метрика). Для того чтобы провести статистическое исследование показателей качества необходимо накопить некую историю измерений метрик инцидентов. Как выбрать метрику? На этот вопрос не существует правильного ответа. Необходимо измерять именно то, что вас интересует, то есть те параметры, которыми необходимо управлять. Вернувшись к процессу Управления инцидентами, предположим, что одним из подходящих параметров является, например, длительность разрешения инцидента. На этапе планирования должны быть определены все метрики и участники процесса должны одинаково их понимать. Для этого необходимо выработать то, что Деминг называет операциональным определением [2], то есть в этом случае, это описание метода расчёта метрики. Даже для такой простой вещи, как время разрешения инцидента можно придумать различные толкования, чего уж говорить о более сложных показателях качества или эффективности. Дадим операциональное определение для метрики "длительность разрешения инцидента":

  • длительность разрешения инцидента вычисляется как разность времени выполнения (Tвып) инцидента и времени регистрации инцидента (Tрег);
  • Tрег устанавливается в карточке инцидента автоматически при его создании в информационной системе, автоматизирующей процесс;
  • Tвып устанавливается в карточке инцидента автоматически при переходе инцидента в статус "Разрешён";
  • при вычислении длительности разрешения инцидента подсчитывается количество часов рабочего времени в соответствии с производственным календарём и графиком "5 рабочих дней в неделю".
Incident
Рис. 3 — Пример жизненного цикла инцидента

Кроме операциональных определений, конечно, не стоит забывать задачи в традиционном понимании слова "планирование", то есть определить кто, что и когда делает. Если интересующие нас метрики уже есть в информационной системе, поддерживающей Управление инцидентами, то делать ничего не нужно кроме непосредственно сбора данных. Если необходимых метрик нет, то нужно разработать и внедрить максимально точный способ их получения, при этом учтя человеческий фактор, если таковой может повлиять на результат измерений.

 

Выполнение

На этом этапе всё относительно просто. Процесс работает, история измерений накапливается. Как долго необходимо собирать данные измерений? Зависит от степени статистической управляемости процесса (что такое "статистическая управляемость процесса" будет сказано чуть ниже). Пока её нельзя оценить, вероятно, следует собрать не менее сотни измерений за достаточно протяжённый период времени.

 

Проверка

Шухарт писал: "Явление следует называть управляемым тогда, когда используя прошлый опыт, мы можем предсказать, по крайней мере, в некоторых пределах, каких его вариаций можно ожидать в будущем". Чем выше вариабельность — тем более нестабильным является процесс, а его выход — менее выгоден экономически. Вариабельность измеряется с помощью специальных статистических методов, и если они говорят, что вариабельность достаточно низка (существуют определённые критерии), то тогда процесс является статистически управляемым. На данном шаге цикла Деминга-Шухарта необходимо понять, в каком состоянии находится процесс, является ли он управляемым или нет. Для этого в концепции, предложенной Шухартом, используется инструмент, который называется "контрольная карта". После того, как завершён предыдущий этап (выполнение), необходимо построить контрольную карту исследуемого процесса на основании полученных данных. Контрольные карты бывают различных видов и отличаются выбором статистик, которые используются для вычисления параметров процесса. Под статистикой подразумевается некое значение, полученное в результате измерений. Некоторые примеры статистик:

  • непосредственное значение измерения (X);
  • среднее значение группы измерений ;
  • размах группы измерений (R);
  • медиана группы измерений .

Общий вид контрольной карты показан на Рис. 4.

ControlChart
Рис. 4 — Контрольная карта

По вертикальной оси откладывается значение статистики процесса. По горизонтальной оси — номер измерения или идентификатор объекта, номер партии, дата и т.п. Также на графике присутствуют три линии:

  • среднее значение статистики , иначе называется математическим ожиданием;
  • верхний контрольный предел (UCL);
  • нижний контрольный предел (LCL).

вычисляется как среднее арифметическое всех значений измерений. Верхний и нижний контрольные пределы рассчитываются следующим образом: , где — стандартное отклонение. Стандартное отклонение — это мера разброса случайной величины. Поскольку я обещал не вдаваться в подробности, связанные с математическим аппаратом, то здесь примем эти формулы как данность. Читателям, которых интересует, почему всё происходит именно так, а не иначе, рекомендую обратиться к замечательной книге Д.Уилера и Д. Чамберса "Статистическое управление процессами" [2].

 

Согласно Шухарту, вариабельность процесса должна быть минимизирована. Если привести в пример процесса Управления инцидентами ИТ, то снижение вариабельности приводит к следующему:

  • увеличивается точность планирования ресурсов;
  • сокращается негативное влияние на бизнес через устранение долгих простоев;
  • появляется чёткая основа для формирования SLA (соглашений об уровне обслуживания), а также уверенность в их соблюдении;
  • растёт удовлетворённость пользователей за счёт соответствия результатов процесса их ожиданиям.

 

Корректировка

Существует два вида причин вариабельности процесса: общие (системные) и особые. Общая причина — это результат действия многих факторов. В производственном процессе (даже в самом простом) одновременно взаимодействуют несколько элементов. Например, материалы, станки, рабочие, контролёры. Особые причины появляются время от времени и относительно легко могут быть устранены. Как правило, они значительно влияют на характер вариации процесса и должны устраняться в первую очередь.

Контрольные карты интерпретируются следующим образом:

  • Если на контрольной карте существуют значения, лежащие вне контрольных пределов, то почти наверняка имеет место быть особая причина.
  • Если изменяющиеся значения лежат внутри контрольных пределов, то бесполезно искать причину в каком-то конкретном элементе системы (например, считать, что обязательно виноват исполнитель). В этом случае следует изменить саму систему так, чтобы устранить препятствия.

Таким образом, контрольная карта показывает нам, на какие результаты процесса следует обратить особое внимание. Причём если контроль процесса ведётся постоянно то, устранение особых причин ведёт к общему снижению вариабельности, а, следовательно — к повышению качества.

Здесь можно ознакомиться с примером статистического анализа на основе реальных данных Сервис-Деск.

 

О "российской специфике"

В обсуждениях этого подхода, а, впрочем, и других «импортных» принципов менеджмента (в данном случае — восточного) неоднократно высказывалось мнение о том, что с учётом «российской специфики подобные методы неприменимы».

Допустим, мы внедрим контрольные карты. Распишем всё правильно, научим. Но ведь исполнители как всегда всё испортят: они не умеют работать по инструкциям! Они не привыкли заботиться о качестве! Делаем вывод — такой метод работать не будет!

Это классическая проблема и рассмотрена Демингом в контексте американского менеджемента ещё в 1982 году (описано в [1]). Решение проблемы заключается в следующем: менеджменту стоит перестать перекладывать ответственность на исполнителей, а брать её на себя. Исходя из этой логики, управленцы, которые жалуются на исполнителей, фактически признаются в своей неспособности управлять. С чем трудно не согласиться.

 

Список литературы

1. Деминг Э. Выход из кризиса: Пер. с англ. — М.: Альпина Бизнес Букс, 2007

2. Уилер Д., Чамберс Д. Статистическое управление процессами: Пер. с англ. — М.: Альпина Бизнес Букс, 2009