Que es la gestión de incidentes mayores

El marco ITIL® es el estándar global líder para la gestión de servicios de TI (ITSM); recientemente, el objetivo de los procesos ITIL es ayudar a las organizaciones a elaborar estrategias sobre los servicios que ofrecerán, así como diseñar servicios de manera efectiva, crear y desplegar servicios, operar servicios y, facilitar la mejora continua de los servicios que la organización ha elegido implementar.

En concreto, ITIL define un incidente como una interrupción o reducción no planificada de la calidad de los servicios de TI, y la organización de TI suele informar y gestionar todos los incidentes a través de un servicio de atención a clientes.

En esta entrada de blog, nos centramos en uno de los subprocesos más importantes de la Gestión de incidentes: la gestión de incidentes mayores; explicaremos cómo se definen en ITIL y cómo trabajan las organizaciones de TI para resolverlos, así como revisar las funciones y responsabilidades más importantes de la Gestión de incidentes importantes de ITIL.

Ciclo de vida de los incidentes

El objetivo del proceso general de gestión de incidentes es administrar de manera eficaz el ciclo de vida de todos los incidentes y restaurar los servicios de TI para los usuarios o clientes lo más rápidamente posible cuando se produce una interrupción.

La gestión de incidentes consta de nueve subprocesos, los cuales trabajan en conjunto para garantizar que la organización de TI realice la gestión de incidentes de manera eficiente. Si bien nuestro enfoque actual está en la Gestión de incidentes principales, echemos un vistazo a cómo estos subprocesos trabajan juntos dentro del proceso:

  • El soporte de gestión de incidentes tiene como objetivo proporcionar y mantener las herramientas, procesos, habilidades y reglas que los técnicos de soporte necesitan para manejar los incidentes de manera eficiente.
  • Los incidentes que se informan a la mesa de servicio pasan por un proceso de Registro de incidentes y categorización que normalmente realiza un técnico de primer nivel. Los incidentes se deben registrar y priorizar de acuerdo con su urgencia para garantizar que se resuelvan de manera oportuna. Los incidentes mayores representan los incidentes de mayor prioridad que deben ser resueltos por la mesa de servicio.
  • La resolución inmediata de incidentes por el soporte de primer nivel ocurre cuando un incidente reportado se puede resolver en la primer llamada. Los técnicos de primer nivel deben tratar de recuperar los servicios lo más rápido posible utilizando una solución alternativa.
  • Cuando un incidente no puede resolverse de inmediato, el siguiente paso es la resolución de incidentes por parte del soporte de segundo nivel, con el objetivo de resolver el incidente lo más rápido posible (dentro del calendario acordado).
  • Los incidentes destacados se supervisan continuamente a través de un proceso conocido como Supervisión y escalada de incidentes, lo que garantiza que la organización de TI pueda asignar recursos adicionales hacia un incidente de alta prioridad que debe resolverse para mantener los acuerdos de nivel de servicio.
  • Cuando ocurre una interrupción importante, las organizaciones de ITIL pueden seguir el subproceso de manejo de incidentes mayores para guiar sus acciones y decisiones para resolver el incidente lo más rápido posible. Un incidente mayor es uno que causa una interrupción grave de las actividades comerciales y debe resolverse con la mayor urgencia. Para organizaciones grandes, una interrupción importante podría resultar en cientos de miles o incluso millones de dólares en ingresos perdidos. Cuando un incidente se convierte en un "Incidente mayor", los administradores de incidentes hacen todo lo posible para resolver el problema rápidamente, incluido el aprovechamiento de grupos de soporte especiales o proveedores externos con conocimientos técnicos más avanzados o específicos.
  • El proceso de cierre y evaluación de incidentes garantiza que los incidentes resueltos se revisen en cuanto a calidad y que toda la información sobre incidentes se registre con precisión.
  • El equipo de gestión de incidentes desempeña un papel en el suministro de información de usuario proactiva sobre las interrupciones del servicio planificadas.
  • La información y los datos relacionados con los incidentes se proporcionan a los otros procesos de gestión de servicios a través de informes de gestión de incidentes.

Los principales incidentes desafían a los administradores de incidentes a notificar y coordinar los recursos de manera efectiva y luego implementarlos para resolver un problema dentro de un marco de tiempo extremadamente corto. Si bien la mayoría de los incidentes notificados se resuelven con soporte técnico de 1º o 2º nivel, los incidentes mayores a menudo requieren recursos adicionales para garantizar una resolución oportuna.

¿Cómo califica ITIL un incidente importante?

Sobre la base de nuestro examen de los subprocesos que conforman la gestión de incidentes, podemos hacer algunas inferencias simples sobre la gestión de incidentes principales y cómo las organizaciones de TI manejan sus tickets de máxima prioridad.

Sabemos que los incidentes se registran y se clasifican según su urgencia, por lo que las organizaciones de TI confían regularmente en los técnicos de primer nivel para identificar correctamente los incidentes de alta prioridad. También sabemos que el monitoreo y la escalada de incidentes son procesos continuos, por lo que un técnico de primer nivel tiene la capacidad de escalar problemas que no se pueden resolver en la primera llamada o que pueden requerir recursos adicionales.

Para que la organización de TI inicie su proceso de gestión de incidentes principales, debe haber algunos criterios para designar un incidente como "mayor". De hecho, el marco de ITIL incluye una matriz de prioridad de incidentes que los administradores de incidentes pueden usar para organizar y priorizar cómo la organización de TI responde a los incidentes. La matriz de prioridad de incidentes asigna una calificación de alta, media o baja a cada incidente en dos dimensiones separadas: urgencia e impacto.

Los incidentes de alta urgencia son aquellos por los cuales los daños causados pueden aumentar rápidamente o que impiden que el personal complete el trabajo sensible. Las situaciones en las que la acción inmediata puede evitar que un incidente menor se convierta en un incidente importante también se consideran urgentes, al igual que las interrupciones que afectan a uno o más usuarios VIP. Aquí, la idea de urgencia significa que la organización puede obtener importantes beneficios al abordar el problema más pronto que tarde.

Los incidentes también son evaluados por su impacto en la organización. Una interrupción del servicio de alto impacto es aquella que afecta a una gran cantidad de personal y puede impedir que parte del personal haga su trabajo. Los incidentes de alto impacto tienen la capacidad de costar a la empresa miles  o incluso decenas de miles de dólares (o más) y la reputación de la empresa en sí podría verse afectada por la interrupción del servicio.

Las clasificaciones de impacto y urgencia para incidentes se utilizan para asignar un nivel de prioridad, generalmente entre uno y cinco para cada incidente. Los incidentes con prioridad 1 se consideran críticos: la organización de TI pretende responder de inmediato a dichos eventos y rectificarlos en una hora. En contraste, los incidentes de categoría 5 tienen una prioridad muy baja: la organización de TI actuará sobre ellos dentro de las 24 horas y buscará una resolución dentro de una semana. Las prioridades de tres niveles también son comunes.

Muchas organizaciones de TI definen criterios adicionales para identificar incidentes importantes y responder de manera adecuada. Es útil designar ciertos grupos de servicios, aplicaciones o componentes de infraestructura como críticos para el negocio y para activar el proceso de Manejo de incidentes principales cuando uno de estos componentes no está disponible y el tiempo estimado para recuperar el servicio es extremadamente largo o incluso desconocido.

Los incidentes mayores a menudo comparten las mismas características que los incidentes críticos de Categoría 1 descritos anteriormente. Por lo general, afectan a muchos clientes a la vez, a menudo afectan a varios clientes VIP, son costosos para los clientes o para la organización empresarial y pueden tener la capacidad de afectar la reputación de la empresa. Además, los incidentes mayores se caracterizan por la gran cantidad de tiempo y esfuerzo que es probable que se requiera para gestionar y resolver el incidente.

¿Qué es el flujo del proceso de incidentes mayores de ITIL?

ITIL sugiere un flujo de proceso relativamente simple para diagnosticar y gestionar incidentes importantes dentro de la organización de TI.

  1. El incidente se reporta por primera vez.
  2. El registro de incidentes y la categorización tienen lugar: si el incidente es un incidente importante, es probable que se le asigne una calificación alta tanto por la urgencia como por el impacto en la organización.
  3. El incidente es escalado a soporte de segundo nivel.
  4. Se notifica al administrador de incidentes que se ha producido un incidente importante y que el personal de soporte técnico cree que es un incidente importante.
  5. El administrador de incidentes forma un "Equipo de incidentes principales" (MIT, formado por gerentes de TI y expertos técnicos, muchos de ellos dentro de la empresa pero algunos potencialmente de afuera. El equipo trabajará en conjunto para resolver el incidente lo más rápido posible).
  6. Una vez que se descubre una solución, el incidente se puede reportar a la administración de problemas para futuras investigaciones y para desarrollar una solución permanente.
  7. Los datos se capturan del proceso de Gestión de incidentes principales y se utilizan para impulsar la mejora continua en todas las prácticas de Gestión de incidentes de la organización.

Este simple proceso de flujo ayuda a garantizar que los incidentes importantes se diagnostiquen temprano, se escalen rápidamente a la cima del organigrama de TI y se actúen para garantizar una resolución rápida. Para que esto suceda, es importante que el personal técnico de primer nivel evalúe y aumente los incidentes mayores rápidamente y que no pierda un tiempo valioso tratando de resolver incidentes grandes y complejos.

En un incidente importante, las infracciones de nivel de servicio son altamente probables. Las organizaciones de TI deben demostrar su capacidad para resolver incidentes importantes y mantener acuerdos de nivel de servicio.

Customer Service Concept. Button on Modern Computer Keyboard.

¿Cuáles son los roles y responsabilidades de la gestión de incidentes mayores de ITIL?

Bajo ITIL se asignan responsabilidades a cuatro roles separados durante el proceso de manejo de incidentes principales. A continuación, detallamos los roles y las responsabilidades de la Gestión de Incidentes Mayores de ITIL asociadas con cada uno de estos títulos de trabajo.

Papel del soporte técnico de primer nivel

Los técnicos de soporte de primer nivel son la persona de contacto principal para los informes de incidentes dentro de la organización de TI. Por lo general, se ocupan de la Mesa de Servicio de TI, toman los informes de incidentes de los usuarios y clientes, los registran, categorizan y realizan un esfuerzo inmediato para restaurar la interrupción del servicio lo más rápido posible.

Cuando el soporte de primer nivel no puede corregir una interrupción del servicio dentro de un marco de tiempo aceptable, el incidente se escala a grupos de soporte técnico experto (soporte de segundo nivel). Los técnicos de soporte de primer nivel pueden ser responsables de hacer el trabajo real de restaurar un servicio de TI cuando ocurre un incidente importante, pero no son los responsables de coordinar el equipo de incidentes principales.

Papel de un administrador de incidentes

El Administrador de incidentes asume la propiedad y la responsabilidad plenas del proceso de Gestión de incidentes dentro de la organización de TI, incluidos todos los incidentes principales que se informan y deben resolverse. Una vez que el personal técnico de primer o segundo nivel escala un incidente importante, el administrador de incidentes debe determinar qué recursos y experiencia son necesarios para resolver el incidente y establecer un equipo de incidentes mayores que pueda resolver el problema lo más rápido posible.

Papel de un equipo de incidentes mayores

La función del MIT para abordar las principales interrupciones de TI es restaurar el servicio lo más rápidamente posible utilizando todos los recursos disponibles. El tamaño y la composición del equipo dependerán de la magnitud y la naturaleza de la interrupción del servicio y la experiencia específica y los pasos de acción necesarios para restaurar el servicio.

El equipo puede incluir a los gerentes de TI de otros departamentos fuera del Service Desk, incluido el personal que normalmente es responsable de otros procesos, como la gestión de cambios. Además, el equipo de soporte técnico de primer y segundo nivel, los operadores de TI dentro de la organización e incluso los especialistas técnicos externos de la empresa suelen estar involucrados. Juntos, el equipo desarrolla e implementa una estrategia para restaurar los servicios lo más rápido posible.

Papel de un operador de TI

Los operadores de TI realizan actividades operativas diarias dentro de la organización de TI, como instalar equipos en el centro de datos, realizar copias de seguridad de los datos y mantener los servidores, y garantizar que se realicen las tareas programadas. Los operadores de TI son valorados por su familiaridad con la infraestructura y las operaciones de TI de la compañía, y pueden ser utilizados como una fuente de mano de obra adicional cuando el Administrador de incidentes forma un Equipo de incidentes principales, para abordar una interrupción importante del servicio.

Descubre ¿Qué es la gestión de servicios basada en ITIL y por qué es relevante hoy en día?

El software ITSM es un activo para la gestión de incidentes importantes

Las organizaciones de TI pueden aumentar su eficiencia en la prestación de servicios mediante la adopción de una solución ITSM basada en software que admita las mejores prácticas de ITIL. El conjunto de herramientas de gestión de servicios de TI de Cherwell ofrece un sólido escritorio de servicios de TI que admite el cumplimiento con ITIL en todo el subproceso de manejo de incidentes principales.

Con el soporte completo para la Gestión de incidencias y solicitudes a través de un portal de servicios intuitivo, su organización de TI podrá recibir, clasificar y resolver rápidamente los incidentes principales. El software ITSM de Cherwell se complementa con frecuencia con productos especializados de alerta y coordinación para gestionar los aspectos organizativos de los principales incidentes.

Además, los incidentes de seguridad a menudo se clasifican como incidentes importantes, especialmente si pueden representar una amenaza financiera para la organización o amenazar su reputación. El conjunto de herramientas del Sistema de gestión de seguridad de la información (ISMS) de Cherwell ofrece una capa adicional de protección que promete minimizar el impacto de los eventos de seguridad y mejorar la respuesta a incidentes. Las características como las evaluaciones automáticas ayudan a su organización a anticipar y mitigar el riesgo al administrar la seguridad y el Service Desk a través de un panel integrado.

Comienza hoy mismo solicitando una demostración del producto y comprueba qué puede hacer Cherwell por tu organización.

Playbook - 5 Formas de acelerar la Gestión de Servicios de TI