Post Mortems en el Software: aprendizaje después de la vida

post-mortem-software
post-mortem-software

¿QUÉ PASO?

El otro día se cayó Chipax. No fue nada demasiado grave: una página en particular no se pudo ver durante 30-40 minutos. De hecho, no estoy seguro ni qué día fue.

La crisis en sí fue muy poco importante, pero el problema es importantísimo. O, mejor dicho, el que no nos pase de nuevo es nuestra responsabilidad. Aunque no hayamos estado todos comiendo popcorn viendo cómo apagaban el incendio, todos aprendimos qué pasó, por qué pasó, y cómo se solucionó.

culpable Post Mortems

Lo aprendimos a través de los tétricamente llamados post mortems. Son, en pocas palabras, un análisis de las causas de un problema, una descripción de la mitigación y las medidas a tomar para evitar que vuelva a ocurrir.

No es publicar los datos personales del que cometió el error para hacer un bug-shaming público. Es un ejercicio retrospectivo para aprender y para que el problema no vuelva de la tumba a atormentarnos.

Gasparín
Dramatización. Bugs suelen ser menos amables que Gasparín.

¿POR QUÉ PASÓ?

En la ingeniería de software los bugs parecen entrar por osmosis. Google, Facebook, Amazon: todos se han caído muchas veces. No lo suficiente para perder la vergüenza, pero sí para darse cuenta de que tratar de ocultarlos es imposible, y la transparencia es el mejor camino.

Incluso hay empresas que esporádicamente publican en sus blogs de ingeniería post mortems de sus sistemas para dar explicaciones de sus caídas. Esto, claro, cuando no signifique divulgar detalles confidenciales de la arquitectura o del código. Es una ceremonia pública de aprendizaje a costa de la humanidad de la empresa.

Post Mortems software

¿CÓMO PASÓ?

¿En qué consiste un post mortem? Acá puedes ver un ejemplo de Google (en inglés). Ahí lo explican mejor de lo que yo podría hacerlo, pero solo apuntar algunas observaciones:

  • El gatillante (trigger) no es lo mismo que las causas de raíz (root causes); es posible que el bug estuviera latente desde el 2012, pero recién se evidenció cuando aumentó el flujo de usuarios. 
  • Medir el impacto es crucial. Si tuviste una caída y no sabes medir el impacto en clientes, USD y/o tiempo de empleados, lo más probable es que no aprendas todo lo que puedes del problema. De ser así, una de las acciones correctivas debe ser generar herramientas para medir impacto: consultas SQL, paneles en tiempo real de flujo de usuarios en la aplicación: estas deberían existir antes de que comience el incendio. 
  • El tiempo de respuesta va a quedar plasmado en el timeline. El gap más vergonzoso es entre que existe el problema y el equipo de tecnología reconoce que este existe. Por eso la pregunta “¿estamos caídos?” debiese poder ser respondida instantáneamente.Y la persona responsable de responder tiene que tenerlo muy, muy claro.
  • El aprendizaje de la caída no necesariamente es de software. Puede que el eslabón más débil haya sido la respuesta operacional: todos corrieron en círculos mientras los clientes cerraban sus cuentas en signo de protesta.

EN CONCLUSIÓN

Los primeros en saber que tu producto no es perfecto son tus clientes. Lo menos que puedes hacer es transparentar que estás haciendo todo lo posible para mejorar cada día. Eso significa mejorar la operación, aumentar el conocimiento de la organización y hacer crecer constantemente la capa de polvo sobre el extintor. El slogan moderno es build fast, break things. La segunda parte implícita es fix fast, learn things. Ojalá no se nos olvide nunca.

¿Te gustó este artículo?

Compártelo con los tuyos y ayúdalos a mejorar las finanzas de sus negocios

Share on whatsapp
Share on facebook
Share on twitter
Share on linkedin

No te pierdas los próximos artículos

artículos

Artículos que te pueden interesar:

logo.bsale

+

logo.chipax.150

¿Qué es Bsale?

Software online de ventas para ordenar tu negocio. Con él tienes boleta y factura electrónica, interfaz de punto de venta, control de inventario, reportes de venta y página web con carro de compra. Todo esto integrado en una sola plataforma!
Olvídate de las planillas de excel, de no tener claridad cuánta mercadería te queda, cuánto has vendido y qué margen tienes. Con Bsale tienes información a la mano que te ayuda a hacer crecer tu negocio.

¿Para qué conectar Bsale a Chipax?

  1. Para sincronizar el detalle de las boletas de venta
  2. Mantener la conciliación de las boletas al día, todos los días
  3. Para descargar archivos XML de facturas emitidas y recibidas para ver su detalle

Extra: ¿Ya eres cliente Chipax? Pregunta por tu descuento exclusivo en Bsale.

¡Bienvenido a chipax!

Te llamaremos muy pronto para confirmar detalles del plan y resolver cualquier duda que tengas.

¡Dame esos 5 👋!

Está todo listo, ya recibirás nuestros datos clave para lograr un orden Zen.