Error server 200 server was not able to produce timely


#1

Buenas,

Ayer día 11/07 tuvimos interrupciones con el servicio MQTT y errores de inicio de sesión en la plataforma.

A nivel de plataforma tuvimos errores de login indicando lo siguiente:

A nivel de servicio, tuvimos periodos en los que el broker no permitía la conexión de nuestros servicios:

Hemos mirado los datos de quota del plan y, a parte de un límite de mensajes por hora alcanzado por la tarde (fuera del periodo de problemas), no hemos visto el motivo de las incidencias. Probamos con varios servicios y con varios equipos. ¿Tenéis algún tipo de LOG o información adicional? Estamos en fase de desarrollo evaluando la plataforma pero es un momento importante para desplegar un parque de dispositivos en los próximos meses.
Gracias.


#2

Buenos días Gerard,

Te respondemos por aquí lo que hemos ido viendo por soporte@aspl.es, para que también estén al tanto otros usuarios.

Confirmar que durante la franja de las 16:27:46 y las 16:39:42 del pasado vienes 12, se produjo una degradación del rendimiento del plano de almacenamiento de disco distribuido CEPH que da servicio de almacenamiento a varios de los nodos usado para sostener el plano MQTT de MyQttHub.com. El problema se causó por un fallo puntual de varios de los nodos de almacenamiento.

Los compañeros de datacenter lo detectaron y pudieron corregir en pocos minutos, sin embargo, durante ese tiempo el acceso a disco quedó con un rendimiento muy bajo, produciendo errores de timeout e 500/502/504.

Una vez se recuperó el servicio, todo volvió a la normalidad sin la necesidad de reiniciar ningún sistema (incluyendo frontales y nodos de gestión MQTT).

Confirmar que el nodo que causó el fallo hardware principal ya ha sido reemplazado.

Cualquier cosa contad con nosotros,
Un saludo,