Los errores de T-Mobile causaron interrupciones en todo el país, pero la FCC no está castigando al operador


Un anuncio de T-Mobile que dice:
Agrandar / Anuncio de T-Mobile en Times Square de la ciudad de Nueva York el 15 de octubre de 2020.

Getty Images | Imágenes SOPA

La Comisión Federal de Comunicaciones ha terminado de investigar a T-Mobile por un corte de red que el presidente Ajit Pai calificó de “inaceptable”. Pero en lugar de castigar al operador de telefonía móvil, la FCC simplemente está emitiendo un aviso público para “recordar” a las compañías telefónicas las “mejores prácticas aceptadas por la industria” que podrían haber evitado la interrupción de T-Mobile.

Después de que el apagón nacional de 12 horas el 15 de junio interrumpiera los servicios de mensajes de texto y llamadas, incluidas las llamadas de emergencia al 911, Pai escribió que “la interrupción de la red de T-Mobile es inaceptable” y que “la FCC está iniciando una investigación. Estamos exigiendo respuestas, al igual que los consumidores estadounidenses”.

Pai tiene un historial de hablar duro con los transportistas y no seguir con los castigos que podrían tener un mayor efecto disuasorio que las advertencias severas. Eso parece ser lo que sucedió de nuevo ayer cuando el FCC anunció los hallazgos de su investigación sobre T-Mobile. Pai dijo que “la interrupción de T-Mobile fue una falla” porque el operador no siguió las mejores prácticas que podrían haberla prevenido o minimizado, pero no anunció ningún castigo. El asunto parece estar cerrado con base en el anuncio de ayer, pero hoy nos contactamos con la oficina del presidente Pai para preguntar si hay algún castigo para T-Mobile. Actualizaremos este artículo si obtenemos una respuesta.

La FCC detalla los errores de T-Mobile

los informe de investigación del personal identificó varios errores cometidos por T-Mobile durante la interrupción, que comenzó cuando T-Mobile estaba instalando nuevos enrutadores en el sureste de Estados Unidos. Cuando fallaba un enlace de transporte de fibra en la región, la red de T-Mobile debería haber transferido tráfico a través de un enlace diferente. Pero el operador “había configurado mal el peso de los enlaces a uno de sus enrutadores”, lo que “impidió que el tráfico fluyera hacia el nuevo enrutador activo como estaba previsto”. T-Mobile no había implementado ningún proceso a prueba de fallas para evitar la configuración incorrecta o para alertar a los ingenieros de red sobre el problema.

El mercado de Atlanta “se aisló” del resto de la red, lo que provocó que todos los usuarios de LTE de la zona perdieran conectividad. Un error de software empeoró las cosas al evitar que los dispositivos móviles en el área de Atlanta se volvieran a registrar con el Subsistema Multimedia IP a través de Wi-Fi. En lugar de enrutar los intentos de registro de dispositivos a un nodo diferente, “el sistema de registro enrutaba repetidamente los intentos de reinscripción para cada dispositivo móvil al último nodo retenido en sus registros, que no estaba disponible debido al aislamiento del mercado”.

El error de software había existido en la red de T-Mobile durante meses. “Este error de software probablemente no causó problemas antes de que ocurriera esta interrupción porque la interrupción fue el primer aislamiento de mercado notable desde que T-Mobile integró este software en su red”, dijo la FCC. Las pruebas periódicas “podrían haber descubierto la falla del software y la mala configuración del enrutamiento antes de que pudieran afectar las llamadas en vivo”, dijo también la FCC.

Después de que comenzaran los problemas el 15 de junio, los ingenieros de T-Mobile “terminaron exacerbando [the outage’s] impacto porque diagnosticaron erróneamente el problema “. El informe de la FCC continuó:

T-Mobile creía que el enlace de transporte de fibra que falló al principio del día continuaba causando la interrupción en curso. Actuando sobre esta creencia, T-Mobile cerró manualmente el enlace en un intento de transferir tráfico lejos de él. Sin embargo, debido a las ponderaciones de Open Shortest Path First aún mal configuradas, estos pasos recrearon las condiciones iniciales de la interrupción. Los clientes de LTE en el mercado de Atlanta se desconectaron nuevamente de la red LTE y se vieron obligados a establecer llamadas a través de Wi-Fi, y sus intentos de registro nuevamente fallaron y crearon una tormenta de registros que agregó más congestión al Subsistema Multimedia IP de T-Mobile.

Los ingenieros de T-Mobile reconocieron casi de inmediato que habían diagnosticado mal el problema. Sin embargo, no pudieron resolver el problema restaurando el enlace porque las herramientas de administración de red necesarias para hacerlo de forma remota se basaron en las mismas rutas que acababan de desactivar. Cuando los ingenieros de T-Mobile pudieron acceder al equipo en el sitio y corregir su error restaurando el enlace una hora más tarde, los clientes en el mercado de Atlanta pudieron nuevamente intentar registrarse en VoLTE [Voice over LTE]. Sin embargo, esto volvió a crear una congestión adicional porque los ingenieros de T-Mobile aún no habían abordado el error de software que impedía que se completaran los registros.

La interrupción se extiende a todo el país

El informe de la FCC explicó cómo la interrupción se extendió desde el mercado de Atlanta a todo el país. El tráfico externo destinado al sistema de Atlanta se redirigió a otras regiones, lo que “creó suficiente congestión en esos sistemas de registro como para que la red T-Mobile enviara los intentos de registro a otros nodos. El error de software volvió a enrutar los intentos de registro al último nodo registrado, que probablemente ya estaba experimentando una congestión severa “. Poco después, “los registros del subsistema multimedia IP, VoLTE y voz sobre Wi-Fi comenzaron a fallar en todo el país”.

La gran mayoría de los clientes de T-Mobile no pudieron conectarse a las redes Voice over LTE o Voice over Wi-Fi y, por lo tanto, “recurrieron a las redes conmutadas de circuitos 3G y 2G de T-Mobile para hacer y recibir llamadas mientras el dispositivo continuaba funcionando. intentos de registro en la red VoLTE “. Esto resultó en una congestión 3G y 2G, lo que provocó que muchas llamadas telefónicas fallaran. Los nodos de red continuaron reteniendo recursos para estas sesiones de llamadas después de que las llamadas terminaron, abrumando los recursos informáticos de los nodos y causando aún más fallas en las llamadas.

Latest articles

La UE habla sobre migración durante la cena, mientras el barco de rescate de una ONG zarpa

Mientras los jefes de Estado y de gobierno de la UE se reúnen en Bruselas para discutir la migración, el barco de búsqueda...

ONU vota contra el embargo a Cuba (24 de junio de 2021)

La Asamblea General de las Naciones Unidas votó abrumadoramente a favor de una resolución que pide que Estados Unidos levante su embargo contra...

El verdadero efecto de goteo: hacer que los “lujos” sean asequibles para la gente normal

La mayoría de los lectores están familiarizados con la noción de "efecto de goteo". Esta caricatura suele ser utilizada por economistas de...
49.6k Followers
Follow

Related articles

Leave a reply

Please enter your comment!
Please enter your name here

Translate »