Microsoft ha revelado una expansión ambiciosa de su infraestructura de inteligencia artificial con el establecimiento de una nueva instalación de centro de datos en Atlanta, Georgia. Esta instalación representa un avance significativo en cómo la empresa diseña y opera sistemas de computación de IA a gran escala. Al conectar esta ubicación en Georgia con su instalación existente en Wisconsin e integrarse con la red global más amplia de centros de datos de Azure, Microsoft ha creado lo que describe como la primera superfactory de IA a escala planetaria del mundo.

El enfoque arquitectónico que subyace a esta infraestructura difiere fundamentalmente de los modelos tradicionales de centros de datos en la nube. En lugar de depender de configuraciones convencionales, el sistema—llamado Fairwater—implementa una red plana única capaz de integrar cientos de miles de los aceleradores GPU de NVIDIA más recientes en una supercomputadora unificada. Esta filosofía de diseño refleja décadas de experiencia en arquitectura de centros de datos y redes, combinada con lecciones aprendidas al respaldar algunas de las operaciones de entrenamiento de IA más grandes del mundo.

Densidad computacional y gestión térmica

La infraestructura aborda uno de los desafíos más apremiantes de la IA moderna: las limitaciones físicas impuestas por la velocidad de la luz. Para maximizar la densidad computacional mientras se minimiza la latencia, Fairwater emplea sofisticados sistemas de refrigeración líquida que operan a nivel de instalación. Este enfoque utiliza un circuito cerrado que recircula continuamente líquido de enfriamiento con reemplazo mínimo, aproximadamente equivalente al consumo anual de agua de veinte hogares, reemplazado solo cuando la química del agua lo requiere. El sistema está diseñado para períodos operativos que superan los seis años, combinando eficiencia con sostenibilidad ambiental.

La refrigeración líquida avanzada permite niveles de densidad de potencia sin precedentes, alcanzando aproximadamente 140 kilovatios por rack y 1.360 kilovatios por fila. Esta densificación respalda operaciones de entrenamiento a gran escala que funcionan eficientemente en estado estable. El diseño térmico de la instalación incluye una de las plantas de enfriamiento más grandes del planeta, donde la disipación de calor ocurre después de pasar a través de caminos de placas frías en toda la flota de GPU.

El diseño del edificio del centro de datos de dos pisos optimiza aún más la densidad computacional. Dado que muchas cargas de trabajo de IA demuestran una sensibilidad extrema a la latencia, la longitud del cable impacta directamente el rendimiento del cluster. Al posicionar racks en configuraciones tridimensionales en ambas historias, la instalación minimiza las distancias de cable entre GPU interconectados, mejorando así la latencia, el ancho de banda, la confiabilidad y la eficiencia general de costos.

Infraestructura de energía y estabilidad de la red

La ubicación de Atlanta fue seleccionada estratégicamente por su infraestructura eléctrica confiable, logrando disponibilidad 4×9 con costo 3×9, una combinación poco común en operaciones de centros de datos. Esta conexión de red resiliente permite a Microsoft eliminar enfoques de redundancia tradicionales como generación en sitio, sistemas de alimentación ininterrumpida y distribución de línea dual, reduciendo tanto costos de cliente como tiempo de comercialización.

Microsoft ha colaborado con socios industriales en soluciones avanzadas de gestión de energía que abordan desafíos planteados por fluctuaciones grandes en trabajos de IA. Estos incluyen enfoques impulsados por software que introducen cargas de trabajo complementarias durante períodos de baja demanda, mecanismos de aceleración de potencia de GPU basados en hardware, y sistemas de almacenamiento de energía en sitio que suavizan variaciones de potencia sin extraer capacidad excesiva de la red.

Arquitectura de red y tecnología de aceleración

Fairwater opera un cluster unificado de GPU NVIDIA Blackwell interconectados a través de una arquitectura de red avanzada que se escala confiablemente más allá de limitaciones de redes tradicionales. Cada rack de aceleración alberga hasta 72 GPU Blackwell conectadas vía NVLink para comunicación intra-rack de latencia ultra baja. Los racks individuales entregan 1,8 terabytes de ancho de banda GPU a GPU con más de 14 terabytes de memoria agrupada disponible por GPU.

La red escalable crea pods y clusters que permiten que todas las GPU funcionen como una única supercomputadora con conteos de saltos mínimos. Un backend Ethernet de dos niveles respalda tamaños de cluster masivos con conectividad GPU a GPU de 800 gigabits por segundo. Al depender de ecosistemas Ethernet amplios y SONiC—el sistema operativo de red en la nube de código abierto de Microsoft—la empresa evita el bloqueo de proveedores mientras mantiene eficiencia de costos a través de hardware comercial.

La optimización implica recorte de paquetes, difusión de paquetes y mejoras de telemetría de alta frecuencia. Estas tecnologías colectivamente entregan control de congestión avanzado, detección rápida y retransmisión, y balanceo de carga ágil, asegurando rendimiento ultra confiable y de baja latencia para cargas de trabajo de IA modernas.

Integración a escala continental

Las operaciones de entrenamiento para modelos medidos en billones de parámetros rápidamente superan limitaciones de capacidad de una sola instalación. Para abordar esto, Microsoft desplegó más de 120.000 nuevas millas de fibra óptica en los Estados Unidos, estableciendo una columna vertebral de IA WAN dedicada. Esta red de alto rendimiento y altamente resiliente conecta directamente diferentes generaciones de supercomputadoras en ubicaciones geográficamente diversas, creando una verdadera superfactory que excede las capacidades de cualquier sitio individual.

Esto representa un cambio fundamental respecto a prácticas pasadas donde todo el tráfico atravesaba redes de escalado independientemente de los requisitos de carga de trabajo. Los desarrolladores ahora acceden a redes apropiadamente emparejadas a niveles de detalle granular, segmentando tráfico a través de redes de escalado arriba y abajo dentro de sitios y a través de distancias continentales vía la IA WAN, mientras se maximiza la flexibilidad y utilización de la infraestructura.


Microsoft activa su «Superfactory» de IA planetaria desde su nuevo hub de Fayetteville

Microsoft activó silenciosamente su más nueva superfactory de inteligencia artificial el 28 de noviembre de 2025, encendiendo el interruptor en un campus de centro de datos de dos pisos en Fayetteville, justo al sur de Atlanta. La instalación de Georgia ancla una red continental que vincula el complejo existente de Wisconsin de la empresa y docenas de sitios de Azure en todo el mundo, formando lo que Microsoft llama la primera infraestructura de IA a escala planetaria jamás puesta en producción.

El proyecto marca una escalada decisiva en la carrera por suministrar potencia de computación para modelos medidos en billones de parámetros. Con cientos de miles de GPU NVIDIA Blackwell operando como un único sistema, Microsoft dice que el hub de Fayetteville acelerará todo, desde copilots comerciales hasta investigación de frontera, mientras reduce la latencia para clientes en todo el este de Estados Unidos. Según el Atlanta Journal-Constitution, la apertura señala «la escala e alcance creciente de las capacidades de IA de [Microsoft]» en la región Atlanta Journal-Constitution.

Más grande que cualquier edificio

A diferencia de una expansión convencional de nube, el lanzamiento de Fayetteville es la piedra angular de una arquitectura que Microsoft llama Fairwater. En lugar de tratar cada centro de datos como una granja independiente, Fairwater vincula múltiples geografías—Atlanta y Wisconsin inicialmente, con más por venir—en una única computadora lógica. Una columna vertebral de IA WAN dedicada, tendida con más de 120.000 millas de ruta de fibra nueva, vincula los clusters. Cuando una ejecución de entrenamiento crece más allá del pool de GPU local, el tráfico fluye sin interrupciones sobre esa red óptica privada, preservando la baja latencia esencial para la sincronización masiva de modelos.

Dentro del edificio, la densidad es lo más importante. Los ingenieros de la empresa rediseñaron diseños de racks, caminos de cable y bucles de enfriamiento alrededor de los límites ineludibles de la velocidad de la luz: cada metro de cobre o fibra suma retraso de propagación que puede detener operaciones colectivas en decenas de miles de chips. Al apilar racks en dos pisos y limitar recorridos de cable, el sitio de Fayetteville mantiene conteos de saltos lo suficientemente bajos para permitir que todas las GPU se comporten como si estuvieran en el mismo chasis.

Cómo se mantiene frío

Conducir tantos procesadores en proximidad cercana requiere gestión térmica igualmente radical. La planta de Georgia se basa en un sistema de refrigeración líquida a nivel de campus que circula un refrigerante propietario a través de asambleas de placa fría conectadas a cada GPU. El diseño de circuito cerrado reemplaza aproximadamente tanta agua cada año como 20 hogares típicos usan, e intervalos de mantenimiento se extienden más allá de seis años. Microsoft empareja el bucle de refrigerante con una de las plantas de enfriamiento mecánicas más grandes jamás instaladas, capaz de remover más de un megavatio de calor de cada fila de salón de datos. El resultado es 140 kW sostenidos por rack, casi un orden de magnitud por encima de los centros de datos de Internet tradicionales.

Potencia sin el costo de la redundancia

Una razón por la que Fayetteville hizo la lista corta fue la red de transmisión excepcionalmente robusta de Georgia. Los ingenieros lograron la llamada disponibilidad 4×9 (99,99 por ciento de tiempo activo) con lo que Microsoft describe como costos 3×9, una combinación rara que les permitió eliminar muchas capas de redundancia habituales. Al conectarse directamente a una subestación reforzada y complementarse con almacenamiento de batería en sitio, el campus elimina generadores diésel, sistemas de alimentación ininterrumpida y alimentaciones de utilidad dual. Menos conversiones significan mayor eficiencia y una huella de carbono más pequeña, mientras que las baterías suavizan los patrones de carga erráticos comunes durante trabajos de IA que alternan entre ráfagas de computación y fases inactivas.

Redes a escala

Cada rack de aceleración en Fayetteville contiene hasta 72 GPU NVIDIA Blackwell conectadas entre sí vía NVLink. Dentro del rack disfrutan de 1,8 TB/s de ancho de banda colectivo y comparten más de 14 TB de memoria agrupada por chip. A nivel de pod, Microsoft despliega una estructura Ethernet de dos niveles que empuja enlaces de 800 Gb/s, todo orquestado por SONiC, el sistema de conmutación de código abierto que la empresa originalmente donó a la Fundación Linux. Características como recorte de paquetes y telemetría de alta frecuencia permiten que la red detecte congestión microsegundos después de que comienza y reencamine paquetes antes de que se pierdan, una necesidad cuando millones de gradientes simultáneos están en vuelo durante un ciclo de entrenamiento grande.

Columna vertebral continental

Ninguna propiedad individual puede alojar la computación requerida para los modelos de frontera de hoy, por lo que Microsoft fusionó Fayetteville a su instalación existente de Wisconsin—y eventualmente a supercomputadoras norteamericanas adicionales—sobre una IA WAN construida con propósito. Más de 120.000 nuevas millas de fibra evitan completamente la Internet pública, entregando tanto ancho de banda como seguridad. El tráfico se segmenta por carga de trabajo: intercambios de parámetros sensibles a latencia viajan por los enlaces más rápidos, mientras que datos menos urgentes como puntos de control y registros usan carriles separados. Los ingenieros dicen que el arreglo extrae mayor utilización del mismo hardware porque los clusters pueden prestar capacidad entre sí en tiempo real en lugar de estar inactivos esperando trabajos locales.

Consideraciones ambientales

Más allá de las tácticas de ahorro de energía ya mencionadas, la planta de Georgia de Microsoft se beneficia de la expansión continua de Georgia de generación renovable. Aunque la empresa no ha revelado contratos de adquisición específicos, los ejecutivos citan la mezcla favorable del sitio de recursos solares y proyectos de baterías a escala de red cuando se discute la huella de carbono del campus. Mientras tanto, la decisión de retirar generadores diésel elimina una fuente importante de contaminación por partículas, una preocupación frecuente para comunidades que viven cerca de instalaciones de hipercala.

Ondulación económica local

El Atlanta Journal-Constitution informa que el campus de Fayetteville abarca varios cientos de acres y representa una de las inversiones de capital más grandes de una sola región en la memoria reciente. Si bien Microsoft no ha divulgado una cifra de conteo de cabezas final, los funcionarios del condado esperan cientos de empleos permanentes una vez que se completen todas las fases, que van desde ingenieros eléctricos hasta coordinadores de logística. El proyecto también atrajo un cluster de proveedores—empalmes de fibra, especialistas en HVAC y contratistas de seguridad—extendiendo el impacto en todo el metro Atlanta.

Dentro de la máquina: cómo es diferente

Los centros de datos en la nube tradicionales fueron construidos para cargas de trabajo multiinquilino que podrían tolerar varianza en latencia. Los clusters de entrenamiento de IA no pueden. Un único gradiente retrasado por decenas de microsegundos puede convertirse en cuello de botella para decenas de miles de GPU. La respuesta de Microsoft es planitud radical: en lugar de un árbol de switches hoja-columna, Fairwater se apoya en caminos uniformes donde cada salto se ve casi idéntico. Las decisiones de enrutamiento se distribuyen, la telemetría se transmite a alta frecuencia y la difusión de paquetes distribuye flujos en múltiples caminos para evitar puntos de congestión.

Desde el punto de vista del software, los desarrolladores ven un único pool gigante de computación, pero bajo el capó el planificador es consciente de localidad similar a NUMA. Los trabajos que requieren acoplamiento estrecho aterrizan en GPU dentro de la misma fila o edificio; tareas de inferencia menos comunicativas saltan la IA WAN sin penalización. La empresa argumenta que esta flexibilidad permite mejor utilización de recursos versus clusters más antiguos que bloqueaban GPU en particiones fijas.

Análisis y perspectivas

El debut de Fayetteville de Microsoft destaca qué tan rápidamente la economía y la física de la IA están remodelando el diseño de centros de datos. La opción de prescindir de generadores de respaldo y cabinets UPS habría sido impensable hace una década, sin embargo los avances en confiabilidad de la red y almacenamiento de batería la hicieron viable—y ahorraron meses en cronogramas de construcción. Asim

Fuentes

  • https://www.ajc.com/business/2025/11/microsofts-newest-ai-superfactory-opens-at-sprawling-fayetteville-campus/