NoticiasAWS

3 formas en que diseñamos la infraestructura de AWS para la IA generativa

6 min
Engineer working on server racks
Así es como estamos construyendo sobre nuestra infraestructura líder y creando nuevas innovaciones para habilitar la IA generativa.

La inteligencia artificial generativa (IA) ha transformado nuestro mundo aparentemente de la noche a la mañana. En pocos meses, se normalizó que individuos y empresas utilizaran la nueva tecnología para mejorar la toma de decisiones, transformar las experiencias de los clientes e impulsar la creatividad y la innovación. Pero la infraestructura subyacente que impulsa la IA generativa no se construyó en el día; de hecho, es el resultado de años de innovación.

Claude 3.5 Sonnet de Anthropic, la más reciente incorporación a la familia de modelos de IA Claude de última generación, es más inteligente y una quinta parte del precio de Claude 3 Opus.

La IA y el aprendizaje automático (ML) han sido un foco para Amazon durante más de 25 años. Muchas capacidades de Amazon que los clientes utilizan diariamente están impulsadas por ML, como recomendaciones de compras y decisiones de empaque. Dentro de Amazon Web Services (AWS), nos hemos centrado en llevar ese conocimiento y capacidad a nuestros clientes poniendo el ML en manos de cada desarrollador, científico de datos y profesional experto. La IA generativa es ahora un negocio con una tasa de ejecución de ingresos multimillonaria para AWS. Más de 100,000 clientes de todas las industrias, incluidas Adidas, la Bolsa de Nueva York, Pfizer, Ryanair y Toyota, utilizan los servicios de IA y ML de AWS para reinventar experiencias para sus clientes. Además, muchos de los principales modelos generativos de IA están capacitados y ejecutados en AWS.

Todo este trabajo se sustenta en la infraestructura global de AWS, incluidos nuestros centros de datos, red global y chips de IA personalizados. No existe un algoritmo de compresión para la experiencia, y dado que hemos estado construyendo centros de datos a gran escala durante más de 15 años y servidores basados en GPUs durante más de 12 años, tenemos una enorme huella existente de infraestructura de IA.

AWS continúa adaptando y mejorando nuestra sólida base de infraestructura a medida que el mundo cambia rápidamente y estamos ofreciendo nuevas innovaciones específicamente para la IA generativa. Estas son algunas formas clave en las que estamos innovando en nuestra infraestructura global líder para soportar IA generativa a escala.

Así es como estamos construyendo sobre nuestra infraestructura líder y creando nuevas innovaciones para habilitar la IA generativa.

La inteligencia artificial generativa (IA) ha transformado nuestro mundo aparentemente de la noche a la mañana. En pocos meses, se normalizó que individuos y empresas utilizaran la nueva tecnología para mejorar la toma de decisiones, transformar las experiencias de los clientes e impulsar la creatividad y la innovación. Pero la infraestructura subyacente que impulsa la IA generativa no se construyó en el día; de hecho, es el resultado de años de innovación.

Claude 3.5 Sonnet de Anthropic, la más reciente incorporación a la familia de modelos de IA Claude de última generación, es más inteligente y una quinta parte del precio de Claude 3 Opus.

La IA y el aprendizaje automático (ML) han sido un foco para Amazon durante más de 25 años. Muchas capacidades de Amazon que los clientes utilizan diariamente están impulsadas por ML, como recomendaciones de compras y decisiones de empaque. Dentro de Amazon Web Services (AWS), nos hemos centrado en llevar ese conocimiento y capacidad a nuestros clientes poniendo el ML en manos de cada desarrollador, científico de datos y profesional experto. La IA generativa es ahora un negocio con una tasa de ejecución de ingresos multimillonaria para AWS. Más de 100,000 clientes de todas las industrias, incluidas Adidas, la Bolsa de Nueva York, Pfizer, Ryanair y Toyota, utilizan los servicios de IA y ML de AWS para reinventar experiencias para sus clientes. Además, muchos de los principales modelos generativos de IA están capacitados y ejecutados en AWS.

Todo este trabajo se sustenta en la infraestructura global de AWS, incluidos nuestros centros de datos, red global y chips de IA personalizados. No existe un algoritmo de compresión para la experiencia, y dado que hemos estado construyendo centros de datos a gran escala durante más de 15 años y servidores basados en GPUs durante más de 12 años, tenemos una enorme huella existente de infraestructura de IA.

AWS continúa adaptando y mejorando nuestra sólida base de infraestructura a medida que el mundo cambia rápidamente y estamos ofreciendo nuevas innovaciones específicamente para la IA generativa. Estas son algunas formas clave en las que estamos innovando en nuestra infraestructura global líder para soportar IA generativa a escala.

  • 1.
    Ofrecer redes de baja latencia y gran escala

    Los modelos generativos de IA requieren grandes cantidades de datos para entrenarse y ejecutarse de manera eficiente. Cuanto más grande y complejo sea el modelo, mayor será la duración del entrenamiento. A medida que aumenta el tiempo de capacitación, no solo aumenta los costos operativos, sino que también ralentizan la innovación. Las redes tradicionales no son suficientes para la baja latencia y la gran escala necesarias para el entrenamiento generativo de modelos de IA.

    Desarrolladores, clientes y socios de negocios de todos los sectores y tamaños utilizan Amazon Q para transformar la forma en que sus empleados desempeñan sus labores.

    En AWS, trabajamos constantemente para reducir la latencia de la red y mejorar el performance de los clientes. Nuestro enfoque es único en el sentido de que hemos construido nuestros propios dispositivos de red y sistemas operativos de red para cada capa, desde la tarjeta de interfaz de red hasta el switch de la parte superior del rack, la red del centro de datos, el router orientado a Internet y nuestros routers troncal. Este enfoque no solo nos brinda un mayor control sobre la mejora de la seguridad, confiabilidad y performance para los clientes, sino que también nos permite movernos más rápido que otros para innovar. Por ejemplo, en 2019, presentamos Elastic Fabric Adapter (EFA), una interfaz de red creada a medida por AWS que proporciona capacidades de derivación del sistema operativo a instancias de Amazon EC2. Esto permite a los clientes ejecutar aplicaciones que requieren altos niveles de comunicaciones entre nodos a escala. EFA utiliza Scalable Reliable Datagram (SRD), un protocolo de transporte de red de baja latencia y alto performance diseñado específicamente por AWS para AWS.

    Hace poco, avanzamos rápidamente para ofrecer una nueva red para cargas de trabajo generativas de IA. Nuestra red UltraCluster de primera generación, construida en 2020, soportó 4000 GPU con una latencia de ocho microsegundos entre servidores. La nueva red, UltraCluster 2.0, soporta más de 20 000 GPU con una reducción de latencia del 25 %. Se construyó en solo siete meses; esta velocidad no habría sido posible sin inversiones a lo largo de los años en nuestros propios dispositivos de red y software personalizados. Internamente, llamamos UltraCluster 2.0 la red '10p10u', ya que entrega decenas de petabits por segundo de rendimiento, con un tiempo de ida y vuelta de menos de 10 microsegundos. La nueva red da como resultado una reducción de al menos 15 % en el tiempo para entrenar un modelo.

  • 2.
    Mejorar continuamente la eficiencia energética de nuestros data centers

    La capacitación y la ejecución de modelos de IA pueden consumir mucha energía, por lo que los esfuerzos de eficiencia son críticos. AWS se compromete a administrar nuestro negocio de manera eficiente para reducir nuestro impacto en el medio ambiente. Esto no solo es lo correcto para las comunidades y para nuestro planeta, sino que también ayuda a AWS a reducir costos, y luego podemos pasar esos ahorros de costos a nuestros clientes. Durante muchos años, nos hemos centrado en mejorar la eficiencia energética en toda nuestra infraestructura. Algunos ejemplos incluyen:

    • Optimizar la longevidad y el rendimiento del flujo de aire de los medios de enfriamiento en nuestros sistemas de enfriamiento del centro de datos.
    • Usar métodos de modelado avanzados para comprender cómo funcionará un centro de datos antes de construirlo y para optimizar la forma en que posicionamos los servidores en un rack y en el data hall de modo que podamos maximizar la utilización de energía.
    • Construir centros de datos para que sean menos intensivos en carbono, incluido el uso de concreto y acero con bajo contenido de carbono, y la transición a aceite vegetal hidrotratado para generadores de respaldo.

    Una nueva investigación de Accenture muestra que estos esfuerzos están dando sus frutos. La investigación estima que la infraestructura de AWS es hasta 4.1 veces más eficiente que en las instalaciones y, al optimizar en AWS, la huella de carbono de las cargas de trabajo asociadas se puede reducir hasta en un 99%. Pero no podemos detenernos ahí a medida que aumenta la demanda de energía.
    Los chips de IA realizan cálculos matemáticos a alta velocidad, lo que los hace críticos para los modelos ML. También generan mucho más calor que otros tipos de chips, por lo que los nuevos servidores de IA que requieren más de 1,000 vatios de potencia por chip necesitarán ser refrigerados por líquido. Sin embargo, algunos servicios de AWS utilizan infraestructura de red y almacenamiento de información que no requiere refrigeración líquida y, por lo tanto, enfriar esta infraestructura con líquido sería un uso ineficiente de la energía. El diseño más reciente del centro de datos de AWS integra a la perfección soluciones optimizadas de refrigeración por aire junto con capacidades de refrigeración líquida para los chipsets de IA más potentes, como los superchips NVIDIA Grace Blackwell. Este diseño de enfriamiento flexible y multimodal nos permite extraer el máximo rendimiento y eficiencia ya sea ejecutando cargas de trabajo tradicionales o modelos AI/ML. Nuestro equipo ha diseñado nuestros centros de datos, desde diseños de rack hasta distribución eléctrica y técnicas de enfriamiento, para que aumentemos continuamente la eficiencia energética, sin importar las demandas de cómputo.

  • 3.
    Seguridad desde cero

    Una de las preguntas más comunes sobre infraestructura que escuchamos de los clientes a medida que exploran la IA generativa es cómo proteger sus datos altamente confidenciales. En AWS, la seguridad es nuestra principal prioridad y está integrada en todo lo que hacemos. Nuestra infraestructura se monitorea las 24 horas del día, los 7 días de la semana, y cuando los datos salen de nuestros límites físicos y viajan entre nuestras ubicaciones de infraestructura, se encriptan en la capa de red subyacente. No todas las nubes se construyen de la misma manera, lo que se suma a la cantidad de empresas que trasladan su enfoque de IA a AWS.

    AWS está diseñado para ser la infraestructura de nube global más segura y confiable. Nuestro enfoque para asegurar la infraestructura de IA se basa en tres principios clave:

    1. Aislamiento completo de los datos de IA del operador de infraestructura, lo que significa que el operador de infraestructura no debe tener capacidad para acceder al contenido del cliente y los datos de IA, como pesos de modelos de IA y datos procesados con modelos;
    2. Capacidad para que los clientes aíslen los datos de IA de sí mismos, lo que significa que los datos permanecen inaccesibles para los propios usuarios y software de los clientes.
    3. Comunicaciones de infraestructura protegida, es decir, la comunicación entre dispositivos en el acelerador de ML la infraestructura debe estar protegido.
    Chris Betz, el CISO de AWS, explica cómo la seguridad está profundamente arraigada en la cultura de Amazon y comparte herramientas para ayudar a proteger a los clientes en la era de la IA generativa.

    En 2017, lanzamos AWS Nitro System, un diseño pionero de hardware y software especializados que protege el código y los datos de los clientes del acceso no autorizado durante el procesamiento. Nitro System cumple el primer principio de infraestructura segura de IA al aislar los datos de IA de los clientes de los operadores de AWS. El segundo principio se cumple con nuestra solución integrada entre AWS Nitro Enclaves y AWS Key Management Service (AWS KMS). Con Nitro Enclaves y AWS KMS, los clientes pueden encriptar sus datos confidenciales de IA utilizando claves que poseen y controlan, almacenar esos datos en una ubicación de su elección y transferir de manera segura los datos cifrados a un entorno informático aislado para su inferencia. A lo largo de todo este proceso, los datos confidenciales de IA se cifran y aíslan de sus propios usuarios y software en su instancia EC2, y los operadores de AWS no pueden acceder a estos datos. Anteriormente, Nitro Enclaves operaba únicamente en la CPU. Recientemente, dimos un paso más allá cuando anunciamos nuestros planes para ampliar este flujo cifrado extremo a extremo Nitro para incluir una integración de primera clase con aceleradores de ML y GPU, cumpliendo con el tercer principio.