OpenAI ha lanzado una actualización significativa en su Agents SDK, que ahora incluye la ejecución en sandbox, permitiendo a los equipos de gobernanza de las empresas implementar flujos de trabajo automatizados con riesgos controlados. Esta nueva funcionalidad aborda los desafíos que enfrentan los equipos al llevar los sistemas de un prototipo a la producción, donde a menudo deben hacer compromisos arquitectónicos difíciles sobre el lugar de operación.

Las estructuras de trabajo iniciales, que utilizaban marcos independientes del modelo, ofrecían cierta flexibilidad, pero no lograban aprovechar completamente las capacidades de los modelos más avanzados. Por otro lado, los SDK de los proveedores de modelos, aunque estaban más alineados con el modelo subyacente, a menudo carecían de la visibilidad necesaria sobre el control de la ejecución. Además, las APIs de agentes gestionados simplificaban el proceso de implementación, pero limitaban drásticamente dónde podían operar los sistemas y cómo accedían a datos corporativos sensibles.

Para superar estas limitaciones, OpenAI ha introducido capacidades mejoradas en su Agents SDK, brindando a los desarrolladores una infraestructura estandarizada que incluye un harness nativo del modelo y ejecución en sandbox. Esta infraestructura actualizada alinea la ejecución con el patrón operativo natural de los modelos subyacentes, lo que mejora la fiabilidad cuando las tareas requieren coordinación entre sistemas diversos.

Un ejemplo de esta eficiencia se observa en Oscar Health, un proveedor de atención médica que utilizó la nueva infraestructura para automatizar un flujo de trabajo de registros clínicos que los enfoques anteriores no podían manejar de manera confiable. El equipo de ingeniería necesitaba que el sistema automatizado extrajera los metadatos correctos mientras comprendía adecuadamente los límites de los encuentros de los pacientes dentro de archivos médicos complejos. Al automatizar este proceso, el proveedor pudo analizar las historias clínicas de los pacientes más rápidamente, lo que aceleró la coordinación de la atención y mejoró la experiencia general de los miembros.

Rachael Burns, ingeniera principal y líder técnica de IA en Oscar Health, afirmó: "El Agents SDK actualizado nos permitió automatizar un flujo de trabajo crítico de registros clínicos que los enfoques anteriores no podían manejar con la fiabilidad necesaria. Para nosotros, la diferencia no fue solo extraer los metadatos correctos, sino comprender adecuadamente los límites de cada encuentro en registros largos y complejos. Como resultado, podemos entender más rápidamente qué está sucediendo con cada paciente en una visita determinada, ayudando a los miembros con sus necesidades de atención y mejorando su experiencia con nosotros."

OpenAI optimiza los flujos de trabajo de IA con un harness nativo del modelo. Para implementar estos sistemas, los ingenieros deben gestionar la sincronización de bases de datos vectoriales, controlar los riesgos de alucinación y optimizar los ciclos de computación costosos. Sin marcos estándar, los equipos internos a menudo recurren a construir conectores personalizados frágiles para gestionar estos flujos de trabajo. El nuevo harness nativo del modelo ayuda a aliviar esta fricción al introducir memoria configurable, orquestación consciente del sandbox y herramientas de sistema de archivos similares a Codex.

Los desarrolladores pueden integrar primitivas estandarizadas como el uso de herramientas a través de MCP, instrucciones personalizadas mediante AGENTS.md y ediciones de archivos utilizando la herramienta apply patch. La divulgación progresiva a través de habilidades y ejecución de código usando la herramienta shell también permite al sistema realizar tareas complejas secuencialmente. Esta estandarización permite que los equipos de ingeniería dediquen menos tiempo a actualizar la infraestructura central y se enfoquen en construir lógica específica del dominio que beneficie directamente al negocio.

La integración de un programa autónomo en un stack tecnológico heredado requiere un enrutamiento preciso. Cuando un proceso autónomo accede a datos no estructurados, depende en gran medida de sistemas de recuperación para obtener el contexto relevante. Para gestionar la integración de arquitecturas diversas y limitar el alcance operativo, el SDK introduce una abstracción de Manifest. Esta abstracción estandariza cómo los desarrolladores describen el espacio de trabajo, permitiéndoles montar archivos locales y definir directorios de salida.

Las empresas pueden conectar estos entornos directamente a principales proveedores de almacenamiento empresarial, como AWS S3, Azure Blob Storage, Google Cloud Storage y Cloudflare R2. Establecer un espacio de trabajo predecible proporciona al modelo parámetros exactos sobre dónde localizar entradas, escribir salidas y mantener la organización durante ejecuciones operativas prolongadas. Esta previsibilidad evita que el sistema consulte lagos de datos no filtrados, restringiéndolo a ventanas de contexto específicas y validadas. Los equipos de gobernanza de datos pueden rastrear la procedencia de cada decisión automatizada con mayor precisión, desde las fases de prototipo local hasta la implementación en producción.

Mejorando la seguridad con la ejecución nativa en sandbox, el SDK admite esta funcionalidad de forma nativa, ofreciendo una capa lista para usar para que los programas se ejecuten dentro de entornos informáticos controlados que contienen los archivos y dependencias necesarios. Los equipos de ingeniería ya no necesitan ensamblar manualmente esta capa de ejecución. Pueden implementar sus propios sandboxes personalizados o utilizar el soporte integrado para proveedores como Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop y Vercel.

La mitigación de riesgos sigue siendo la principal preocupación para cualquier empresa que implemente la ejecución de código autónomo. Los equipos de seguridad deben asumir que cualquier sistema que lea datos externos o ejecute código generado enfrentará ataques de inyección de comandos y intentos de exfiltración. OpenAI aborda este requisito de seguridad separando el harness de control de la capa de computación. Esta separación aísla las credenciales, manteniéndolas completamente fuera de los entornos donde se ejecuta el código generado por el modelo. Al aislar la capa de ejecución, un comando malicioso inyectado no puede acceder al plano de control central ni robar claves API primarias, protegiendo la red corporativa más amplia de ataques de movimiento lateral.

Esta separación también aborda los problemas de costo de computación relacionados con fallas del sistema. Las tareas de larga duración a menudo fallan a mitad de camino debido a tiempos de espera de red, caídas de contenedores o límites de API. Si un agente complejo requiere veinte pasos para compilar un informe financiero y falla en el paso diecinueve, volver a ejecutar toda la secuencia consume recursos informáticos costosos. Si el entorno falla bajo la nueva arquitectura, perder el contenedor del sandbox no significa perder toda la ejecución operativa. Dado que el estado del sistema permanece externalizado, el SDK utiliza instantáneas y rehidratación integradas. La infraestructura puede restaurar el estado dentro de un nuevo contenedor y reanudar exactamente desde el último punto de control si el entorno original expira o falla.