Un estudio del MIT revela que los asistentes de codificación basados en inteligencia artificial, a pesar de su creciente popularidad entre desarrolladores, aún no pueden igualar el razonamiento estratégico, la planificación a largo plazo y las habilidades colaborativas necesarias en proyectos reales de ingeniería de software.

Investigadores del Computer Science and Artificial Intelligence Laboratory (CSAIL) del Instituto Tecnológico de Massachusetts, en colaboración con Stanford, UC Berkeley y Cornell, probaron modelos de lenguaje de gran tamaño (LLM) en decenas de tareas de programación. El equipo descubrió que aunque sistemas como GitHub Copilot o herramientas generativas similares pueden producir fragmentos de código sintácticamente correctos en cuestión de segundos, se tambalean cuando se les pide diseñar, ampliar o mantener bases de código complejas que evolucionan durante meses o años.

Los hallazgos llegan en un momento crucial. Las encuestas muestran que en 2025, cuatro de cada cinco desarrolladores planean depender de asistentes de IA cada semana, y casi el 60 por ciento ya utiliza tres o más herramientas automatizadas en su trabajo diario. La conclusión principal: las ganancias de productividad son reales, pero la tecnología aún carece de la comprensión matizada, la supervisión arquitectónica y la memoria que los ingenieros humanos aportan a proyectos a gran escala.

Alex Gu, candidato a doctorado en el MIT que dirigió el estudio, explicó en una entrevista que la brecha se centra en la «planificación de código a largo plazo». Más allá de simplemente rellenar código repetitivo, señaló Gu, los equipos de ingeniería deben sopesar compensaciones: rendimiento, consumo de memoria, capacidad de prueba y legibilidad, antes de comprometerse con un diseño. «Los modelos actuales son motores de autocompletado impresionantes», observó, «pero aún no interiorizan las implicaciones más amplias de una sola línea cambiada en lo profundo de una biblioteca compartida».

El estudio constituye uno de los exámenes más sistemáticos hasta la fecha sobre cómo funcionan las herramientas de codificación de IA fuera de problemas de referencia bien definidos. Al probar modelos en escenarios que se asemejan al desarrollo profesional—mantener sistemas heredados, escribir en lenguajes con pocos recursos, colaborar entre ramas de características—los investigadores sacaron a la luz una serie de deficiencias que los conjuntos de datos de pruebas unitarias rutinarias rara vez capturan. Su conclusión desafía una creencia muy extendida de que la IA generativa pronto automatizará la mayor parte de la creación de software; en cambio, sugiere un futuro en el que humanos y máquinas colaboren, con los humanos aún dirigiendo decisiones arquitectónicas.

Hallazgos clave: qué la IA puede y no puede hacer

  • Puntos ciegos contextuales. Los LLM a menudo generan código que «funciona» de forma aislada pero se rompe cuando se integra en sistemas más grandes porque el modelo no tiene memoria persistente de decisiones de diseño anteriores.

  • Dificultad para generalizar. Cuando se les pide escribir en lenguajes especializados o propietarios, especialmente aquellos no bien representados en repositorios públicos, los modelos recurren a suposiciones que compilan pero no siguen convenciones de dominio.

  • Memoria arquitectónica limitada. Sin un mecanismo para rastrear módulos en evolución o refactorizaciones, las sugerencias de IA frecuentemente reintroducen funciones obsoletas o patrones ineficientes.

El equipo también revisó los puntos de referencia prevalentes, muchos de los cuales encargan a los modelos escribir algunas líneas que satisfagan pruebas predefinidas. Según el informe, tales evaluaciones premian la corrección a corto plazo en lugar de la resolución de problemas iterativa y colaborativa que domina la ingeniería profesional. «Si evaluamos la IA solo en problemas simplificados, corremos el riesgo de sobrestimar su disposición para código en producción», advirtió Gu.

Ejemplos del mundo real

Un escenario implicaba pedir a un LLM que ampliara un paquete de computación científica de una década de antigüedad escrito en Fortran y C. El modelo generó código sintácticamente válido, pero ignoró convenciones heredadas de gestión de memoria, causando regresiones sutiles de rendimiento. En otra prueba, los investigadores solicitaron a la IA que propusiera un diseño de API para un nuevo lenguaje de programación. El modelo entregó una lista de funciones plausible, pero pasó por alto la compatibilidad multiplataforma y no documentó comportamientos de casos extremos, detalles fundamentales para la adopción por parte de desarrolladores.

Los autores del estudio evaluaron el rendimiento del modelo en tres dominios amplios:

  1. Sistemas heredados que carecen de documentación exhaustiva.
  2. Cadenas de herramientas internas personalizadas para una única empresa.
  3. Entornos de computación científica donde la precisión y reproducibilidad son primordiales.

En todos ellos, las sugerencias de IA fueron menos confiables que en proyectos de código abierto convencionales y bien documentados.

La colaboración sigue siendo esquiva

El desarrollo moderno de software es social: revisiones de código, reuniones de diseño, bucles de retroalimentación asincrónica. Los LLM actuales pueden redactar comentarios o resumir solicitudes de extracción, pero no pueden negociar prioridades competitivas de partes interesadas ni rastrear requisitos en evolución durante múltiples ciclos. «La ingeniería verdadera no es una actividad solitaria», señala el informe. «La IA hoy contribuye fragmentos, pero aún no puede funcionar como un compañero responsable».

Los investigadores identificaron nichos donde los modelos generativos agregan valor inmediato. La educación ocupó el primer lugar: la IA puede generar problemas de práctica, calificar respuestas cortas e identificar conceptos erróneos, tareas con entradas y salidas claramente definidas. La generación de documentación y el andamiaje automatizado de casos de prueba también obtuvieron buenos resultados, siempre que un humano valide los resultados.

Una perspectiva optimista, con límites

A pesar de catalogar deficiencias, los autores mantienen una actitud positiva sobre el futuro papel de la IA. Recomiendan:

  • Crear puntos de referencia expansivos que reflejen ciclos de vida de software completos.
  • Enfocar la investigación en arquitecturas de memoria persistente, permitiendo a los modelos rastrear la evolución de proyectos a largo plazo.
  • Diseñar flujos de trabajo donde la IA amplíe el juicio humano en lugar de reemplazarlo.

Gu enfatizó que el progreso incremental está ocurriendo rápidamente. «Hemos pasado de autocompletado a refactorización de código ligera en apenas un par de años», señaló. La próxima frontera, en su opinión, es integrar razonamiento simbólico con redes neuronales a gran escala para que los modelos puedan tanto predecir sintaxis como planear diseños a nivel de sistema.

Confirmación independiente

Los resultados del MIT se alinean con reportajes anteriores de IBM Think Blog, que señalaron a finales de 2025 que la IA «no alcanza el razonamiento sofisticado y la colaboración que demanda la ingeniería del mundo real» a pesar de sobresalir en generación de código repetitivo análisis de IBM. Las conclusiones paralelas de la industria y la academia agregan peso al argumento de que la verdadera automatización de software de extremo a extremo sigue siendo un desafío de varios años.

Reacción de desarrolladores

Los foros en línea se iluminaron después de que el preimpreso del estudio circuló. Algunos ingenieros dijeron que los hallazgos reflejaban su experiencia anecdótica: las herramientas de IA aceleran tareas repetitivas pero a veces introducen errores sutiles que tardan más en diagnosticarse que escribir código desde cero. Otros argumentaron que, incluso con imperfecciones, los LLM sirven como «patos de goma» poderosos, permitiendo prototipado rápido y exploración de ideas. La mayoría coincidió en que los equipos necesitan directrices: cuándo aceptar sugerencias de máquinas directamente y cuándo escrutarlas línea por línea.

Implicaciones del mercado

La inversión en startups de codificación con IA se ha disparado, con financiación de capital de riesgo superando varios miles de millones de dólares en los últimos dos años. Los analistas dicen que la nueva investigación puede impulsar a los proveedores a girar hacia características colaborativas: integraciones de IDE más estrechas, recopilación automática de contexto y bucles de retroalimentación en tiempo real que incluyan supervisión humana. Las empresas que adopten herramientas de IA probablemente las emparejarán con compuertas de revisión rigurosas, haciendo eco de la llamada del estudio a «flujos de trabajo colaborativos humano-IA».

Limitaciones del estudio

Los autores reconocen que los modelos continúan mejorando con ventanas de contexto más amplias y ajuste fino. Sus experimentos representan una instantánea de capacidades en un momento específico. También reconocen que algunas debilidades, como el manejo de código heredado, afectan también a programadores humanos junior. Sin embargo, argumentan que la diferencia cualitativa radica en la capacidad de un humano para hacer preguntas aclaratorias, consultar expertos de dominio y razonar sobre objetivos de diseño abstractos, talentos que las máquinas aún no exhiben.

Un camino cauteloso hacia adelante

El informe concluye instando a los profesionales a tratar la IA como un asistente, no como un ingeniero. Sus recomendaciones incluyen: documentar el código generado por modelo tan claramente como las secciones escritas por humanos, someter los resultados de IA a los mismos estándares de prueba y mantener líneas claras de responsabilidad. «Cuando un error escapa a producción», observó Gu, «al cliente no le importa si una persona o un modelo escribió la línea ofensiva».

Análisis y perspectiva

El estudio subraya una verdad más amplia sobre la adopción de IA: las tecnologías se escalan de manera desigual según las tareas. El reconocimiento de imágenes pasó de proyectos aficionados a producción dentro de cinco años, pero la conducción autónoma sigue siendo elusiva décadas después de demos tempranas. La ingeniería de software, con su mezcla de lógica, comunicación y restricciones en evolución, se asemeja más a la última que a la primera. Los avances incrementales—recuperación consciente del contexto, módulos de memoria, sistemas simbólicos híbridos—empujarán la IA más profundamente en el flujo de trabajo de codificación. Pero como demuestra esta investigación, el dominio de la sintaxis y la semántica no equivale al dominio del pensamiento de diseño. Para el futuro previsible, los humanos establecerán el plano, y las máquinas llenarán el andamiaje.

Fuentes

  • https://www.ibm.com/think/news/ai-write-code-can-beat-software-engineers