SWE-1 de windsurf : Vibe Coding avec style

Le développement de logiciels est en train de subir une transformation rapide et profonde. Nous allons au-delà des outils d'IA qui se contentent d'aider à des tâches de codage isolées pour une nouvelle génération d'IA qui comprend et améliore l'ensemble du flux de travail de l'ingénierie logicielle. Windsurf, avec son lancement marquant : SWE-1, une famille de modèles d'IA méticuleusement optimisés non seulement pour le codage, mais pour le processus complet et multiforme de l'ingénierie logicielle, est à la tête de cette initiative. Avec l'objectif ambitieux d'"accélérer le développement de logiciels de 99 %", SWE-1, né d'idées uniques au sein de l'écosystème Windsurf, marque un moment charnière dans la quête d'une assistance au développement véritablement intelligente.

💡

Vous voulez un excellent outil de test d'API qui génère une belle documentation d'API ?

Vous voulez une plateforme intégrée, tout-en-un, pour que votre équipe de développeurs travaille ensemble avec une productivité maximale ?

Apidog répond à toutes vos demandes et remplace Postman à un prix beaucoup plus abordable !

button

Famille Windsurf SWE-1 : Modèles sur mesure pour divers besoins d'ingénierie

SWE-1 de Windsurf n'est pas une entité monolithique, mais une famille soigneusement sélectionnée de trois modèles distincts, chacun conçu pour répondre à des aspects spécifiques du flux de travail de l'ingénierie logicielle et répondre aux différents besoins des utilisateurs :

SWE-1

Le modèle phare, SWE-1, offre des capacités de raisonnement comparables à celles de Claude 3.5 Sonnet d'Anthropic, en particulier dans les scénarios d'appel d'outils, tout en étant plus rentable à servir. Démontrant l'engagement de Windsurf envers sa base d'utilisateurs, SWE-1 sera disponible pour tous les utilisateurs payants pendant une période promotionnelle sans coût de crédit par invite utilisateur, ce qui permettra un accès généralisé à ses capacités avancées.

SWE-1-lite

Conçu comme un remplacement supérieur au modèle Cascade Base existant de Windsurf, SWE-1-lite offre une qualité et des performances améliorées. Ce modèle plus petit, mais puissant, est disponible en utilisation illimitée pour tous les utilisateurs de Windsurf, qu'ils soient sur des niveaux gratuits ou payants, garantissant que les principaux avantages de la nouvelle architecture SWE sont accessibles à tous.

SWE-1-mini

SWE-1-mini, un modèle compact et extrêmement rapide, complète le trio. Son rôle principal est d'alimenter l'expérience prédictive passive au sein de Windsurf Tab. Comme SWE-1-lite, il est disponible en utilisation illimitée pour tous les utilisateurs, gratuits ou payants, offrant une assistance transparente et à faible latence directement dans l'environnement de codage.

Cette stratégie multi-modèles permet à Windsurf d'offrir des performances optimisées dans divers cas d'utilisation – de la résolution de problèmes complexes et interactifs avec SWE-1 aux suggestions rapides et passives avec SWE-1-mini.

Pourquoi "Capable de coder" ne suffit pas pour les IDE de codage IA

Le développement de SWE-1 a été motivé par une compréhension fondamentale : pour véritablement révolutionner le développement de logiciels, l'IA doit transcender la simple génération de code. Windsurf articule cette nécessité en examinant l'état actuel et les limites de l'IA dans le domaine.

Bien que les modèles compétents en codage se soient considérablement améliorés, devenant capables de tâches telles que la création d'applications simples en une seule fois, ils approchent d'un plateau. Windsurf identifie deux domaines critiques où ces modèles "capables de coder" ne suffisent pas :

L'étendue de l'ingénierie logicielle : Comme tout développeur le sait, écrire du code n'est qu'une pièce du puzzle. La réalité quotidienne implique une multitude de tâches sur diverses surfaces : travailler dans le terminal, accéder à des bases de connaissances externes et à Internet, tester rigoureusement les produits et comprendre les commentaires des utilisateurs. Un modèle axé uniquement sur l'écriture de code ne peut pas prendre en charge de manière adéquate cette charge de travail diversifiée.
La nature du travail de développement : L'ingénierie logicielle est une entreprise à long terme, progressant à travers une série d'états incomplets. Les meilleurs modèles fondamentaux d'aujourd'hui sont principalement formés sur le "travail tactique" – le code généré compile-t-il et réussit-il un test unitaire ? Cependant, un test unitaire réussi n'est qu'un point de contrôle dans un problème d'ingénierie beaucoup plus vaste. Le véritable défi réside dans la mise en œuvre de fonctionnalités de manière robuste et maintenable, qui peuvent être construites pendant des années. C'est pourquoi même les modèles avancés peuvent exceller avec une orientation utilisateur active (comme on le voit dans Cascade de Windsurf), mais ont du mal à fonctionner indépendamment sur de plus longues périodes. L'automatisation d'une plus grande partie du flux de travail nécessite des modèles capables de raisonner sur des états incomplets et de gérer des résultats potentiellement ambigus.

La conclusion de Windsurf est claire : "À un moment donné, simplement s'améliorer en codage ne vous rendra pas, ni un modèle, meilleur en ingénierie logicielle." Cette prise de conscience a conduit à la conviction que des modèles dédiés à l'"ingénierie logicielle" (SWE) étaient essentiels pour atteindre leurs ambitieux objectifs d'accélération.

Forger SWE-1 : Données, formation et ambition

La création de SWE-1 n'a pas été une entreprise du jour au lendemain. Elle a été méticuleusement construite sur des informations tirées de l'éditeur Windsurf, très utilisé par Windsurf, qui a fourni une riche compréhension des flux de travail réels des développeurs. Cette expérience pratique a été fondamentale pour développer :

Un modèle de données entièrement nouveau, appelé "chronologie partagée".
Une recette de formation spécialisée conçue pour englober les complexités de l'ingénierie logicielle, y compris les états incomplets, les tâches de longue durée et l'utilisation de plusieurs surfaces.

Avec ces éléments constitutifs, Windsurf s'est lancé dans le projet SWE-1 avec un objectif initial et ciblé : prouver qu'il était possible d'atteindre des performances de pointe avec cette nouvelle approche, même avec une équipe d'ingénieurs plus petite et moins de ressources informatiques que les grands laboratoires de recherche. SWE-1, dans sa forme actuelle, est la preuve de concept initiale et convaincante de cette vision.

Performances de SWE-1 : Benchmarks et impact réel

Windsurf a rigoureusement évalué les capacités de SWE-1 grâce à des évaluations hors ligne et à des expériences de production en aveugle, démontrant sa compétitivité et ses points forts uniques.

Évaluation hors ligne

Lors des tests hors ligne, SWE-1 a été comparé à la famille de modèles Anthropic Claude (populaire au sein de Cascade), ainsi qu'aux principaux modèles de codage à poids ouverts comme Deepseek et Qwen. Deux benchmarks clés ont été utilisés :

Benchmark de tâches SWE conversationnelles : Ce benchmark évalue les performances dans un scénario humain dans la boucle. En commençant au milieu d'une session Cascade existante avec une tâche à moitié terminée, il mesure la capacité de Cascade, alimenté par le modèle, à répondre à la requête suivante de l'utilisateur. Le score de 0 à 10 est une moyenne combinée des scores des juges humains (pour l'utilité, l'efficacité, l'exactitude) et des mesures de précision pour les modifications de fichiers cibles. Windsurf souligne que cela capture la "nature unique du codage agentique humain dans la boucle", crucial tant que les modèles restent imparfaits.
Benchmark de tâches SWE de bout en bout : Ce benchmark évalue la capacité du modèle à fonctionner indépendamment. En commençant par le début d'une conversation, il mesure la capacité de Cascade à répondre à une intention d'entrée en réussissant un ensemble sélectionné de tests unitaires. Le score de 0 à 10 combine les taux de réussite des tests et les scores des juges.

Les résultats de ces évaluations hors ligne indiquent que SWE-1 fonctionne dans le domaine des modèles de base de pointe des principaux laboratoires pour ces tâches spécifiques d'ingénierie logicielle. Il est important de noter qu'il démontre une supériorité par rapport aux modèles de taille moyenne et aux principales alternatives à poids ouverts. Sans prétendre être la frontière absolue, SWE-1 montre des promesses et une compétitivité significatives.

Expériences de production

En complément des évaluations hors ligne, Windsurf a mené des expériences de production en aveugle, en tirant parti de sa vaste communauté d'utilisateurs. Un pourcentage d'utilisateurs a accédé à différents modèles (y compris les modèles Claude comme référence) sans savoir lequel ils utilisaient, le modèle étant constant par utilisateur pour mesurer l'utilisation répétée. Les principales mesures comprenaient :

Lignes quotidiennes contribuées par utilisateur : Cela mesure le nombre moyen de lignes écrites par Cascade et activement acceptées et conservées par l'utilisateur sur une période donnée. Il reflète l'utilité globale, englobant la qualité des contributions et la volonté de l'utilisateur de s'engager à plusieurs reprises avec le modèle. Des facteurs tels que la proactivité, la qualité des suggestions, la vitesse et la réactivité aux commentaires contribuent à cette mesure.
Taux de contribution de Cascade : Pour les fichiers modifiés au moins une fois par Cascade, cette mesure calcule le pourcentage de modifications apportées à ces fichiers qui proviennent de Cascade. Il mesure l'utilité tout en normalisant la fréquence d'engagement de l'utilisateur et la propension du modèle à contribuer au code.

Windsurf note que SWE-1 est "construit et surajusté aux types d'interactions que nos utilisateurs ont avec Cascade". Sans surprise, il semble être proche du leader de l'industrie dans ces expériences de production, soulignant son efficacité dans l'environnement réel de Windsurf.

La même approche rigoureuse confirme que SWE-1-lite, construit avec la même méthodologie de formation, devance les autres modèles de taille moyenne non frontaliers et remplacera Cascade Base. SWE-1-mini, partageant également les principes de formation de base, est optimisé pour les exigences de latence de la prédiction passive.

Le moteur : le système conscient du flux de Windsurf

Une pierre angulaire du développement et du potentiel futur de SWE-1 est le "système conscient du flux" de Windsurf. Ce système, profondément intégré dans l'éditeur Windsurf, a fourni les informations cruciales qui ont permis à SWE-1 et qui sous-tendent la confiance de Windsurf dans sa supériorité à long terme du modèle.

Définir la conscience du flux

La conscience du flux fait référence à l'imbrication transparente des états de l'utilisateur et de l'IA. Elle est basée sur le principe d'une "chronologie partagée" : tout ce que l'IA fait doit être observable et exploitable par l'humain, et inversement, tout ce que l'humain fait doit être observable et exploitable par l'IA. Windsurf a toujours qualifié son expérience agentique collaborative de "flux d'IA" précisément en raison de cette conscience mutuelle et profonde.

Le rôle essentiel de la conscience du flux

Windsurf pose qu'il faudra un certain temps avant qu'un modèle SWE puisse réellement fonctionner en toute indépendance. Pendant cette période intermédiaire, la conscience du flux est essentielle. Elle permet un modèle d'interaction naturel et efficace : l'IA tente des tâches, et lorsqu'elle commet des erreurs ou a besoin d'aide, l'humain peut intervenir de manière transparente pour corriger le tir. Le modèle continue ensuite, en s'appuyant sur les contributions de l'humain.

Cette relation symbiotique signifie que Windsurf peut constamment évaluer les véritables limites de ses modèles en observant quelles étapes sont terminées avec et sans l'intervention de l'utilisateur au sein de cette chronologie partagée. Cela fournit, à grande échelle, une connaissance exacte de ce que les utilisateurs doivent améliorer ensuite, créant une puissante boucle de rétroaction pour le développement rapide du modèle.

La conscience du flux en action

Le concept de la chronologie partagée a été la vision directrice de nombreuses fonctionnalités majeures de l'écosystème Windsurf :

Cascade :

Dès son lancement, Cascade a permis aux utilisateurs d'effectuer des modifications dans leur éditeur de texte, puis de taper "continuer", Cascade intégrant automatiquement ces modifications (conscience de l'éditeur de texte).
Les sorties du terminal ont été intégrées, ce qui a permis à Cascade d'être conscient des erreurs rencontrées lors de l'exécution du code (conscience du terminal).
La vague 4 a introduit des "Aperçus", donnant à Cascade une compréhension de base des composants frontaux ou des erreurs avec lesquels l'utilisateur interagit (conscience du navigateur).

Tab :

Windsurf Tab est également basé sur cette chronologie partagée. Son contexte n'est pas simplement étendu de manière arbitraire ; c'est une construction soignée reflétant les actions et les objectifs de l'utilisateur.
La vague 5 a apporté la conscience des commandes du terminal, du contenu du presse-papiers et de la conversation Cascade en cours à Tab.
La vague 6 a ajouté la conscience des recherches utilisateur dans l'IDE.

Windsurf souligne qu'il ne s'agit pas de "fonctionnalités aléatoires", mais d'un effort délibéré et continu pour construire la représentation la plus riche possible d'une chronologie partagée pour le travail d'ingénierie logicielle. Bien que cette chronologie enrichie ait considérablement amélioré les outils Windsurf, même avec des modèles prêts à l'emploi, l'avènement de leurs propres modèles SWE leur permet de "vraiment lancer ce volant en ayant des modèles qui peuvent ingérer la chronologie et commencer à agir sur de plus en plus de la chronologie".

La voie à suivre : au-delà de SWE-1

SWE-1, réalisé par une "petite équipe mais incroyablement concentrée", n'est qu'un début. Windsurf le considère comme sa première tentative sérieuse de construire des modèles de qualité véritablement de pointe, en tirant parti de leur "volant d'applications, de systèmes et de modèles" unique – un écosystème dont même les laboratoires de modèles de base pourraient manquer sans la surface d'application de Windsurf et l'échelle d'informations dérivées de l'activité.

Les utilisateurs peuvent s'attendre à des améliorations continues de la famille SWE. Windsurf s'engage à investir encore plus massivement dans cette stratégie, dans le but d'offrir les meilleures performances au coût le plus bas. Leur ambition ultime dans le domaine de l'ingénierie logicielle n'est pas simplement d'égaler les performances des modèles de pointe de tout laboratoire de recherche, mais de "les dépasser tous".

Bien que l'annonce détaillée de Windsurf se concentre sur sa stratégie et ses réalisations internes, le secteur technologique au sens large a également noté ses progrès, avec des rapports (comme celui de VentureBeat concernant une acquisition potentielle par OpenAI) soulignant l'impact et le potentiel importants de Windsurf.

Cette plongée en profondeur dans SWE-1 révèle une entreprise qui ne se contente pas de créer des outils d'IA, mais qui repense fondamentalement la relation entre les développeurs et l'IA, ouvrant la voie à un avenir où l'ingénierie logicielle est considérablement accélérée et améliorée.