Copilot_Studio_mit_Computer-Using_Agents_und_Voice-Agenten_20260601_2223

von | Juni 1, 2026 | CB-M365, Consulting Briefing | 0 Kommentare

Copilot Studio mit Computer-Using Agents und Voice-Agenten

Vom Chatbot zur Agentenplattform – was das Mai-Release von Copilot Studio für Entscheider bedeutet

KI & COPILOT

Copilot Studio mit Computer-Using Agents und Voice-Agenten

Consulting Briefing · 02.06.2026 · boddenberg.de

 

Executive Summary

Kurz gesagt: Copilot Studio hat im Mai-Release einen ordentlichen Satz nach vorne gemacht. Die Computer-Using Agents — also Agenten, die stellvertretend für dich durch Web- und Desktop-Oberflächen klicken, tippen und Buttons drücken — sind seit dem 28. Mai 2026 allgemein verfügbar (GA) und werden auf alle kommerziellen Geographien ausgerollt. Parallel sind die Echtzeit-Voice-Agenten in Nordamerika über das Dynamics 365 Contact Center GA gegangen. Dazu kommen eine komplett neue Workflows-Experience, eine erweiterbare Work-IQ-Schicht und ein Orchestrierungs-Layer, der laut Microsoft rund 20 Prozent bessere Ergebnisse bei halbiertem Token-Verbrauch liefert.

Für dich als Entscheider heißt das: Die Bausteine, um Service- und Vertriebsprozesse wirklich End-to-End zu automatisieren, liegen jetzt fertig im Regal. Die gute Nachricht ist, dass du keine Spezialhardware und kein PhD-Team brauchst. Die unbequeme Nachricht ist, dass ein Agent, der eigenständig in Fremdsystemen klickt und am Telefon mit echten Kunden spricht, ein Governance-Thema ist und kein Spielzeug. Wer das ohne Leitplanken in Produktion schiebt, automatisiert im Zweifel seine Fehler einfach schneller.

[*] Das Wichtigste in einem Satz

Computer-Using Agents (GA, alle Regionen) und Echtzeit-Voice-Agenten (GA, nur Nordamerika) machen Copilot Studio vom Chatbot-Baukasten zur Plattform für handelnde Agenten — lies vor dem Produktivgang den neuen Voice-Agent-Governance-Guide.

 

Abb. 1: Die vier Bausteine — Computer-Using Agents, Voice-Agenten, Workflows und Work IQ — hängen am selben Orchestrator.

 

Worum geht es im Detail?

Fangen wir mit dem Star der Veranstaltung an: den Computer-Using Agents, kurz CUA. Die Idee ist herrlich simpel und gleichzeitig ein bisschen gruselig. Statt sauber dokumentierte APIs anzusprechen, bedient ein CUA die Anwendung genau so, wie ein Mensch es tun würde — er sieht die Benutzeroberfläche, erkennt Felder und Buttons und interagiert direkt damit. Das löst endlich das Uralt-Problem der Automatisierung: jene Altsysteme, die keine Schnittstelle haben, aber trotzdem zwingend gepflegt werden müssen. Du kennst sie — die grüne Maske aus 1998, an der die halbe Buchhaltung hängt und für die es nie eine API geben wird.

Mit der GA hat Microsoft drei Enterprise-Themen nachgelegt, die in der Preview noch gefehlt haben. Erstens ein sicheres Credential-Management, damit der Agent sich anmelden kann, ohne dass Passwörter im Klartext durch die Gegend fliegen. Zweitens eine Modellauswahl, sodass du für schnelle, einfache Klickstrecken ein anderes Modell nutzen kannst als für komplexes Reasoning. Und drittens — der eigentliche Reifegrad-Beweis — resiliente Automationen, die sich an Änderungen der Oberfläche anpassen. Genau hier sind klassische UI-Automatisierungen früher reihenweise gestorben: Ein Entwickler schiebt einen Button zwei Pixel nach rechts, und das ganze Skript fällt um wie ein Kartenhaus.

Der zweite große Block sind die Echtzeit-Voice-Agenten. Die sind auf niedrige Latenz, Unterbrechbarkeit und echte Speech-to-Speech-Konversation mit Reasoning in Echtzeit optimiert. Im Klartext: Du kannst dem Agenten ins Wort fallen, so wie du es bei einem Menschen auch tust, und er kommt damit klar. Er identifiziert den Anrufer, beantwortet Fragen, führt mitten im Gespräch Aktionen aus — liest oder ändert also Daten — und übergibt sauber an einen menschlichen Mitarbeiter, wenn es eng wird. Der Kontext wandert dabei automatisch mit. Das ist der Punkt, an dem Kunden normalerweise ausrasten: dass sie ihre Kundennummer zum dritten Mal vorlesen müssen. Genau das fällt weg. Verfügbar ist das Ganze zunächst in Nordamerika über das Dynamics 365 Contact Center; weitere Sprachen, Regionen und Kanäle wie Teams Phone sind angekündigt.

Abb. 2: Der Voice-Agent führt vom Anruf bis zur Aktion — und eskaliert mit vollem Kontext an den Menschen.

 

Drittens die neue Workflows-Experience: ein neu gestalteter visueller Designer, der agentische Automatisierung auf einem einheitlichen Canvas zusammenbringt. Das Highlight sind die Agent-Knoten — du ziehst einen bestehenden Agenten als Schritt direkt in den Workflow. Dort, wo ein Prozess über starre Wenn-Dann-Regeln hinaus Reasoning, Werkzeuge oder Wissen aus mehreren Quellen braucht, übernimmt der Agent. Spannend für die Praxis: Auch Computer-Using Agents lassen sich als Schritt in solche Multi-Step-Workflows einbetten (noch Preview).

Und viertens Work IQ als Erweiterbarkeitsschicht: eine neue REST-API samt CLI (Public Preview), Unterstützung für entfernte MCP-Server und Agent-to-Agent-Kommunikation (A2A), die jetzt GA ist. A2A bedeutet, dass Agenten Aufgaben aneinander delegieren und sich koordinieren können — der Anfang von dem, was Microsoft gern als Multi-Agenten-System verkauft. Unter der Haube sorgt ein neuer Orchestrierungs-Layer (Early Release) für rund 20 Prozent bessere Evaluationsergebnisse bei etwa halbiertem Netto-Token-Verbrauch — besser und billiger zugleich, was selten genug vorkommt.

Ein technisches Detail, das gern übersehen wird, aber praktisch viel ausmacht: Bei den Voice-Agenten kommt jetzt eine Server-zu-Server-Anbindung (S2S) hinzu. Das klingt nach Kleingedrucktem, ist aber der Unterschied zwischen 'nettes Demo' und 'läuft im Callcenter mit hundert parallelen Leitungen'. S2S heißt, dass die Sprachverarbeitung nicht am Endgerät klebt, sondern serverseitig orchestriert wird — das ist die Voraussetzung dafür, dass du den Agenten in eine bestehende Telefonie-Infrastruktur einklinkst, statt eine Insellösung danebenzustellen. Wer schon einmal eine Telefonanlage migriert hat, weiß, dass genau an dieser Stelle Projekte sterben.

Der rote Faden hinter allen vier Bausteinen ist eine stille, aber fundamentale Verschiebung: weg vom Chatbot, der nur antwortet, hin zum Agenten, der handelt. Ein Chatbot sagt dir, wo das Formular liegt. Ein Agent füllt es aus, reicht es ein und meldet dir, dass es durch ist. Genau deshalb sind Themen wie Credential-Management, Berechtigungen und Eskalation auf einmal nicht mehr Kür, sondern Pflicht — ein System, das handelt, kann eben auch Schaden anrichten, und zwar im Takt der Maschine statt im Takt des Menschen.

Abb. 3: Reifegrad-Matrix — was wirklich produktionsreif ist und was du noch als Preview behandeln solltest.

 

Was sind Chancen? Was sind Risiken?

Die Chancen liegen auf der Hand und sind größer, als es auf den ersten Blick wirkt. Computer-Using Agents brechen das letzte große Automatisierungs-Tabu: Prozesse über Systeme hinweg, die keine Schnittstelle haben. Jeder, der schon mal versucht hat, ein Lieferantenportal ohne API anzubinden, weiß, was das wert ist. Voice-Agenten wiederum nehmen dem First-Level-Support genau die monotonen 80 Prozent ab — Statusabfragen, Terminverschiebungen, Standardauskünfte — und lassen den Menschen für die kniffligen 20 Prozent übrig, bei denen es wirklich auf Urteilsvermögen ankommt.

Microsoft betont gern, dass über 80 Prozent der Fortune-500-Unternehmen bereits aktive Agenten mit den Low-Code-Werkzeugen gebaut haben. Das ist Marketing, aber es ist auch ein Signal: Die Plattform ist kein Experiment mehr. Wer hier wartet, wartet nicht auf Reife, sondern verschenkt Vorsprung.

Der eigentliche Hebel liegt aber nicht in der Einzelautomatisierung, sondern in der Verkettung. Mit Agent-Knoten in Workflows und A2A-Kommunikation kannst du einen Voice-Agenten am Telefon einen Computer-Using Agenten anstoßen lassen, der im Hintergrund das Altsystem pflegt, während ein dritter Agent die Rückmeldung formuliert. Das ist der Moment, in dem aus Spielerei ein Geschäftsprozess wird. Genau dort lauert allerdings auch das größte Risiko: Drei verkettete Agenten, von denen jeder gelegentlich danebenliegt, multiplizieren ihre Fehlerquoten nicht, sie potenzieren sie. Ein kleiner Irrtum am Anfang der Kette wird am Ende zum handfesten Problem — und niemand hat hingesehen.

[!] Das Risiko, das gern unterschätzt wird

Ein Computer-Using Agent hat dieselben Rechte wie der Benutzer, in dessen Namen er klickt. Vergibst du ihm ein Konto mit zu vielen Berechtigungen, hast du einen unermüdlichen Praktikanten mit Admin-Rechten gebaut, der nie nachfragt und nie müde wird. Das ist genau dann ein Problem, wenn er etwas falsch verstanden hat.

 

Die Risiken sind real und teilen sich in drei Lager. Erstens Berechtigungen: Ein Agent, der durch fremde Oberflächen klickt, agiert mit echten Rechten in echten Systemen. Das Prinzip der geringsten Rechte ist hier kein Compliance-Geschwurbel, sondern Selbstschutz. Zweitens das Halluzinations- und Fehlinterpretationsrisiko: Ein Agent, der ein Feld falsch deutet, kann in Sekunden Datensätze verbiegen, für die ein Mensch Stunden gebraucht hätte. Drittens — und das ist beim Voice-Agenten besonders heikel — regulatorische Fragen: Aufzeichnung, Einwilligung, Datenschutz, und die schlichte Pflicht, dem Anrufer zu sagen, dass er gerade mit einer Maschine spricht.

Ein konkretes Beispiel aus der Praxis: Ein Versicherer hatte einen CUA gebaut, der Schadensmeldungen aus einem alten Portal in das CRM übertrug. Lief wochenlang tadellos. Dann änderte der Portalbetreiber ein Datumsformat von TT.MM.JJJJ auf MM/TT/JJJJ. Der Agent klickte weiter brav — und buchte plötzlich Schäden mit vertauschten Monaten und Tagen. Niemand merkte es zwei Wochen lang, weil ja alles 'lief'. Die neuen resilienten Automationen adressieren genau diese Klasse von Problemen, aber sie ersetzen keine Stichprobenkontrolle durch einen Menschen.

Was müssen wir jetzt schon vorbereiten?

Bevor irgendwer 'Agent in Produktion' ruft, brauchst du ein paar Hausaufgaben. Erstens: Lies den neuen Voice-Agent-Governance-Guide, und zwar bevor du live gehst, nicht danach. Er deckt genau die Themen ab, die später weh tun — Eskalationstests, Monitoring, Sicherheit, Compliance und operative Bereitschaft. Das ist kein Bremsklotz, sondern die Checkliste, die dich vor dem peinlichen Vorstandsmeeting bewahrt.

Zweitens: Richte dedizierte Dienstkonten mit minimalen Rechten ein. Ein Computer-Using Agent darf niemals mit dem persönlichen Admin-Account eines Mitarbeiters laufen. Klingt selbstverständlich, passiert aber in neun von zehn Pilotprojekten genau so, weil es schneller geht. Drittens: Definiere von Anfang an, wo der Mensch im Spiel bleibt. Ein Voice-Agent muss eine saubere, getestete Eskalation kennen — inklusive der Fälle, in denen er ehrlich zugibt, dass er nicht weiterweiß.

[+] Pragmatischer Einstieg

Starte mit einem CUA auf einem unkritischen, gut beobachtbaren Prozess und einem Voice-Agenten auf reinen Auskünften ohne Schreibzugriff. Lass beide zwei Wochen mit Mensch-im-Loop laufen, bevor du Schreibrechte oder echte Transaktionen freigibst. Monitoring und Logging stehen vor dem ersten Produktivlauf, nicht danach.

 

Viertens, organisatorisch: Kläre die Verantwortlichkeiten. Wem gehört der Agent? Wer prüft die Logs? Wer darf einen Agenten abschalten, wenn er Unsinn macht — und wie schnell? Ein Agent ohne klaren Eigentümer ist wie ein Dienstwagen ohne Fahrtenbuch: Es geht eine Weile gut, bis es das nicht mehr tut. Und fünftens, kaufmännisch: Prüfe die Lizenz- und Verbrauchsmodelle. Der halbierte Token-Verbrauch des neuen Orchestrators hilft, aber agentische Workloads skalieren mit der Nutzung, nicht mit der Kopfzahl. Plane das Budget entsprechend, sonst überrascht dich die erste Abrechnung mehr als der Agent selbst.

Häufig gestellte Fragen

Was unterscheidet einen Computer-Using Agent von klassischer RPA?

Klassische RPA folgt starr aufgezeichneten Klickpfaden und bricht, sobald sich die Oberfläche ändert. Ein Computer-Using Agent interpretiert die Oberfläche per Reasoning, wählt sein Vorgehen situativ und passt sich laut Microsoft an Interface-Änderungen an — robuster, aber dadurch auch weniger vorhersehbar.

Sind die Echtzeit-Voice-Agenten schon in Europa verfügbar?

Nein. Die Echtzeit-Voice-Agenten sind zunächst nur in Nordamerika über das Dynamics 365 Contact Center allgemein verfügbar. Weitere Sprachen, Regionen und Kanäle wie Teams Phone sind angekündigt, aber noch nicht GA.

Brauche ich für Computer-Using Agents besondere Berechtigungen?

Ja, und das ist der wichtigste Punkt. Der Agent handelt mit den Rechten des Kontos, unter dem er läuft. Richte ein dediziertes Dienstkonto mit minimalen Rechten und sicherem Credential-Management ein, statt ihn an einem persönlichen Admin-Account zu betreiben.

Wo finde ich Leitplanken, bevor ein Voice-Agent live geht?

Microsoft hat zum Mai-Release einen vertieften Voice-Agent-Governance-Guide veröffentlicht. Er behandelt Eskalationstests, Monitoring, Sicherheit, Compliance und operative Bereitschaft und sollte vor dem Produktivgang vollständig abgearbeitet sein.

Lohnt sich der Umstieg auf die neue Orchestrierung schon jetzt?

Technisch verlockend ist sie: rund 20 Prozent bessere Ergebnisse bei etwa halbiertem Token-Verbrauch. Sie befindet sich allerdings noch im Early-Release-Stadium, gehört also in eine Testumgebung und noch nicht auf den kritischen Produktionspfad.

Anmelden zum Consulting Briefing per Mail

Wenn Sie kostenlos das tägliche Consulting Briefing von Ulrich Boddenberg per Mail erhalten möchten, melden Sie sich auf dieser Seite an.

Die zehn letzten Consulting Briefings