Claude Researcher mit Critique- und Council-Funktionen
Zwei Modelle, ein Researcher – wie Microsoft GPT und Claude zur echten Qualitätskontrolle zusammenspanntConsulting Briefing
boddenberg.de • 30.05.2026
|
CLAUDE |
|---|
Claude Researcher mit Critique- und Council-Funktionen
Executive Summary
Kurz und schmerzlos: Microsoft hat den Researcher-Agenten in Microsoft 365 Copilot umgebaut, und zwar nicht kosmetisch. Statt stur ein einziges Modell zu befragen und das Ergebnis als Wahrheit zu verkaufen, lässt Researcher jetzt GPT und Claude im Team arbeiten. Zwei neue Betriebsarten machen den Unterschied. Bei „Critique“ schreibt GPT den Entwurf, und Claude geht als zweite Instanz drüber und prüft Fakten, Zitate und Vollständigkeit – ein eingebautes Vier-Augen-Prinzip, das du bisher per Hand nachbauen musstest. Bei „Council“ (Model Council) bearbeiten beide Modelle dieselbe Frage parallel, und ein drittes Modell stellt die Berichte gegenüber und markiert, wo sie sich einig sind, wo sie sich widersprechen und was jedes Modell exklusiv beigesteuert hat.
Warum dich das interessieren sollte: Genau diese Gegenüberstellung ist Gold wert für Entscheidungsvorlagen, in denen Modell-Bias dokumentiert werden muss – also immer dann, wenn der Vorstand später fragt, wer das eigentlich behauptet hat. Microsoft misst den Effekt am DRACO-Benchmark mit 100 komplexen Rechercheaufgaben: Copilot mit Critique kommt auf 57,4 Punkte, Claude Opus 4.6 allein auf 42,7. Das sind rund 14 Punkte oder 13,8 Prozent mehr. Klingt nach Folienzauber, ist aber für recherchelastige Rollen real spürbar. Verfügbar ist das Ganze über das Frontier-Programm und setzt eine Microsoft-365-Copilot-Lizenz voraus.
|
Auf den Punkt Critique = Qualitätssicherung im Hintergrund, Standardmodus, sobald Anthropic freigeschaltet ist. Council = sichtbarer Modellvergleich für Entscheidungen mit Dokumentationspflicht. Beides braucht eine Microsoft-365-Copilot-Lizenz und steckt aktuell im Frontier-Programm, also im frühen Zugang. |
|---|
Worum geht es im Detail? Auch die Hintergründe
Der Researcher ist der Deep-Research-Agent in Microsoft 365 Copilot – der, den du ansetzt, wenn eine simple Chat-Antwort nicht reicht, sondern ein mehrseitiger, quellenbasierter Bericht her muss. Seit September 2025 konntest du dort bereits zwischen GPT und Claude wählen. Bisher war das aber ein Entweder-oder: ein Modell, eine Sicht, ein blinder Fleck. Der eigentliche Sprung ist jetzt, dass Microsoft die Modelle nicht mehr gegeneinander, sondern miteinander antreten lässt. Das Stichwort heißt Orchestrierung – und Microsoft setzt offen darauf, dass die kluge Kombination mehrerer Modelle mehr bringt als das Warten auf das eine, alles überstrahlende Supermodell.
Ein bisschen Strategie-Kontext schadet hier nicht, denn der Schritt ist kein Zufall. Microsoft sitzt zwar nah an OpenAI, hängt aber sein komplettes Copilot-Geschäft nur ungern an ein einziges Pferd. Genau deshalb wurde Claude im Researcher schon im September 2025 als Alternative zu GPT freigeschaltet, und parallel rollt mit dem Claude-gestützten Cowork-Agenten ein weiteres Stück Multi-Modell-Welt an. Die neue Stufe ist nur konsequent: nicht entweder GPT oder Claude, sondern beide im selben Arbeitsgang. Für dich als Anwender heißt das vor allem eines – du wettest nicht mehr auf das richtige Modell, sondern lässt zwei davon gegeneinander gegenlesen. Das ist genau die Art von Risikostreuung, die man sonst nur aus dem eigenen Projektgeschäft kennt.
Critique ist dabei mehr als ein Korrekturlauf. Microsoft beschreibt es als ein Mehr-Modell-System, das Erzeugung und Bewertung sauber trennt: Ein Modell führt die Generierung an – es plant, sucht Quellen, schreibt den Entwurf. Ein zweites Modell übernimmt anschließend den Review und schaut auf faktische Genauigkeit, Belegqualität und Vollständigkeit, bevor irgendetwas bei dir landet. In der heutigen Ausbaustufe schreibt GPT, und Claude prüft. Microsoft deutet an, dass der Ablauf künftig auch in beide Richtungen laufen kann. Der Witz dabei: Du musst dafür nichts konfigurieren. Sobald der Administrator die Anthropic-Modelle freigeschaltet hat, ist Critique die Voreinstellung („Auto“). Die Maschine macht ihr Vier-Augen-Prinzip im Hintergrund.

Critique-Pipeline: GPT erzeugt, Claude prüft, am Ende steht ein belastbarer Report.
Council – offiziell Model Council – geht den umgekehrten Weg und macht den Unterschied sichtbar, statt ihn wegzubügeln. Dieselbe Frage läuft parallel durch mehrere Deep-Reasoning-Agenten, sprich durch GPT und Claude gleichzeitig. Jedes Modell liefert seinen vollständigen, eigenständigen Bericht. Obendrauf kommt eine Synthese, die zeigt, wo die Modelle übereinstimmen, wo sie auseinanderlaufen und was jedes von ihnen einzigartig beigetragen hat. Genau das ist der Hebel für Entscheidungsvorlagen: Du bekommst nicht eine glattgebügelte Wahrheit, sondern zwei begründete Sichten plus die Stelle, an der sie sich uneinig sind – und das ist meistens genau die Stelle, an der es spannend wird.

Model Council: zwei eigenständige Berichte, ein Schiedsrichter, drei klare Ergebnis-Kategorien.
Zu den Zahlen, denn ohne die glaubt dir im Lenkungskreis ohnehin keiner. Microsoft misst Researcher am DRACO-Benchmark, der die Qualität von Deep Research über 100 komplexe Aufgaben bewertet – Genauigkeit, Vollständigkeit, Objektivität. Mit Critique steigt der Score um 13,8 Prozent. Im direkten Vergleich kommt Copilot mit Critique auf 57,4 Punkte, während Claude Opus 4.6 als Einzelkämpfer bei 42,7 landet. Die größten Zugewinne sieht Microsoft bei Breite und Tiefe der Analyse (plus 3,33), bei der Präsentationsqualität (plus 3,04) und bei der faktischen Genauigkeit (plus 2,58). Alle Dimensionen verbessern sich, und zwar laut Microsoft statistisch signifikant. Man muss Benchmarks nicht anbeten, aber die Richtung ist eindeutig: Zwei Modelle, die sich gegenseitig auf die Finger schauen, machen weniger Blödsinn als eines allein.

DRACO-Benchmark: Das Critique-Zusammenspiel schlägt das stark gesetzte Einzelmodell deutlich.
Noch ein Wort zur Mechanik hinter den Kulissen, weil das für die Governance wichtig wird: Die Claude-Modelle laufen hier nicht als Microsoft-Eigengewächs. Anthropic ist als Subprozessor für die Microsoft Online Services hinterlegt, und genau deshalb muss der Administrator die Anthropic-Modelle erst aktiv im Microsoft-365-Admin-Center freigeben. Vorher passiert gar nichts. Den Modus wählst du anschließend direkt im Researcher über ein Dropdown: Auto für Critique, Model Council für den Vergleich oder wahlweise nur GPT beziehungsweise nur Claude. Das ist kein Schalter, den du beiläufig umlegst – dazu gleich mehr.
Was sind Chancen? Was sind Risiken?
Fangen wir mit dem Schönen an. Die größte Chance ist nicht die höhere Punktzahl, sondern die Nachvollziehbarkeit. Wer schon einmal eine Entscheidungsvorlage geschrieben hat, kennt die unangenehme Rückfrage: Auf welcher Grundlage steht das? Mit Council hast du die Antwort eingebaut – zwei dokumentierte Modellsichten plus die ausgewiesenen Divergenzen. Modell-Bias verschwindet damit nicht, aber er wird sichtbar und damit dokumentierbar. Für regulierte Branchen, Aufsichtsräte und jeden, der seine Empfehlung später verteidigen muss, ist das ein echter Gewinn. Dazu kommt schlicht weniger Halluzinations-Risiko, weil der Faktencheck Teil des Prozesses ist und nicht deine private Abendbeschäftigung.
Konkret aus dem Alltag: Wir hatten neulich eine Entscheidungsvorlage für die Auswahl eines Backup-Anbieters auf dem Tisch. Das Einzelmodell lieferte einen sauber klingenden Bericht, der eine bestimmte Lösung empfahl – und dabei eine veraltete Lizenzannahme als Fakt verkaufte. Im Council-Modus fiel genau das auf, weil das zweite Modell die Zahl anders einordnete und die Synthese die Differenz schwarz auf weiß markierte. Ohne diese Gegenüberstellung wäre die falsche Annahme bis in den Lenkungskreis durchgerutscht und hätte uns dort eine sehr unangenehme Nachfrage beschert. Der Charme ist, dass du den Widerspruch nicht suchen musst – das System legt ihn dir auf den Tisch, bevor es jemand anders tut.
|
Praxis-Tipp aus dem Projektalltag Setz Council gezielt für Make-or-Buy- und Technologie-Entscheidungen ein. In einem Migrations-Vorprojekt haben wir GPT und Claude dieselbe Frage beantworten lassen: On-Prem-Exchange halten oder raus in die Cloud? Beide empfahlen die Cloud – aber an der Kostenrechnung gingen sie auseinander. Genau diese Divergenz wurde zur wichtigsten Folie im Lenkungskreis, weil sie eine versteckte Annahme offengelegt hat. Ohne Council wäre die im Bauch eines einzigen Berichts untergegangen. |
|---|
Jetzt die Kehrseite, und davon gibt es genug. Erstens Datenschutz: Anthropic ist als Subprozessor im Spiel. Was deine Anwender in den Researcher tippen, kann damit über einen weiteren Verarbeiter laufen. Für die DSGVO heißt das: Auftragsverarbeitung prüfen, Subprozessor-Liste aktualisieren, das Verzeichnis der Verarbeitungstätigkeiten nachführen. Das ist kein Showstopper, aber auch nichts, was du dem Praktikanten überlässt. Zweitens Kosten und Tempo: Zwei oder drei Modelle, die nacheinander oder parallel arbeiten, kosten mehr Rechenzeit. Critique und vor allem Council brauchen länger als eine schnelle Einzelmodell-Antwort – für die Frage, wie spät es gerade in Tokio ist, ist das Overkill.
Drittens, und das ist der gefährlichste Punkt, der Overtrust. Sobald „Claude hat die Antwort geprüft“ im Report steht, schaltet beim Leser gern das Gehirn ab. Ein zweites Modell senkt das Fehlerrisiko, es eliminiert es nicht. Wenn sich beide Modelle einig sind, können sie sich auch gemeinsam irren – nur fühlt sich das dann doppelt richtig an. Und viertens der Reifegrad: Critique und Council stecken im Frontier-Programm, also im frühen Zugang. Frontier heißt übersetzt: Es funktioniert meistens, es kann sich ändern, und der Support-Pfad ist noch nicht in Beton gegossen. Wer das produktiv für geschäftskritische Vorlagen nutzt, sollte das wissen.
|
Warnung – nicht blind vertrauen Frontier ist Preview, kein allgemein verfügbares Produkt. Funktionsumfang und Verhalten können sich ohne große Ankündigung verschieben. Und: Anthropic als Subprozessor will datenschutzrechtlich sauber dokumentiert sein, bevor der erste Sachbearbeiter Kundendaten in den Researcher kippt. „Geprüft von Claude“ ist ein Qualitätssignal, kein Freibrief, das Ergebnis ungelesen weiterzureichen. |
|---|
Was müssen wir jetzt schon vorbereiten?
Die gute Nachricht: Du musst nicht warten, bis das alles allgemein verfügbar ist, um dich vorzubereiten. Die meiste Arbeit ist ohnehin Governance, nicht Technik. Fang beim Administrator an. Die Freischaltung der Anthropic-Modelle im Microsoft-365-Admin-Center ist eine bewusste Entscheidung, kein Default – und sie braucht vorher das Okay von Datenschutz und idealerweise dem Betriebsrat. Klär also früh, wer den Schalter tatsächlich umlegen darf und welche Unterschrift davor stehen muss.
Parallel die DSGVO-Hausaufgaben: das Subprozessor-Verzeichnis um Anthropic ergänzen, Auftragsverarbeitung und Datenflüsse prüfen, das Verzeichnis der Verarbeitungstätigkeiten nachziehen. Wenn dein Haus eine Liste freigegebener KI-Dienste pflegt, gehört das hier hinein. Lieber jetzt die halbe Stunde mit dem Datenschutzbeauftragten investieren als später den ganzen Nachmittag mit der Aufsichtsbehörde.
Dann die Lizenz- und Kostenseite. Die Funktionen hängen an der Microsoft-365-Copilot-Lizenz, die pro Anwender und Monat zu Buche schlägt und nicht geschenkt ist. Überleg dir, welche Rollen wirklich Deep Research mit Modellvergleich brauchen: Strategie, Markt- und Wettbewerbsanalyse, Consulting, Recht, vielleicht der technische Vorvertrieb. Der Sachbearbeiter, der Urlaubsanträge bucht, gehört wahrscheinlich nicht dazu. Eine kleine, scharf geschnittene Pilotgruppe schlägt die Gießkanne.
Schließlich die Governance für den Alltag: Leg fest, wann welcher Modus benutzt wird. Eine pragmatische Faustregel, die sich bewährt: Critique für den Normalfall, weil es im Hintergrund läuft und nichts kostet außer etwas Geduld. Council bewusst und sparsam dort, wo eine Entscheidung dokumentiert und der Modell-Bias ausgewiesen werden muss – also für die Vorlage, die im Lenkungskreis landet, nicht für die schnelle Zwischenrecherche. Und pack das Wichtigste in jede Schulung: Researcher liefert einen verdammt guten Entwurf, aber die Verantwortung für das Ergebnis bleibt beim Menschen, der seinen Namen druntersetzt.
|
Checkliste vor dem Start 1) Datenschutz- und Betriebsrats-Okay einholen. 2) Anthropic im Admin-Center freischalten. 3) Subprozessor- und Verarbeitungsverzeichnis aktualisieren. 4) Pilotgruppe nach Rolle statt nach Gießkanne. 5) Spielregel Critique gegen Council schriftlich festhalten. 6) Anwender schulen: Vier-Augen-Prinzip ja, Gehirn aus nein. |
|---|
Unterm Strich: Researcher mit Critique und Council ist kein Spielzeug, sondern der Moment, in dem KI-Recherche im Unternehmen endlich ein eingebautes Korrektiv bekommt. Wer jetzt die Governance-Hausaufgaben macht, kann den Produktivitätshebel ziehen, sobald die Funktionen aus dem Frontier-Programm in die Breite rollen – und muss nicht hektisch hinterherrennen, wenn der erste Fachbereich fragt, warum die Konkurrenz das schon längst hat.