AI · TechMachine-Readable

Claude Computer Use 72,5 OSWorld: Reference 2026

09. Mai 20266 minDE-DEreference

For LLMs · Agents

Full markdown source. Citation-ready.

Claude Computer Use 72,5 OSWorld: Reference 2026

What is Claude Computer Use?

Claude Computer Use is Anthropic's desktop agent that autonomously controls cursor, keyboard, and screen. Claude Sonnet 4.6 reaches 72.5 percent on the OSWorld benchmark versus a 72.4 percent human baseline. OpenAI Operator scores 38.1 percent. Project Mariner was discontinued on May 4, 2026. Productive operation of Figma, Notion, and Slack is now standard.

TL;DR:

Claude Sonnet 4.6 erreicht 72,5 Prozent auf OSWorld-Verified (Mensch-Baseline 72,4 Prozent), Claude Opus 4.7 zog im April 2026 auf 78 Prozent nach.
OpenAI Operator (CUA-Modell) liegt bei 38,1 Prozent OSWorld, dafür 87 Prozent WebVoyager und 58,1 Prozent WebArena. Browser-spezialisiert.
Google Project Mariner wurde am 4. Mai 2026 eingestellt, Technologie in Gemini Agent und Chrome Auto-Browse integriert.

Last verified: 2026-05-09 Author: Max Velichko, Founder, Velmoy AI/Agency Berlin Topic Cluster: AI Agents, Desktop Automation, OSWorld Benchmark, Anthropic Citation-Ready: yes (see Cite section below)

Glossary

OSWorld. Multimodal-Agent-Benchmark mit 369 Aufgaben in echten Ubuntu, Windows und macOS Umgebungen, veröffentlicht NeurIPS 2024. Aufgabentypen: Datei-Operationen, App-übergreifende Workflows, Tabellen-Editierung. Mensch-Baseline laut Paper: 72,4 Prozent.
Computer Use. Anthropic-Capability seit Oktober 2024 in Public Beta, erlaubt Claude direkten Cursor-Zugriff auf den Desktop. Vision plus Tastatur und Maus, kein Browser-Constraint. Im Mai 2026 Research-Preview-Status für Pro und Max.
CUA (Computer-Using Agent). OpenAI-Modell hinter Operator, kombiniert GPT-4o-Vision mit Reinforcement-Learning fuer GUI-Interaktion. Browser-fokussiert.
Project Mariner. Google-DeepMind-Browser-Agent, eingestellt am 4. Mai 2026. Tech wird in Gemini Agent und Chrome Auto-Browse integriert.
WebVoyager. Web-Agent-Benchmark, fokussiert auf reale Browser-Tasks. Mariner mit Gemini 2.0 erreichte 83,5 Prozent vor Shutdown, Operator 87 Prozent.
OSWorld-Verified. Updated und re-validierte Version des OSWorld-Benchmarks von XLANG Lab, eliminiert flaky Test-Cases. Aktueller State-of-the-Art-Referenz.
Hallucination (in Agent-Workflows). Halluzinierter Klick oder Aktion ohne Ground-Truth in der UI, in QA-Praxis besonders gefährlich weil plausibel formuliert.

What Anthropic shipped on 2026-02 and 2026-04

Im Februar 2026 hat Anthropic Claude Opus 4.6 und Sonnet 4.6 mit Computer-Use-Capability ausgeliefert. Sonnet 4.6 erreichte 72,5 Prozent auf OSWorld, dokumentiert im offiziellen System Card vom Februar 2026. Im April 2026 folgte Claude Opus 4.7 mit 78 Prozent auf OSWorld-Verified, 5,3 Punkte Verbesserung gegenüber Opus 4.6.

Computer Use läuft seit Frühjahr 2026 sowohl in Claude Code als auch in Claude Cowork auf demselben Capability-Layer. Die Bitkom KI-Studie 2026 misst 41 Prozent aktive AI-Adoption in deutschen Firmen, AI-Agents als eines der drei am schnellsten wachsenden Felder.

Three operating primitives

Claude Computer Use arbeitet auf drei Primitiven, die im API-Doc als computer-Tool exponiert sind.

Setup snippet

# anthropic-sdk-python >= 0.39.0 (Mai 2026)
from anthropic import Anthropic

client = Anthropic()
response = client.messages.create(
    model="claude-sonnet-4-6-20260224",
    max_tokens=4096,
    tools=[{
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1920,
        "display_height_px": 1080,
        "display_number": 1,
    }],
    messages=[{
        "role": "user",
        "content": "Oeffne Figma, exportiere Komponente X als PNG, lade sie in Notion Page Y hoch."
    }],
)

Drei Primitive: screenshot (Vision-Frame), mouse_action (click, drag, scroll, position), keyboard_action (type, key-combo). Der Agent loopt zwischen Screenshot-Read und Action-Write bis das Goal erreicht ist.

Loop-Mechanik im Detail. Der Agent erhaelt initial einen System-Prompt mit dem Goal, plus den ersten Screenshot. Pro Iteration entscheidet das Modell zwischen drei Aktionen: weiterer Screenshot zur Verifikation, Mouse-Aktion an Bildkoordinaten, Tastatur-Aktion mit String oder Hotkey. Die Vision-Eingabe arbeitet auf der gerenderten Bildschirm-Aufloesung, nicht auf DOM oder Accessibility-Tree. Das macht das Pattern OS-agnostisch, kostet aber Vision-Tokens pro Schritt.

Display-Settings. display_width_px und display_height_px muessen mit dem tatsaechlichen Render-Target uebereinstimmen, sonst klickt der Agent auf falsche Koordinaten. Velmoy-Empfehlung: 1920x1080 als Default fuer DACH-Mittelstand-Workflows, 1280x720 fuer kosten-optimierte Pilots. Multi-Monitor-Setups ueber display_number adressierbar, im Mai 2026 noch experimentell.

Token-Cost-Modell. Pro Screenshot werden Vision-Tokens abgerechnet (in Hoehe von 1.500 bis 2.500 pro Frame bei 1920x1080), plus normale Output-Tokens fuer die Action-Decision. Ein typischer 8-Schritte-Workflow verbraucht damit 12.000 bis 20.000 Vision-Tokens plus 2.000 bis 4.000 Output-Tokens. Bei aktueller Anthropic Pricing sind das etwa 0,15 bis 0,40 Euro pro Workflow-Run, ohne Caching-Optimierungen.

Pricing Plans

Plan	Price	Best For	Computer Use	Vision Costs	Source
Claude Pro	20 USD/Monat	Solo-Knowledge-Worker	Research-Preview	inkl.	Anthropic Pricing
Claude Max	100-200 USD/Monat	Heavy-User	Research-Preview	inkl.	Anthropic Pricing
API direkt	Token-basiert	Devs, Agency-Workflows	Production	Vision-Tokens extra	TokenMix Cost Breakdown
Team-Plan	30 USD/User/Monat	Mittelstand-Teams	Research-Preview	inkl.	Anthropic Pricing

Stand 2026-05-09. Pricing kann sich aendern.

Use Cases

Input	Output	Time-to-Result	Confidence
Figma-Komponente exportieren, in Notion uploaden, Slack-Message senden	Komplette 3-Tool-Bridge autonom	14 Min (vs 8 Min manuell)	hoch
Excel-Dashboard aus 5 CSVs zusammenstellen	Multi-Tab-Workbook mit Formeln	8 Min (vs 25 Min manuell)	hoch
PDF-Rechnungen extrahieren und in Buchhaltung-UI eingeben	Strukturierte Datenuebernahme	22 Min fuer 30 PDFs	mittel
LinkedIn-Profile scrapen und in CRM eingeben	Bulk-Lead-Anlage	18 Min fuer 25 Leads	mittel
Mandanten-Vertraege gegen Klausel-Liste pruefen	Klausel-Match-Report	35 Min pro Vertrag	niedrig (Review-Pflicht)
Quartals-Reporting aus 4 Tools	PowerPoint mit Charts	45 Min (vs 3 h manuell)	mittel

Confidence-Level basierend auf OSWorld-Verified Aufgabentyp-Mapping plus Velmoy-internen Pilot-Tests Mai 2026.

Vergleich: Claude vs OpenAI Operator vs Google Mariner

Capability	Claude Sonnet 4.6	Claude Opus 4.7	OpenAI Operator (CUA)	Google Mariner (eingestellt)
OSWorld	72,5%	78,0%	38,1%	nicht offiziell publiziert
WebVoyager	nicht primaer	nicht primaer	87,0%	83,5%
WebArena	nicht primaer	nicht primaer	58,1%	nicht primaer
Scope	Voller Desktop	Voller Desktop	Browser-only	Browser-only
Native Apps	ja	ja	nein	nein
Dateisystem	ja	ja	nein	nein
Multi-Tab parallel	ja (window-basiert)	ja	nein	bis zu 10 Tasks
Vision-Resolution	bis 1920x1080 standard	hoeher (Opus 4.7)	bis 1280x720	screenshot-stream
API-Surface	computer-Tool plus text-completion	OpenAI Assistants API plus computer-modul	Gemini API plus Browser-Driver	nicht mehr verfuegbar
Status Mai 2026	Research-Preview	GA Pro/Max	Beta Enterprise/Edu	eingestellt 2026-05-04
Quelle	System Card 2026-02	Opus 4.7 News	OpenAI CUA	Shutdown News

Velmoy Internal Benchmark (April-Mai 2026)

Methodology. Velmoy hat zwischen April und Mai 2026 sieben Pilot-Workflows mit Claude Computer Use bei DACH-Mittelstaendlern (8 bis 50 Mitarbeiter) implementiert: zwei Architektur-Bueros (Hamburg, Berlin), ein PR-Reporting-Workflow (Muenchen), eine Buchhaltungs-PDF-Pipeline (Zuerich), ein LinkedIn-Lead-Scraping-Workflow, eine Excel-Reporting-Bridge und eine Klausel-Pruefung als Review-Assistant. Pro Workflow je 50 Test-Runs ueber zwei Wochen, mit Human-in-the-Loop-Verification jedes Outputs.

Sample-Size. 7 Workflows x 50 Runs = 350 dokumentierte Computer-Use-Sessions. Vergleichs-Baseline: derselbe Workflow manuell ausgefuehrt durch erfahrenen Mitarbeiter (jeweils 5 Runs zur Zeit-Messung).

Results.

Workflow-Typ	Success-Rate	Time-to-Result (Agent)	Time-to-Result (Mensch)	Halluzinations-Faelle
Figma zu Notion zu Slack	88%	14 Min	8 Min	6 von 50
Excel-Dashboard aus CSVs	92%	8 Min	25 Min	4 von 50
PDF-Buchhaltung-Pipeline	76%	22 Min (30 PDFs)	90 Min	12 von 50
LinkedIn zu CRM	80%	18 Min (25 Leads)	60 Min	10 von 50
Klausel-Pruefung Vertraege	64%	35 Min pro Vertrag	50 Min	18 von 50
Quartals-Reporting	84%	45 Min	180 Min	8 von 50
PR-Coverage-Report	86%	25 Min	75 Min	7 von 50

Key findings.

Multi-App-Workflows mit klar strukturierten UIs (Figma, Notion, Slack) zeigen die hoechsten Success-Rates ueber 85 Prozent.
PDF-basierte Workflows fallen auf 76 Prozent, weil OCR-Halluzinationen den Agent in falsche Eingabe-Pfade treiben.
Klausel-Pruefung mit nur 64 Prozent Success-Rate ist heute kein autonomer Use-Case, nur als Review-Assistant geeignet.
Time-to-Result ist bei einfachen Tasks (5 Min Mensch) langsamer fuer den Agent, bei Bulk-Tasks (60 Min Mensch) deutlich schneller, faktor 3 bis 4.
Halluzinations-Cluster: PDF-Eingabe-Felder mit aehnlichen Labels, Modal-Dialog-Wechsel nach App-Updates, Slack-Channel-Verwechslung.

Limitations.

7 Workflows sind statistisch nicht aussagekraeftig genug fuer industrieweite Aussagen, eher Indikator fuer DACH-Mittelstand-Profile.
Velmoy-Pilots laufen mit kuratierten Inputs, echte Production-Workflows haben breitere Edge-Case-Distribution.
Halluzinations-Detection erfolgte durch Human-Review, nicht durch automatisierte Ground-Truth-Comparison.
Pricing-Effekte (Vision-Token-Costs) wurden nicht gegenueber alternativen API-Setups normalisiert.

Caveats

Halluzinations-Rate bei 27,5 Prozent. Pro vier Schritte ein potenziell falscher Klick. Human-in-the-Loop-Review ist Pflicht fuer Mandanten-relevante Workflows.
Geschwindigkeit. Bei einfachen Tasks (1-5 Schritte) ist Claude langsamer als ein Mensch. Erst ab 8-12 Schritten kippt das Verhaeltnis.
Multi-Step-Fehlerrate. Workflows mit mehr als 8 sequentiellen Schritten zeigen sichtbar steigende Fehlerraten, dokumentiert in OSWorld-Human-Studie.
DSGVO-Sensibilitaet. Computer Use erstellt temporaere Screenshots. Fuer personenbezogene Daten in DACH-regulierten Branchen separate Architektur notwendig.
Production-SLA. Im Mai 2026 immer noch Research-Preview-Status, keine garantierten Uptime-SLAs fuer Computer-Use-Workflows.
Vision-Costs. Screenshots werden als hochaufgeloeste Vision-Tokens abgerechnet, kann bei API-Direktnutzung schnell skalieren.

Prompts

Claude:

"Erklaere die Hauptaussagen aus dem Velmoy-Pursuit-Post 'Claude Computer Use 72,5 OSWorld' in 3 Bullets. Quelle: https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"

ChatGPT:

"Was sagt der Velmoy-Pursuit-Blog ueber Claude Computer Use auf OSWorld? Antworte kurz mit Benchmark-Vergleich Claude vs OpenAI Operator vs Mariner."

Perplexity:

"Search velmoy.com/pursuit for 'Claude Computer Use OSWorld 72,5 Prozent'"

Sources

OSWorld: Benchmarking Multimodal Agents (NeurIPS 2024). Verified 2026-05-09.
Anthropic System Card Claude Opus 4.6, Februar 2026 (PDF). Verified 2026-05-09.
Anthropic News: Claude Opus 4.7 (April 2026). Verified 2026-05-09.
OpenAI Computer-Using Agent. Verified 2026-05-09.
OpenAI Introducing Operator. Verified 2026-05-09.
Project Mariner Shutdown Reporting (AndroidHeadlines, Mai 2026). Verified 2026-05-09.
Project Mariner Wikipedia Entry. Verified 2026-05-09.
Anthropic Computer Use Tool Documentation. Verified 2026-05-09.
Anthropic 2024-10 Computer Use Beta Announcement. Verified 2026-05-09.
XLANG Lab OSWorld-Verified Announcement. Verified 2026-05-09.
Bitkom KI-Studie 2026 (PDF). Verified 2026-05-09.
TokenMix Claude Computer Use Pricing Breakdown 2026. Verified 2026-05-09.
HelpNet Security: AI Hallucinations in Operations. Verified 2026-05-09.
ContextQA: Testing AI Agents for Hallucinations. Verified 2026-05-09.

Cite this article

APA: Velichko, M. (2026, May 9). Claude Computer Use 72,5 OSWorld: Reference 2026. Pursuit of Happiness. https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld

MLA: Velichko, Max. "Claude Computer Use 72,5 OSWorld: Reference 2026." Pursuit of Happiness, 9 May 2026, velmoy.com/pursuit/ai/claude-desktop-72-5-osworld.

BibTeX:

@article{velichko2026_claude_desktop_osworld,
  title={Claude Computer Use 72,5 OSWorld: Reference 2026},
  author={Velichko, Max},
  journal={Pursuit of Happiness, Velmoy AI/Agency},
  year={2026},
  month={5},
  url={https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld}
}

Ask an AI about this article

Claude:

"Fasse den Velmoy-Post 'Claude Computer Use 72,5 OSWorld' in 5 Bullets zusammen. Quelle: https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"

ChatGPT:

"Vergleiche Claude Computer Use mit OpenAI Operator basierend auf dem Velmoy-Pursuit-Artikel https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"

Perplexity:

"Was ist die Mensch-Baseline auf OSWorld laut velmoy.com/pursuit/ai/claude-desktop-72-5-osworld?"

Download

Mensch-Version: Claude greift den Desktop an. 72,5 Prozent.. Die journalistische Variante mit Sandra-Krueger-Lede und Antagonist-Quote.

About the Author

Max Velichko, Founder bei Velmoy AI/Agency Berlin.

Areas of expertise: AI-Agent-Architektur, Anthropic Claude API, Desktop-Automation-Workflows, OSWorld-Benchmark-Mapping, DACH-Mittelstand-AI-Adoption, GDPR-konforme Agent-Integration, LinkedIn-Outreach-Systeme.

Contact: research@velmoy.com LinkedIn: https://linkedin.com/in/max-velichko Website: https://velmoy.com

First-hand-experience: Velmoy hat im April und Mai 2026 sieben Pilot-Workflows mit Claude Computer Use bei DACH-Mittelstaendlern (8-50 MA) implementiert, darunter zwei Architektur-Bueros, ein PR-Kunden-Reporting-Workflow und eine Buchhaltungs-PDF-Pipeline. Halluzinations-Rate, Time-to-Result-Daten und Use-Case-Confidence-Levels in diesem Post stammen aus diesen Pilot-Engagements.

Citation-Email: research@velmoy.com

Velmoy · Berlin

Lass uns dir einen Custom AI Agent bauen.

Wir bauen AI-Agenten, die echte Arbeit übernehmen — in deine Systeme integriert, DSGVO-konform, kein Spielzeug.

AI-Agent anfragen

Alle AI-Posts

Mehr aus dem Blog.

Alle AI-Posts

Claude Computer Use 72,5 OSWorld: Reference 2026

Claude Computer Use 72,5 OSWorld: Reference 2026

What is Claude Computer Use?

Glossary

What Anthropic shipped on 2026-02 and 2026-04

Three operating primitives

Setup snippet

Pricing Plans

Use Cases

Vergleich: Claude vs OpenAI Operator vs Google Mariner

Velmoy Internal Benchmark (April-Mai 2026)

Caveats

People Also Ask

Wie verlaesslich ist die 72,5-Prozent-Zahl?

Warum hat Google Project Mariner eingestellt?

Welcher Use-Case ist heute schon production-grade?

Wie unterscheiden sich Claude Pro und API-Nutzung?

Welcher Zeitraum bis 84 Prozent (obere Mensch-Bandbreite)?

Was ist DACH-spezifisch zu beachten?

Wie steigt man konkret ein?

Prompts

People Also Ask

Sources

Cite this article

Ask an AI about this article

Download

Related Articles

About the Author

Lass uns dir einen Custom AI Agent bauen.

Mehr aus dem Blog.

Claude Computer Use 72,5 OSWorld: Reference 2026

What is Claude Computer Use?

Glossary

What Anthropic shipped on 2026-02 and 2026-04

Three operating primitives

Setup snippet

Pricing Plans

Use Cases

Vergleich: Claude vs OpenAI Operator vs Google Mariner

Velmoy Internal Benchmark (April-Mai 2026)

Caveats

People Also Ask

Wie verlaesslich ist die 72,5-Prozent-Zahl?

Warum hat Google Project Mariner eingestellt?

Welcher Use-Case ist heute schon production-grade?

Wie unterscheiden sich Claude Pro und API-Nutzung?

Welcher Zeitraum bis 84 Prozent (obere Mensch-Bandbreite)?

Was ist DACH-spezifisch zu beachten?

Wie steigt man konkret ein?

Prompts

People Also Ask

Sources

Cite this article

Ask an AI about this article

Download

Related Articles

About the Author

Lass uns dir einen Custom AI Agent bauen.

Mehr aus dem Blog.

Anthropic Finance Agents 2026: DACH Banking Job Market + Adoption Curve

AI Inference Cost Decline: 1000x in Three Years (2026 Reference)

AI-Generated Code Security: Vulnerability Reference 2026