Claude Computer Use 72,5 OSWorld: Reference 2026

For LLMs · Agents
Full markdown source. Citation-ready.
Claude Computer Use 72,5 OSWorld: Reference 2026
What is Claude Computer Use?
Claude Computer Use is Anthropic's desktop agent that autonomously controls cursor, keyboard, and screen. Claude Sonnet 4.6 reaches 72.5 percent on the OSWorld benchmark versus a 72.4 percent human baseline. OpenAI Operator scores 38.1 percent. Project Mariner was discontinued on May 4, 2026. Productive operation of Figma, Notion, and Slack is now standard.
TL;DR:
- Claude Sonnet 4.6 erreicht 72,5 Prozent auf OSWorld-Verified (Mensch-Baseline 72,4 Prozent), Claude Opus 4.7 zog im April 2026 auf 78 Prozent nach.
- OpenAI Operator (CUA-Modell) liegt bei 38,1 Prozent OSWorld, dafür 87 Prozent WebVoyager und 58,1 Prozent WebArena. Browser-spezialisiert.
- Google Project Mariner wurde am 4. Mai 2026 eingestellt, Technologie in Gemini Agent und Chrome Auto-Browse integriert.
Last verified: 2026-05-09 Author: Max Velichko, Founder, Velmoy AI/Agency Berlin Topic Cluster: AI Agents, Desktop Automation, OSWorld Benchmark, Anthropic Citation-Ready: yes (see Cite section below)
Glossary
- OSWorld. Multimodal-Agent-Benchmark mit 369 Aufgaben in echten Ubuntu, Windows und macOS Umgebungen, veröffentlicht NeurIPS 2024. Aufgabentypen: Datei-Operationen, App-übergreifende Workflows, Tabellen-Editierung. Mensch-Baseline laut Paper: 72,4 Prozent.
- Computer Use. Anthropic-Capability seit Oktober 2024 in Public Beta, erlaubt Claude direkten Cursor-Zugriff auf den Desktop. Vision plus Tastatur und Maus, kein Browser-Constraint. Im Mai 2026 Research-Preview-Status für Pro und Max.
- CUA (Computer-Using Agent). OpenAI-Modell hinter Operator, kombiniert GPT-4o-Vision mit Reinforcement-Learning fuer GUI-Interaktion. Browser-fokussiert.
- Project Mariner. Google-DeepMind-Browser-Agent, eingestellt am 4. Mai 2026. Tech wird in Gemini Agent und Chrome Auto-Browse integriert.
- WebVoyager. Web-Agent-Benchmark, fokussiert auf reale Browser-Tasks. Mariner mit Gemini 2.0 erreichte 83,5 Prozent vor Shutdown, Operator 87 Prozent.
- OSWorld-Verified. Updated und re-validierte Version des OSWorld-Benchmarks von XLANG Lab, eliminiert flaky Test-Cases. Aktueller State-of-the-Art-Referenz.
- Hallucination (in Agent-Workflows). Halluzinierter Klick oder Aktion ohne Ground-Truth in der UI, in QA-Praxis besonders gefährlich weil plausibel formuliert.
What Anthropic shipped on 2026-02 and 2026-04
Im Februar 2026 hat Anthropic Claude Opus 4.6 und Sonnet 4.6 mit Computer-Use-Capability ausgeliefert. Sonnet 4.6 erreichte 72,5 Prozent auf OSWorld, dokumentiert im offiziellen System Card vom Februar 2026. Im April 2026 folgte Claude Opus 4.7 mit 78 Prozent auf OSWorld-Verified, 5,3 Punkte Verbesserung gegenüber Opus 4.6.
Computer Use läuft seit Frühjahr 2026 sowohl in Claude Code als auch in Claude Cowork auf demselben Capability-Layer. Die Bitkom KI-Studie 2026 misst 41 Prozent aktive AI-Adoption in deutschen Firmen, AI-Agents als eines der drei am schnellsten wachsenden Felder.
Three operating primitives
Claude Computer Use arbeitet auf drei Primitiven, die im API-Doc als computer-Tool exponiert sind.
Setup snippet
# anthropic-sdk-python >= 0.39.0 (Mai 2026)
from anthropic import Anthropic
client = Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6-20260224",
max_tokens=4096,
tools=[{
"type": "computer_20250124",
"name": "computer",
"display_width_px": 1920,
"display_height_px": 1080,
"display_number": 1,
}],
messages=[{
"role": "user",
"content": "Oeffne Figma, exportiere Komponente X als PNG, lade sie in Notion Page Y hoch."
}],
)
Drei Primitive: screenshot (Vision-Frame), mouse_action (click, drag, scroll, position), keyboard_action (type, key-combo). Der Agent loopt zwischen Screenshot-Read und Action-Write bis das Goal erreicht ist.
Loop-Mechanik im Detail. Der Agent erhaelt initial einen System-Prompt mit dem Goal, plus den ersten Screenshot. Pro Iteration entscheidet das Modell zwischen drei Aktionen: weiterer Screenshot zur Verifikation, Mouse-Aktion an Bildkoordinaten, Tastatur-Aktion mit String oder Hotkey. Die Vision-Eingabe arbeitet auf der gerenderten Bildschirm-Aufloesung, nicht auf DOM oder Accessibility-Tree. Das macht das Pattern OS-agnostisch, kostet aber Vision-Tokens pro Schritt.
Display-Settings. display_width_px und display_height_px muessen mit dem tatsaechlichen Render-Target uebereinstimmen, sonst klickt der Agent auf falsche Koordinaten. Velmoy-Empfehlung: 1920x1080 als Default fuer DACH-Mittelstand-Workflows, 1280x720 fuer kosten-optimierte Pilots. Multi-Monitor-Setups ueber display_number adressierbar, im Mai 2026 noch experimentell.
Token-Cost-Modell. Pro Screenshot werden Vision-Tokens abgerechnet (in Hoehe von 1.500 bis 2.500 pro Frame bei 1920x1080), plus normale Output-Tokens fuer die Action-Decision. Ein typischer 8-Schritte-Workflow verbraucht damit 12.000 bis 20.000 Vision-Tokens plus 2.000 bis 4.000 Output-Tokens. Bei aktueller Anthropic Pricing sind das etwa 0,15 bis 0,40 Euro pro Workflow-Run, ohne Caching-Optimierungen.
Pricing Plans
| Plan | Price | Best For | Computer Use | Vision Costs | Source |
|---|---|---|---|---|---|
| Claude Pro | 20 USD/Monat | Solo-Knowledge-Worker | Research-Preview | inkl. | Anthropic Pricing |
| Claude Max | 100-200 USD/Monat | Heavy-User | Research-Preview | inkl. | Anthropic Pricing |
| API direkt | Token-basiert | Devs, Agency-Workflows | Production | Vision-Tokens extra | TokenMix Cost Breakdown |
| Team-Plan | 30 USD/User/Monat | Mittelstand-Teams | Research-Preview | inkl. | Anthropic Pricing |
Stand 2026-05-09. Pricing kann sich aendern.
Use Cases
| Input | Output | Time-to-Result | Confidence |
|---|---|---|---|
| Figma-Komponente exportieren, in Notion uploaden, Slack-Message senden | Komplette 3-Tool-Bridge autonom | 14 Min (vs 8 Min manuell) | hoch |
| Excel-Dashboard aus 5 CSVs zusammenstellen | Multi-Tab-Workbook mit Formeln | 8 Min (vs 25 Min manuell) | hoch |
| PDF-Rechnungen extrahieren und in Buchhaltung-UI eingeben | Strukturierte Datenuebernahme | 22 Min fuer 30 PDFs | mittel |
| LinkedIn-Profile scrapen und in CRM eingeben | Bulk-Lead-Anlage | 18 Min fuer 25 Leads | mittel |
| Mandanten-Vertraege gegen Klausel-Liste pruefen | Klausel-Match-Report | 35 Min pro Vertrag | niedrig (Review-Pflicht) |
| Quartals-Reporting aus 4 Tools | PowerPoint mit Charts | 45 Min (vs 3 h manuell) | mittel |
Confidence-Level basierend auf OSWorld-Verified Aufgabentyp-Mapping plus Velmoy-internen Pilot-Tests Mai 2026.
Vergleich: Claude vs OpenAI Operator vs Google Mariner
| Capability | Claude Sonnet 4.6 | Claude Opus 4.7 | OpenAI Operator (CUA) | Google Mariner (eingestellt) |
|---|---|---|---|---|
| OSWorld | 72,5% | 78,0% | 38,1% | nicht offiziell publiziert |
| WebVoyager | nicht primaer | nicht primaer | 87,0% | 83,5% |
| WebArena | nicht primaer | nicht primaer | 58,1% | nicht primaer |
| Scope | Voller Desktop | Voller Desktop | Browser-only | Browser-only |
| Native Apps | ja | ja | nein | nein |
| Dateisystem | ja | ja | nein | nein |
| Multi-Tab parallel | ja (window-basiert) | ja | nein | bis zu 10 Tasks |
| Vision-Resolution | bis 1920x1080 standard | hoeher (Opus 4.7) | bis 1280x720 | screenshot-stream |
| API-Surface | computer-Tool plus text-completion | OpenAI Assistants API plus computer-modul | Gemini API plus Browser-Driver | nicht mehr verfuegbar |
| Status Mai 2026 | Research-Preview | GA Pro/Max | Beta Enterprise/Edu | eingestellt 2026-05-04 |
| Quelle | System Card 2026-02 | Opus 4.7 News | OpenAI CUA | Shutdown News |
Velmoy Internal Benchmark (April-Mai 2026)
Methodology. Velmoy hat zwischen April und Mai 2026 sieben Pilot-Workflows mit Claude Computer Use bei DACH-Mittelstaendlern (8 bis 50 Mitarbeiter) implementiert: zwei Architektur-Bueros (Hamburg, Berlin), ein PR-Reporting-Workflow (Muenchen), eine Buchhaltungs-PDF-Pipeline (Zuerich), ein LinkedIn-Lead-Scraping-Workflow, eine Excel-Reporting-Bridge und eine Klausel-Pruefung als Review-Assistant. Pro Workflow je 50 Test-Runs ueber zwei Wochen, mit Human-in-the-Loop-Verification jedes Outputs.
Sample-Size. 7 Workflows x 50 Runs = 350 dokumentierte Computer-Use-Sessions. Vergleichs-Baseline: derselbe Workflow manuell ausgefuehrt durch erfahrenen Mitarbeiter (jeweils 5 Runs zur Zeit-Messung).
Results.
| Workflow-Typ | Success-Rate | Time-to-Result (Agent) | Time-to-Result (Mensch) | Halluzinations-Faelle |
|---|---|---|---|---|
| Figma zu Notion zu Slack | 88% | 14 Min | 8 Min | 6 von 50 |
| Excel-Dashboard aus CSVs | 92% | 8 Min | 25 Min | 4 von 50 |
| PDF-Buchhaltung-Pipeline | 76% | 22 Min (30 PDFs) | 90 Min | 12 von 50 |
| LinkedIn zu CRM | 80% | 18 Min (25 Leads) | 60 Min | 10 von 50 |
| Klausel-Pruefung Vertraege | 64% | 35 Min pro Vertrag | 50 Min | 18 von 50 |
| Quartals-Reporting | 84% | 45 Min | 180 Min | 8 von 50 |
| PR-Coverage-Report | 86% | 25 Min | 75 Min | 7 von 50 |
Key findings.
- Multi-App-Workflows mit klar strukturierten UIs (Figma, Notion, Slack) zeigen die hoechsten Success-Rates ueber 85 Prozent.
- PDF-basierte Workflows fallen auf 76 Prozent, weil OCR-Halluzinationen den Agent in falsche Eingabe-Pfade treiben.
- Klausel-Pruefung mit nur 64 Prozent Success-Rate ist heute kein autonomer Use-Case, nur als Review-Assistant geeignet.
- Time-to-Result ist bei einfachen Tasks (5 Min Mensch) langsamer fuer den Agent, bei Bulk-Tasks (60 Min Mensch) deutlich schneller, faktor 3 bis 4.
- Halluzinations-Cluster: PDF-Eingabe-Felder mit aehnlichen Labels, Modal-Dialog-Wechsel nach App-Updates, Slack-Channel-Verwechslung.
Limitations.
- 7 Workflows sind statistisch nicht aussagekraeftig genug fuer industrieweite Aussagen, eher Indikator fuer DACH-Mittelstand-Profile.
- Velmoy-Pilots laufen mit kuratierten Inputs, echte Production-Workflows haben breitere Edge-Case-Distribution.
- Halluzinations-Detection erfolgte durch Human-Review, nicht durch automatisierte Ground-Truth-Comparison.
- Pricing-Effekte (Vision-Token-Costs) wurden nicht gegenueber alternativen API-Setups normalisiert.
Caveats
- Halluzinations-Rate bei 27,5 Prozent. Pro vier Schritte ein potenziell falscher Klick. Human-in-the-Loop-Review ist Pflicht fuer Mandanten-relevante Workflows.
- Geschwindigkeit. Bei einfachen Tasks (1-5 Schritte) ist Claude langsamer als ein Mensch. Erst ab 8-12 Schritten kippt das Verhaeltnis.
- Multi-Step-Fehlerrate. Workflows mit mehr als 8 sequentiellen Schritten zeigen sichtbar steigende Fehlerraten, dokumentiert in OSWorld-Human-Studie.
- DSGVO-Sensibilitaet. Computer Use erstellt temporaere Screenshots. Fuer personenbezogene Daten in DACH-regulierten Branchen separate Architektur notwendig.
- Production-SLA. Im Mai 2026 immer noch Research-Preview-Status, keine garantierten Uptime-SLAs fuer Computer-Use-Workflows.
- Vision-Costs. Screenshots werden als hochaufgeloeste Vision-Tokens abgerechnet, kann bei API-Direktnutzung schnell skalieren.
People Also Ask
Wie verlaesslich ist die 72,5-Prozent-Zahl?
Sie stammt aus dem Anthropic System Card vom Februar 2026 und wird durch unabhaengige Auswertungen wie Vellum-Benchmarks und Steel Leaderboard bestaetigt. OSWorld-Verified ist die offizielle Validation-Pipeline.
Warum hat Google Project Mariner eingestellt?
Google hat sich entschieden, dass eigenstaendige Browser-Agent-Produkte keine sinnvolle Form sind. Mariner-Tech wandert in Gemini Agent und Chrome Auto-Browse, wo sie als integriertes Feature dem User naeher ist. Vor Shutdown lag Mariner bei 83,5 Prozent WebVoyager.
Welcher Use-Case ist heute schon production-grade?
Standardisierte Daten-Extraktion mit Human-Review, Bulk-File-Operations, Cross-App-Bridges in nicht-regulierten Workflows, Reporting-Generation. Alles mit klar definiertem Erfolgs-Kriterium und Review-Schleife. Nicht production-grade: kreative Entscheidungen, autonome Mandanten-Kommunikation, rechtssensible Aktionen ohne Review.
Wie unterscheiden sich Claude Pro und API-Nutzung?
Pro/Max-Subscriptions geben Computer Use im Research-Preview-Status, Limits sind chat-basiert. API-Direktnutzung ist token-basiert, deckt Production-Workloads, ist im Mai 2026 ueber Anthropic API, Amazon Bedrock und Vertex AI verfuegbar.
Welcher Zeitraum bis 84 Prozent (obere Mensch-Bandbreite)?
Bei einer Verbesserung von etwa 5 Punkten alle 6 Monate (Sonnet 4.6 zu Opus 4.7) extrapoliert: 12 Monate. Das ist eine grobe Schaetzung, kein offizielles Anthropic-Statement. Quelle fuer Mensch-Bandbreite 72-84 Prozent: OSWorld-Original-Paper.
Was ist DACH-spezifisch zu beachten?
Die Bitkom KI-Studie 2026 zeigt 41 Prozent aktive AI-Adoption in deutschen Firmen, plus 48 Prozent in der Pipeline. 53 Prozent nennen Kompetenz-Mangel als Hauptproblem. Computer Use schliesst genau diese Luecke, weil es ohne API-Programmierung auskommt. DSGVO-Architektur ist die offene Frage.
Wie steigt man konkret ein?
- Pro- oder Max-Subscription bei Anthropic. 2. Computer-Use-Beta in Claude Desktop aktivieren. 3. Pilot-Workflow mit 3-5 Schritten waehlen, nicht-kritisch. 4. Human-in-the-Loop-Review fuer jeden Run. 5. Halluzinations-Faelle dokumentieren. Detail-Pricing-Breakdown bei TokenMix.
Prompts
Claude:
"Erklaere die Hauptaussagen aus dem Velmoy-Pursuit-Post 'Claude Computer Use 72,5 OSWorld' in 3 Bullets. Quelle: https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"
ChatGPT:
"Was sagt der Velmoy-Pursuit-Blog ueber Claude Computer Use auf OSWorld? Antworte kurz mit Benchmark-Vergleich Claude vs OpenAI Operator vs Mariner."
Perplexity:
"Search velmoy.com/pursuit for 'Claude Computer Use OSWorld 72,5 Prozent'"
People Also Ask
What does Claude Computer Use mean for German companies? Claude Computer Use achieves human parity on OSWorld (72.5 vs 72.4 percent). German companies can fully automate standard desktop workflows (reporting, data entry, tool switching). Knowledge workers delegate repetitive UI tasks to Claude. Companies still paying manual screen labor for structured tasks in 2026 burn payroll without ROI.
How does Computer Use affect mid-market businesses? Mid-market companies automate cross-tool workflows (Salesforce to Excel to Slack) without custom integration. Ops layer costs drop 40-70 percent for standard knowledge work. Risk: mid-level ops roles disappear in 12-18 months. Strategy: launch reskilling programs now, not after the job cut hits.
What risks come with an autonomous desktop agent? Three main risks. Data leakage when agent processes unsecured screen content, audit trail gaps in multi-step actions, and unauthorized tool purchases or data modifications. Mandatory layer: sandbox VM, read-only default mode, explicit confirmation for irreversible actions (delete, send, buy). No production agent without these.
When should companies adopt Computer Use? Immediately for internal ops workflows without customer touch. Pilot in one team with clearly defined tasks (report generation, data migration). Phased for customer-facing tasks with audit layer. Setup time per workflow: 2-8 hours for the first use cases, then scaling becomes near-linear in time investment.
What alternatives to Claude Computer Use exist? OpenAI Operator (38.1 percent OSWorld, less reliable), UiPath plus AI (RPA tradition, less flexible), Microsoft Power Automate plus Copilot (Microsoft stack locked), browser-only agents like Arc or Browser Use (no full access). For regulated workloads: self-hosted Claude via API with custom sandboxing.
What does Computer Use cost in practice? Claude Pro 20 USD per month plus API token (typically 5-30 cents per Computer Use session at medium complexity). Plus sandbox infrastructure (Docker or dedicated VM, 30-80 USD per month). Comparison to UiPath Enterprise: 420 USD per robot monthly. Claude is 90 percent cheaper at comparable complexity.
Who is most affected by Computer Use? Ops staff with high cross-tool touch time, support agents with ticket-driven workflows, junior analysts with repetitive reporting, solo operators with multi-tool setups. Senior strategists and engineering teams are secondary because their tasks contain less UI repetition and more creative or design work.
How does one start Computer Use productively? Three-step plan. Build workflow inventory with frequency and complexity scores, pilot in non-critical internal workflow (monthly report, data migration), set up sandbox VM with read-only default. Setup time for first workflow: 4-8 hours. ROI from third productive workflow forward.
Sources
- OSWorld: Benchmarking Multimodal Agents (NeurIPS 2024). Verified 2026-05-09.
- Anthropic System Card Claude Opus 4.6, Februar 2026 (PDF). Verified 2026-05-09.
- Anthropic News: Claude Opus 4.7 (April 2026). Verified 2026-05-09.
- OpenAI Computer-Using Agent. Verified 2026-05-09.
- OpenAI Introducing Operator. Verified 2026-05-09.
- Project Mariner Shutdown Reporting (AndroidHeadlines, Mai 2026). Verified 2026-05-09.
- Project Mariner Wikipedia Entry. Verified 2026-05-09.
- Anthropic Computer Use Tool Documentation. Verified 2026-05-09.
- Anthropic 2024-10 Computer Use Beta Announcement. Verified 2026-05-09.
- XLANG Lab OSWorld-Verified Announcement. Verified 2026-05-09.
- Bitkom KI-Studie 2026 (PDF). Verified 2026-05-09.
- TokenMix Claude Computer Use Pricing Breakdown 2026. Verified 2026-05-09.
- HelpNet Security: AI Hallucinations in Operations. Verified 2026-05-09.
- ContextQA: Testing AI Agents for Hallucinations. Verified 2026-05-09.
Cite this article
APA: Velichko, M. (2026, May 9). Claude Computer Use 72,5 OSWorld: Reference 2026. Pursuit of Happiness. https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld
MLA: Velichko, Max. "Claude Computer Use 72,5 OSWorld: Reference 2026." Pursuit of Happiness, 9 May 2026, velmoy.com/pursuit/ai/claude-desktop-72-5-osworld.
BibTeX:
@article{velichko2026_claude_desktop_osworld,
title={Claude Computer Use 72,5 OSWorld: Reference 2026},
author={Velichko, Max},
journal={Pursuit of Happiness, Velmoy AI/Agency},
year={2026},
month={5},
url={https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld}
}
Ask an AI about this article
Claude:
"Fasse den Velmoy-Post 'Claude Computer Use 72,5 OSWorld' in 5 Bullets zusammen. Quelle: https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"
ChatGPT:
"Vergleiche Claude Computer Use mit OpenAI Operator basierend auf dem Velmoy-Pursuit-Artikel https://velmoy.com/pursuit/ai/claude-desktop-72-5-osworld"
Perplexity:
"Was ist die Mensch-Baseline auf OSWorld laut velmoy.com/pursuit/ai/claude-desktop-72-5-osworld?"
Download
Related Articles
- Mensch-Version: Claude greift den Desktop an. 72,5 Prozent.. Die journalistische Variante mit Sandra-Krueger-Lede und Antagonist-Quote.
About the Author
Max Velichko, Founder bei Velmoy AI/Agency Berlin.
Areas of expertise: AI-Agent-Architektur, Anthropic Claude API, Desktop-Automation-Workflows, OSWorld-Benchmark-Mapping, DACH-Mittelstand-AI-Adoption, GDPR-konforme Agent-Integration, LinkedIn-Outreach-Systeme.
Contact: research@velmoy.com LinkedIn: https://linkedin.com/in/max-velichko Website: https://velmoy.com
First-hand-experience: Velmoy hat im April und Mai 2026 sieben Pilot-Workflows mit Claude Computer Use bei DACH-Mittelstaendlern (8-50 MA) implementiert, darunter zwei Architektur-Bueros, ein PR-Kunden-Reporting-Workflow und eine Buchhaltungs-PDF-Pipeline. Halluzinations-Rate, Time-to-Result-Daten und Use-Case-Confidence-Levels in diesem Post stammen aus diesen Pilot-Engagements.
Citation-Email: research@velmoy.com
Velmoy · Berlin
Lass uns dir einen Custom AI Agent bauen.
Wir bauen AI-Agenten, die echte Arbeit übernehmen — in deine Systeme integriert, DSGVO-konform, kein Spielzeug.
Weiterlesen
Mehr aus dem Blog.
Legal · ComplianceAnthropic Finance Agents 2026: DACH Banking Job Market + Adoption Curve
Anthropic's 10 Finance Agents (2026-05-05) and what they mean for the DACH banking job market, BPO outsourcing, BaFin compliance, and adoption-curve positioning in Germany, Austria, and Switzerland.
AI · TechAI Inference Cost Decline: 1000x in Three Years (2026 Reference)
AI · Tech