Anthropic: Claude 3 Modellreihe

Anthropic kündigte heute eine neue Serie großer Sprachmodelle an, die das Unternehmen als die intelligentesten der Welt bezeichnet, die bisher entwickelt wurden, und die die Angebote der Konkurrenten von OpenAI und Google übertreffen.

Die neue Modellreihe von Anthropic trägt den Namen Claude 3 und besteht aus drei verschiedenen Versionen: Opus, Sonnet und Haiku. Jede Version variiert in ihrer Leistungsfähigkeit und ihrem Preis. Opus, die leistungsstärkste und teuerste Version, hat laut Anthropic bei verschiedenen Intelligenz-Benchmarks OpenAIs GPT-4 und Googles Gemini 1.0 Ultra übertroffen. Opus und Sonnet wurden bereits am Montag veröffentlicht, während die Veröffentlichung von Haiku zu einem späteren Zeitpunkt angekündigt wurde.

In einem Interview erklärte der Mitbegründer und CEO von Anthropic, Dario Amodei, dass die verschiedenen Versionen der Modellfamilie für unterschiedliche Geschäftsanwendungen konzipiert wurden. Er betonte, dass laut Bewertungen Claude 3 Opus in vielen Bereichen als das leistungsstärkste Modell der Welt gilt.

In verschiedenen beliebten Testbereichen wie allgemeines Wissen auf Bachelor-Niveau (MMLU), Mathematik der Grundschule (GSM8K), Computercode (HumanEval) und Frage-Antwort-Wissen (ARC-Challenge) schnitt Claude 3 Opus besser ab als OpenAIs GPT-4 und Googles Gemini 1.0 Ultra, so die Benchmarks des Unternehmens. Auch auf dem Allgemeinwissens-Benchmark übertraf Claude 3 Opus das Spitzenmodell Mistral Large von Mistral, einem Open-Source-KI-Unternehmen, das letzte Woche veröffentlicht wurde.

Die Version, die die meisten Benutzer sehen werden, Claude 3 Sonnet, schnitt im Vergleich zu GPT-4 in einigen Bereichen besser, in anderen jedoch schlechter ab. Dario Amodei räumte ein, dass die Benchmarks von Anthropic die neuesten Aktualisierungen von OpenAI und Google (GPT-4 Turbo und Gemini 1.5 Pro) nicht berücksichtigten, da entsprechende Testbewertungen noch nicht veröffentlicht wurden. „Ich wäre überrascht, wenn wir nicht konkurrenzfähig wären“, sagte er.

Claude 3 Opus ist mit 15 US-$ pro Million Eingabetokens - was etwa 2.500 Buchseiten entspricht - und 75 US-$ pro Million Ausgabetokens teurer als die Vorabversion von OpenAIs GPT-4 Turbo, die jeweils 10 US-$ und 30 US-$ pro Million Tokens kostet. Laut Amodei und Daniela Amodei, Mitbegründerin von Anthropic, wird Opus von Unternehmen genutzt werden, die hochmoderne Leistung für komplexe Datenanalysen und biomedizinische Forschung benötigen.

Claude 3 Sonnet hingegen ist fünfmal günstiger und eignet sich für die meisten Aufgaben, von der Suche und Wiederherstellung großer Datenmengen bis hin zu Umsatzprognosen und Codegenerierung.

Das preisgünstigste Modell, Claude 3 Haiku, wird nur einen Bruchteil von Opus kosten und ist nützlich für Live-Interaktionen mit Kunden, Inhaltsmoderation und die Verwaltung von Lagerbeständen in der Logistik. Laut Dario Amodei ist die Leistung des Haiku-Modells trotzdem vergleichbar mit dem letzten Spitzenmodell von Anthropic, dem Claude 2, das vor nur acht Monaten veröffentlicht wurde. „Das ist ein großer Fortschritt“, betonte er.

Alle drei Modelle werden es ermöglichen, Eingaben von bis zu 200.000 Tokens zu verarbeiten (ungefähr die Größe eines Buches), was mehr ist als die von GPT-4 Turbo unterstützten 128.000. Anthropic sagte, dass Opus-Benutzer für bestimmte Anwendungen eine Begrenzung von 1 Million Tokens anfordern können, was dem Maximum entspricht, das Google einigen Benutzern von Gemini 1.5 Pro angeboten hat.

Anthropic wurde von sieben Forschern gegründet, die OpenAI verlassen haben, und hat sich historisch gesehen durch einen stärkeren Fokus auf KI-Sicherheit von ihrem Ursprung und anderen Unternehmen in der Branche abheben wollen. Einige Brancheninsider haben sich gefragt, ob dies das Unternehmen verlangsamt hat und in den letzten Monaten die Leistung seiner Modelle in Frage gestellt, auch in den sozialen Medien. Auf einer beliebten, von der Masse unterstützten Rangliste von menschlichen Evaluatoren hat Claude 1 derzeit eine höhere Bewertung als seine Nachfolger Claude 2.0 und das aktualisierte Claude 2.1.

Dario Amodei hat diese Bewertungen als nur eine menschliche Bewertung einer begrenzten Anzahl von Verbraucheraufgaben abgetan. Er gab zu, dass während Claude 2 in einer Weise sicherer war als sein Vorgänger, was die Forscher von Anthropic zufriedenstellte, dies jedoch zu einer höheren Anzahl von "falschen Ablehnungen" führte, also der Ablehnung von Eingaben, die das Modell für zu nah an seinen Sicherheitsgrenzen hielt. Die Familie von Claude 3-Modellen lehnt solche Ablehnungen viel seltener ab als ihre Vorgänger, behauptete Anthropic. Harmlose Eingaben, die inhaltlich nahe an den Sicherheitsgrenzen liegen, werden etwa 10% der Zeit abgelehnt, verglichen mit 25 % für Claude 2.1. „Jetzt machen wir Fortschritte hin zu einem ausgewogeneren Verhältnis zwischen den beiden, etwas, das das Beste aus beiden Welten vereint“, sagte Amodei. „Es ist wirklich schwierig, eine komplexe Grenze richtig zu ziehen. Wir versuchen immer, das besser zu machen.“

Während Unternehmen wie Inflection, Character.AI und sogar OpenAI sich mehr auf Verbraucheranwendungen konzentrieren, hat Anthropic den Fokus auf Geschäftskunden gelegt. Nutzer ihres kostenlosen Chatbots für Verbraucher, ebenfalls namens Claude, erhalten jetzt Zugang zu Sonnet, während Personen, die Opus ausprobieren möchten, sich für die kostenpflichtige Version zum Preis von 20 US-$  pro Monat anmelden müssen. Aber die Veröffentlichungen von Claude 3 wurden eher mit Geschäftsanwendungsfällen im Hinterkopf gemacht, sagte Daniela Amodei. Zu den Kunden von Claude gehören Technologieunternehmen wie Gitlab, Notion, Quora und Salesforce (ein Investor von Anthropic); Finanzgigant Bridgewater und Konglomerat SAP sowie das Unternehmen für Unternehmensforschung LexisNexis, der Telekommunikationsanbieter SK Telecom und das Dana-Farber Cancer Institute.

Unter den frühen Testbenutzern von Claude 3 fand der Produktivitätssoftwarehersteller Asana eine 42 %ige Verbesserung der anfänglichen Reaktionszeit, sagte der auf KI fokussierte Manager Eric Pelz in einer Erklärung. Das Softwareunternehmen Airtable sagte, es habe Claude 3 Sonnet in sein eigenes KI-Tool integriert, um bei schnellerer Inhalts-Erstellung und Datensummarisierung zu helfen.

Was die Kosten für das Training von Claude 3 betrifft - wie viel Rechenleistung und wie lange -, wollten die Mitbegründer von Anthropic keine Angaben machen. Obwohl Claude 2 im letzten Juli veröffentlicht wurde, sagte Amodei, dass dies kein Hinweis sei, da das Unternehmen manchmal mehrere Modelle gleichzeitig trainiert, je nach Verfügbarkeit von Clustern von Grafikprozessoren oder GPUs.

Anthropic - das kürzlich 750 Mio. US-$ zu einer Bewertung von 18,4 Mrd. US-$ sammelte, wie Forbes berichtete - plant, Funktionen wie Code-Interpretation, Suchfunktionen und Quellenangaben in den kommenden Monaten hinzuzufügen. „Wir werden weiterhin unsere Modelle hochskalieren und intelligenter machen, aber auch weiterhin versuchen, die kleineren, günstigeren Modelle intelligenter und effizienter zu machen“, sagte Amodei. „Es wird das ganze Jahr über große und kleine Updates geben.“

Foto: Anthropic
Text: Alex Konrad

Up to Date

Mit dem FORBES-NEWSLETTER bekommen sie regelmässig die spannendsten Artikel sowie Eventankündigungen direkt in Ihr E-mail-Postfach geliefert.