Google Gemini: Alles, was Sie über die generativen KI-Modelle wissen müssen

Google versucht mit Gemini, seiner Flaggschiff-Suite generativer KI-Modelle, Apps und Dienste, Wellen zu schlagen. Aber was ist Gemini? Wie kann man es nutzen? Und wie steht es im Vergleich zu anderen generativen KI-Tools wie OpenAI's ChatGPT, Metas Llama und Microsofts Copilot? Um mit den neuesten Entwicklungen von Gemini Schritt zu halten, haben wir diesen praktischen Leitfaden zusammengestellt, den wir aktualisieren werden, sobald neue Gemini-Modelle, Funktionen und Neuigkeiten über Googles Pläne für Gemini veröffentlicht werden. Was ist Gemini? Gemini ist Googles lang erwartete, nächste Generation generativer KI-Modellfamilie. Entwickelt von Googles AI-Forschungslabors DeepMind und Google Research, kommt es in vier Varianten: Gemini Ultra, Gemini Pro, Gemini Flash, eine schnellere, \"destillierte\" Version von Pro, und Gemini Nano, zwei kleine Modelle: Nano-1 und das etwas leistungsfähigere Nano-2, das offline laufen soll. Alle Gemini-Modelle wurden so trainiert, dass sie nativ multimodal sind - das heißt, sie können mit und analysieren mehr als nur Text. Google sagt, sie wurden auf eine Vielzahl von öffentlichen, eigenen und lizenzierten Audio-, Bild- und Videodateien vorab trainiert und feinabgestimmt; eine Reihe von Codebasen; und Texte in verschiedenen Sprachen. Dies hebt Gemini von Modellen wie Googles eigenem LaMDA ab, das ausschließlich auf Textdaten trainiert wurde. LaMDA kann nichts verstehen oder generieren, was über Text hinausgeht (z.B. Aufsätze, E-Mails usw.), aber das ist bei den Gemini-Modellen nicht unbedingt der Fall. Wir möchten hier darauf hinweisen, dass die Ethik und Legalität des Trainings von Modellen auf öffentlichen Daten in einigen Fällen ohne Wissen oder Einwilligung der Dateninhaber unklar sind. Google hat eine AI-Schutzrichtlinie, um bestimmte Google Cloud-Kunden vor Klagen zu schützen, falls sie damit konfrontiert werden sollten, aber diese Richtlinie enthält Ausnahmen. Gehen Sie mit Vorsicht vor, insbesondere wenn Sie beabsichtigen, Gemini kommerziell zu nutzen. Was ist der Unterschied zwischen den Gemini-Apps und den Gemini-Modellen? Gemini ist separat und unterscheidet sich von den Gemini-Apps im Web und auf Mobilgeräten (ehemals Bard). Die Gemini-Apps sind Clients, die mit verschiedenen Gemini-Modellen verbunden sind und eine Chatbot-ähnliche Benutzeroberfläche darüber legen. Denken Sie an sie als Frontends für Googles generative KI, analog zu ChatGPT und An... ähnlich funktionieren, und ergänzen sie um weitere Funktionen wie Kontextfenster und die Möglichkeit, Python-Code direkt in Gemini auszuführen und zu bearbeiten. Gemini Advanced-Benutzer erhalten hier und da auch Extras wie bevorzugten Zugriff auf neue Funktionen, die Möglichkeit, Python-Code direkt in Gemini auszuführen und zu bearbeiten, und ein größeres \"Kontextfenster\". Gemini Advanced kann sich in einer Unterhaltung an den Inhalt von rund 750.000 Wörtern (oder 1.500 Seiten Dokumente) erinnern und darüber nachdenken, im Vergleich zu den 24.000 Wörtern (oder 48 Seiten), die die Standard-Gemini-App bewältigen kann. Eine weitere exklusive Funktion von Gemini Advanced ist die Reiseplanung in Google-Suche, die benutzerdefinierte Reisepläne aus Anweisungen erstellt. Berücksichtigt werden dabei Dinge wie Flugzeiten (aus E-Mails im Posteingang eines Benutzers), Essensvorlieben und Informationen über lokale Sehenswürdigkeiten (aus Google Suche und Maps-Daten) sowie die Entfernungen zwischen diesen Attraktionen. Gemini generiert einen Reiseplan, der sich automatisch aktualisiert, um Änderungen widerzuspiegeln. Gemini in Google-Diensten steht auch Unternehmenskunden über zwei Pläne zur Verfügung, Gemini Business (Add-on für Google Workspace) und Gemini Enterprise. Gemini Business kostet ab $20 pro Benutzer pro Monat, und Gemini Enterprise - das zusätzlich Meeting-Notizen und übersetzte Untertitel sowie Dokumentenklassifizierung und -kennzeichnung hinzufügt - ist ab $30 pro Benutzer pro Monat erhältlich. (Beide Pläne erfordern eine jährliche Verpflichtung.) Gemini in Gmail, Docs, Chrome, Dev-Tools und mehr In Gmail befindet sich Gemini in einem Seitenbereich, der E-Mails schreiben und Zusammenfassungen von Nachrichtensträngen erstellen kann. Den gleichen Bereich finden Sie in Docs, wo er Ihnen beim Schreiben und Verfeinern Ihres Inhalts und beim Brainstorming neuer Ideen hilft. Gemini in Slides generiert Folien und benutzerdefinierte Bilder. Und Gemini in Google Sheets verfolgt und organisiert Daten, erstellt Tabellen und Formeln. Die Reichweite von Gemini erstreckt sich auch auf Drive, wo es Dateien zusammenfassen und schnelle Fakten über ein Projekt geben kann. In Meet übersetzt Gemini Bildunterschriften in weitere Sprachen. Gemini kam kürzlich auch im Chrome-Browser von Google in Form eines KI-Schreibwerkzeugs an. Sie können es verwenden, um etwas komplett Neues zu schreiben oder bereits vorhandenen Text umzuschreiben; Google sagt, es werde die Webseite, auf der Sie sich befinden, berücksichtigen, um Empfehlungen zu machen. An anderen Stellen finden Sie Hinweise auf Gemini in Googles Datenbankprodukten, Cloud-Sicherheitstools und App-Entwicklungsplattformen (einschließlich Firebase und Project IDX), sowie in Apps wie Google Fotos (wo Gemini natürlichsprachliche Suchanfragen verarbeitet), YouTube (wo es bei der Ideenfindung für Videos hilft), und dem Notizbuchassistenten NotebookLM. Code Assist (ehemals Duet AI for Developers), Googles Suite von KI-gestützten Hilfswerkzeugen für Codevervollständigung und -erstellung, lagert rechenintensive Aufgaben an Gemini aus. Auch Googles Sicherheitsprodukte, die auf Gemini basieren, wie Gemini in Threat Intelligence, das große Teile potentiell schädlichen Codes analysieren kann und es Benutzern ermöglicht, mit natürlicher Sprache nach laufenden Bedrohungen oder Anzeichen von Kompromittierung zu suchen. Gemini Erweiterungen und Edelsteine Auf der Google I/O 2024 kündigte Google an, dass Gemini Advanced-Benutzer Edelsteine erstellen können, benutzerdefinierte Chatbots, die von Gemini-Modellen angetrieben werden. Edelsteine können aus natürlichsprachlichen Beschreibungen generiert werden - zum Beispiel \"Du bist mein Lauftrainer. Gib mir einen täglichen Trainingsplan\" - und mit anderen geteilt oder privat gehalten werden. Edelsteine sind in 150 Ländern und den meisten Sprachen auf Desktop und Mobilgeräten verfügbar. Sie werden schließlich über eine erweiterte Reihe von Integrationen mit Google-Diensten verfügen, einschließlich Google Kalender, Aufgaben, Keep und YouTube Music, um benutzerdefinierte Aufgaben abzuschließen. In Bezug auf Integrationen können die Gemini-Apps im Web und auf Mobilgeräten über sogenannte \"Gemini-Erweiterungen\" auf Google-Dienste zugreifen. Gemini integriert heute mit Google Drive, Gmail und YouTube, um auf Anfragen wie \"Könnten Sie meine letzten drei E-Mails zusammenfassen?\" zu reagieren. Videoclips oder Text - einschließlich Dateien wie PDFs und bald auch Videos, entweder hochgeladen oder aus Google Drive importiert - akzeptieren und Bilder generieren. Conversations mit Gemini-Apps auf dem Handy übertragen sich auf Gemini im Web und umgekehrt, wenn Sie in beiden Orten mit demselben Google-Konto angemeldet sind. Gemini Live mit tiefgreifenden Sprachchats Eine neue Erfahrung namens Gemini Live, exklusiv für Gemini Advanced-Abonnenten, ermöglicht es Benutzern, \"eingehende\" Sprachchats mit Gemini zu führen. Es ist in den Gemini-Apps auf dem Handy und den Pixel Buds Pro 2 verfügbar, wo es auch abgerufen werden kann, wenn das Telefon gesperrt ist. Mit Gemini Live können Sie Gemini unterbrechen, während der Chatbot spricht (in einer von mehreren neuen Stimmen), um eine klärende Frage zu stellen, und es passt sich in Echtzeit an Ihre Sprechmuster an. Irgendwann später in diesem Jahr wird Gemini in der Lage sein, Ihre Umgebung zu sehen und darauf zu reagieren, entweder über Fotos oder Videos, die von den Kameras Ihrer Smartphones aufgenommen wurden. Live ist auch als eine Art virtueller Coach konzipiert, der Ihnen beim Üben für Veranstaltungen, beim Brainstormen von Ideen usw. hilft. Zum Beispiel kann Live Vorschläge machen, welche Fähigkeiten in einem bevorstehenden Job- oder Praktikumsinterview hervorgehoben werden sollen, und es kann Ratschläge zum öffentlichen Sprechen geben. Sie können unsere Bewertung von Gemini Live hier lesen. Spoiler-Alarm: Wir denken, dass die Funktion noch einen langen Weg hat, bevor sie wirklich nützlich ist - aber es ist noch früh, zugegebenermaßen. Abbilderzeugung über Imagen 3 Gemini-Benutzer können Kunstwerke und Bilder mithilfe des integrierten Imagen 3-Modells generieren. Google sagt, dass Imagen 3 Textanweisungen genauer interpretieren kann als sein Vorgänger Imagen 2 und bei der Generierung kreativerer und detaillierterer Ergebnisse ist. Darüber hinaus produziert das Modell weniger Artefakte und visuelle Fehler (zumindest nach Google) und ist das bisher beste Imagen-Modell für die Darstellung von Text. Im Februar musste Google die Fähigkeit von Gemini, Bilder von Personen zu generieren, nachdem Benutzer über historische Ungenauigkeiten geklagt hatten, pausieren. Im August führte das Unternehmen jedoch die Personen-Generierung für bestimmte Benutzer wieder ein, speziell für englischsprachige Benutzer, die sich für eines der kostenpflichtigen Gemini-Programme von Google angemeldet hatten (z.B. Gemini Advanced) im Rahmen eines Pilotprogramms. Gemini für Jugendliche Im Juni führte Google eine auf Jugendliche ausgerichtete Gemini-Erfahrung ein, die es Schülern ermöglicht, sich über ihre Google Workspace for Education-Schulkonten anzumelden. Das auf Teenager zugeschnittene Gemini umfasst \"zusätzliche Richtlinien und Sicherheitsvorkehrungen\", einschließlich eines maßgeschneiderten Einarbeitungsprozesses und eines \"KI-Leitfadens\", um Jugendliche darin zu unterstützen, KI verantwortungsbewusst zu nutzen. Ansonsten ist es nahezu identisch mit dem Standard-Gemini-Erlebnis, einschließlich der \"Doppelüberprüfung\", die das Web durchsucht, um zu sehen, ob die Antworten von Gemini korrekt sind. Gemini in Smart-Home-Geräten Eine wachsende Anzahl von von Google hergestellten Geräten nutzt Gemini für erweiterte Funktionalitäten, vom Google TV Streamer über das Pixel 9 und 9 Pro bis zum neuesten Nest Learning Thermostat. Auf dem Google TV Streamer nutzt Gemini Ihre Präferenzen, um Inhaltsvorschläge über Ihre Abonnements und Zusammenfassungen von Bewertungen sowie ganzen Staffeln von Fernsehsendungen zu erstellen. Auf dem neuesten Nest-Thermostat (sowie Nest-Lautsprechern, Kameras und Smart-Displays) wird Gemini bald die Gesprächs- und Analysefähigkeiten von Google Assistant stärken. Abonnenten des Google Nest Aware-Plans erhalten später in diesem Jahr einen Vorgeschmack auf neue, von Gemini betriebene Erlebnisse wie KI-Beschreibungen für Nest-Kameramaterial, natürliche Sprachvide... rund um die Uhr bedrohlich sind oder Hinweise auf Kompromittierungen geben. Auch später in diesem Jahr werden Google Assistant auf Nest-Branded und anderen Smart-Home-Geräten einige Upgrades erhalten, um Gespräche natürlicher erscheinen zu lassen. Verbesserte Stimmen sind auf dem Weg, ebenso wie die Möglichkeit, Folgefragen zu stellen und [einfacher hin und her zu gehen. Was können die Gemini-Modelle? Da die Gemini-Modelle multimodal sind, können sie eine Vielzahl multimodaler Aufgaben erledigen, vom Transkribieren von Sprache bis zum Untertiteln von Bildern und Videos in Echtzeit. Viele dieser Fähigkeiten haben bereits den Produktstatus erreicht (wie im vorherigen Abschnitt angedeutet), und Google verspricht noch viel mehr in naher Zukunft. Natürlich ist es etwas schwer, dem Unternehmen zu glauben. Google hat mit dem ursprünglichen Bard-Launch ernsthaft unterdurchschnittliche Leistungen erbracht. In letzter Zeit hat es aber mit einem Video, das die Fähigkeiten von Gemini zeigen soll, eher aspirativ als live, einige Federn gelassen. Außerdem bietet Google keine Lösung für einige der zugrunde liegenden Probleme der generativen KI-Technologie heute, wie ihre codierten Vorurteile und ihre Tendenz dazu, Dinge zu erfinden (d.h. zu halluzinieren). Auch nicht seine Konkurrenten, aber es ist etwas, das man im Hinterkopf behalten sollte, wenn man in Betracht zieht, Gemini zu nutzen oder dafür zu bezahlen. Im Sinne dieses Artikels, in dem davon ausgegangen wird, dass Google mit seinen jüngsten Behauptungen ehrlich ist, hier ist, was die verschiedenen Ebenen von Gemini jetzt können und was sie können werden, wenn sie ihr volles Potenzial erreichen. Was Sie mit Gemini Ultra machen können Google sagt, dass Gemini Ultra - dank seiner Multimodalität - verwendet werden kann, um bei Dingen wie Physikaufgaben zu helfen, Probleme schrittweise auf einem Arbeitsblatt zu lösen und mögliche Fehler in bereits ausgefüllten Antworten aufzuzeigen. Ultra kann auch auf ... kann auch auf Aufgaben angewendet werden, wie das Identifizieren wissenschaftlicher Arbeiten, die für ein Problem relevant sind. Das Modell kann z.B. Informationen aus mehreren Arbeiten extrahieren und ein Diagramm aus einer Arbeit aktualisieren, indem es die Formeln generiert, die benötigt werden, um das Diagramm mit aktuelleren Daten neu zu erstellen. Gemini Ultra unterstützt technisch gesehen die Bildgenerierung. Aber diese Funktion hat es noch nicht in die Produktversion des Modells geschafft - vielleicht, weil der Mechanismus komplexer ist als bei Apps wie ChatGPT, die Bilder generieren. Anstatt Anweisungen an einen Bildgenerator zu geben (wie bei DALL-E 3 im Fall von ChatGPT), gibt Gemini Bilder \"nativ\" aus, ohne einen Zwischenschritt. Ultra ist als API über Vertex AI, Googles vollständig gemanagte AI-Entwicklungsplattform, und AI Studio, Googles webbasiertes Werkzeug für App- und Plattformentwickler, verfügbar. Die Fähigkeiten von Gemini Pro Google sagt, dass Gemini Pro eine Verbesserung gegenüber LaMDA in seinen Fähigkeiten zum logischen Denken, Planen und Verstehen ist. Die neueste Version, Gemini 1.5 Pro - die die Gemini-Apps für Gemini Advanced-Abonnenten antreibt - übertrifft sogar in einigen Bereichen die Leistung von Ultra. Gemini 1.5 Pro hat sich in mehreren Bereichen im Vergleich zu seinem Vorgänger Gemini 1.0 Pro verbessert, vielleicht am offensichtlichsten in der Menge an Daten, die es verarbeiten kann. Gemini 1.5 Pro kann bis zu 1,4 Millionen Wörter, zwei Stunden Video oder 22 Stunden Audio aufnehmen und über diese Daten nachdenken oder Fragen dazu beantworten. Gemini 1.5 Pro wurde im Juni zusammen mit einer Funktion namens Code Execution auf Vertex AI und AI Studio allgemein verfügbar, die darauf abzielt, Fehler im von dem Modell generierten Code durch interaktive Verfeinerung über mehrere Schritte zu reduzieren. (Code Execution unterstützt auch Gemini Flash.) In Vertex AI können Entwickler Gemini Pro durch einen Feinabstimmungs- oder \"Grundierungs\"-Prozess an spezifische Kontexte und Anwendungsfälle anpassen. Beispielsweise kann Gemini Pro (zusammen mit anderen Gemini-Modellen) angewiesen werden, Daten von Drittanbietern wie Moody's, Thomson Reuters, ZoomInfo und MSCI oder Informationen aus Unternehmensdatensätzen oder Google-Suche anstelle seines breiteren Wissensspeichers zu verwenden. Gemini Pro kann auch mit externen, Drittanbieter-APIs verbunden werden, um bestimmte Aktionen durchzuführen, wie die Automatisierung eines Backoffice-Workflows. AI Studio bietet Vorlagen zum Erstellen strukturierter Chat-Anfragen mit Pro. Entwickler können den kreativen Bereich des Modells steuern und Beispiele geben, um Ton