
Google versucht mit Gemini, seiner Flaggschiff-Suite von generativen KI-Modellen, Apps und Diensten, Wellen zu schlagen. Aber was ist Gemini? Wie kann man es nutzen? Und wie steht es im Vergleich zu anderen generativen KI-Tools wie OpenAI's ChatGPT, Meta's Llama und Microsoft's Copilot?
Um es Ihnen leichter zu machen, mit den neuesten Entwicklungen von Gemini Schritt zu halten, haben wir diesen praktischen Leitfaden zusammengestellt, den wir aktualisieren werden, wenn neue Gemini-Modelle, Funktionen und Nachrichten über Googles Pläne für Gemini veröffentlicht werden.
Was ist Gemini?
Gemini ist Googles lang erwartete, nächste Generation von generativen KI-Modellen. Entwickelt von Googles KI-Forschungslabors DeepMind und Google Research, gibt es mehrere Varianten:
- Gemini Ultra, ein sehr großes Modell.
- Gemini Pro, ein großes Modell - allerdings kleiner als Ultra. Die neueste Version, Gemini 2.0 Pro, ist Googles aktuelles Flaggschiff.
- Gemini Flash, eine schnellere, \"destillierte\" Version von Pro.
- Gemini Flash-Lite, eine etwas kleinere und schnellere Version von Gemini Flash.
- Gemini Flash Thinking, ein Modell mit \"Denkfähigkeiten\".
- Gemini Nano, zwei kleine Modelle: Nano-1 und das etwas leistungsfähigere Nano-2, das offline laufen soll.
Alle Gemini-Modelle wurden darauf trainiert, nativ multimodal zu sein - das heißt, sie können mit und analysieren mehr als nur Text. Google sagt, sie wurden vorab trainiert und feinabgestimmt auf verschiedene öffentliche, proprietäre und lizenzierte Audio-, Bilder- und Videodateien; eine Reihe von Codebasen; und Texte in verschiedenen Sprachen.
Das unterscheidet Gemini von Modellen wie Googles eigenem LaMDA, das ausschließlich auf Textdaten trainiert wurde. LaMDA kann nichts außer Text verstehen oder generieren (z.B. Aufsätze, E-Mails usw.), aber das trifft nicht unbedingt auf Gemini-Modelle zu. Beispielsweise können die neuesten Versionen von Gemini Flash und Gemini Pro neben Text auch nativ Bilder und Audioausgaben generieren.
An dieser Stelle sei darauf hingewiesen, dass die ethischen und rechtlichen Fragen der Schulung von Modellen auf öffentlichen Daten, teilweise ohne Wissen oder Zustimmung der Dateninhaber, unklar sind. Google hat eine KI-Entlastungspolice, um bestimmte Google Cloud-Kunden vor Klagen zu schützen, sollten sie welche bekommen, aber diese Police enthält Ausnahmen. Gehen Sie daher vorsichtig vor - insbesondere, wenn Sie Gemini kommerziell nutzen möchten.
Was ist der Unterschied zwischen den Gemini-Apps und den Gemini-Modellen?
Gemini ist separat von den Gemini-Apps im Web und auf Mobilgeräten (ehemals Bard).
Die Gemini-Apps sind Clients, die mit verschiedenen Gemini-Modellen verbinden und eine chatbot-ähnliche Oberfläche darüber legen. Denken Sie dabei an Frontends für die generative KI von Google, analog zu ChatGPT und Anthropic's Claude-Familie von Apps.
Auf Android können Benutzer ein Gemini-Overlay aufrufen, um Fragen zu stellen, beispielsweise zu dem, was auf ihrem Bildschirm angezeigt wird (zum Beispiel ein YouTube-Video). Ein langes Drücken des Ein-/Aus-Schalters eines unterstützten Smartphones oder das Aussprechen von "Hey Google" ruft das Overlay auf.
Die Gemini-Apps können neben Sprachbefehlen und Text auch Bilder akzeptieren - einschließlich Dateien wie PDFs, die hochgeladen oder aus Google Drive importiert werden - und Bilder generieren. Wie erwartet, werden Gespräche mit den Gemini-Apps auf Mobilgeräten auch auf der Gemini-Webplattform fortgesetzt und umgekehrt, wenn Sie sich an demselben Google-Konto in beiden Plattformen anmelden.
Gemini Advanced
Die Gemini-Apps sind nicht das einzige Mittel, um die Gemini-Modelle bei Aufgaben zu unterstützen. Langsam, aber sicher, finden Gemini-angereicherte Funktionen ihren Weg in gängige Google-Apps und -Dienste wie Gmail und Google Docs.
Um die meisten dieser Funktionen nutzen zu können, benötigen Sie den Google One AI Premium Plan. Technisch gesehen ein Teil von Google One, kostet der AI Premium Plan 20 US-Dollar pro Monat und bietet Zugriff auf Gemini in Google Workspace-Apps wie Docs, Maps, Slides, Sheets, Drive und Meet. Er ermöglicht auch das, was Google als Gemini Advanced bezeichnet, das die anspruchsvolleren Gemini-Modelle des Unternehmens in die Gemini-Apps bringt.
Benutzer von Gemini Advanced erhalten hier und da Extras, wie bevorzugten Zugriff auf neue Funktionen und Modelle; die Möglichkeit, Python-Code direkt in Gemini auszuführen und zu bearbeiten; und erhöhte Grenzen für NotebookLM, Googles Tool, das PDFs in KI-generierte Podcasts umwandelt. Kürzlich hat Gemini Advanced eine Speicherfunktion erhalten, die Benutzereinstellungen speichert und es Gemini ermöglicht, sich auf alte Gespräche als Kontext für aktuelle Chats zu beziehen.
Eines der überzeugendsten Exklusivitäten von Gemini Advanced, Deep Research, nutzt Gemini-Modelle mit \"fortgeschrittenem Denken\", um detaillierte Übersichten zu erstellen. Als Antwort auf eine Anfrage (z.B. \"Wie sollte ich meine Küche neu gestalten?\") entwickelt Deep Research einen mehrschrittigen Forschungsplan und durchsucht das Web, um eine umfassende Antwort zu formulieren.
Gemini in Gmail, Docs, Chrome, Entwicklungstools und mehr
In Gmail befindet sich Gemini in einem Seitenbereich, der E-Mails schreiben und Nachrichtenverläufe zusammenfassen kann. Sie finden denselben Bereich auch in Docs, wo er bei der Erstellung und Verfeinerung von Inhalten sowie beim Brainstorming neuer Ideen hilft. Gemini in Slides generiert Folien und benutzerdefinierte Bilder. Gemini in Google Sheets verfolgt und organisiert Daten, erstellt Tabellen und Formeln.
Gemini ist auch in Google Maps vorhanden, wo es Bewertungen zu lokalen Unternehmen zusammenfasst und Empfehlungen gibt, wie man einen Tag in einer fremden Stadt verbringen kann. Die Reichweite des Chatbots erstreckt sich auch auf Drive, wo er Dateien und Ordner zusammenfassen und schnelle Fakten über ein Projekt geben kann.
Vor Kurzem kam Gemini auch in Googles Chrome-Browser in Form eines KI-Schreibtools. Sie können es verwenden, um etwas völlig Neues zu schreiben oder vorhandenen Text umzuschreiben; Google sagt, es werde die Webseite berücksichtigen, auf der Sie sich befinden, um Empfehlungen zu geben.
An anderer Stelle finden Sie Anspielungen auf Gemini in Googles Datenbankprodukten, Cloud-Sicherheitstools und App-Entwicklungsplattformen (einschließlich Firebase und Project IDX), sowie in Apps wie Google Photos (wo Gemini natürlichsprachliche Suchanfragen bearbeitet), YouTube (wo es bei der Ideenfindung für Videos hilft), und Meet (wo es Untertitel übersetzt).
Code Assist (ehemals Duet AI for Developers), Googles Suite von KI-unterstützten Hilfsmitteln für Codevervollständigung und -generierung, überträgt rechenintensive Aufgaben an Gemini. Auch Google-Sicherheitsprodukte, die auf Gemini basieren, wie Gemini in der Threat Intelligence, die große Teile potenziell schädlichen Codes analysieren kann und es Benutzern ermöglicht, natürlichsprachliche Suchanfragen nach laufenden Bedrohungen oder Kompromissanzeichen durchzuführen.
Gemini-Erweiterungen und Gems
Gemini Advanced-Benutzer können Gems erstellen, benutzerdefinierte Chatbots auf Desktop und Mobilgeräten, die von Gemini-Modellen unterstützt werden. Gems können aus natürlichsprachlichen Beschreibungen generiert werden - zum Beispiel \"Du bist mein Lauftrainer. Gib mir einen täglichen Laufplan\" - und mit anderen Benutzern geteilt oder privat gehalten werden.
Die Gemini-Apps können über sogenannte \"Gemini-Erweiterungen\" auf Google-Dienste zugreifen. Gemini integriert sich mit Drive, Gmail, YouTube und mehr, um auf Anfragen wie \"Könntest du meine letzten drei E-Mails zusammenfassen?\" zu antworten.
Gemini Live - umfangreiche Sprachchats
Ein Erlebnis namens Gemini Live ermöglicht es Benutzern, \"umfangreiche\" Sprachchats mit Gemini zu führen. Es ist in den Gemini-Apps auf Mobilgeräten und den Pixel Buds Pro 2 verfügbar, wo es auch dann zugegriffen werden kann, wenn Ihr Telefon gesperrt ist.
Mit Gemini Live aktiviert können Sie Gemini unterbrechen, während der Chatbot spricht, um eine klärende Frage zu stellen, und er wird sich in Echtzeit an Ihre Sprachmuster anpassen. Live soll auch als eine Art virtueller Coach dienen, der Ihnen dabei hilft, für Veranstaltungen zu proben, Ideen zu sammeln usw. Zum Beispiel kann Live vorschlagen, welche Fähigkeiten Sie bei einem anstehenden Vorstellungsgespräch hervorheben sollten und Tipps für das öffentliche Sprechen geben.
Sie können unsere Bewertung von Gemini Live hier lesen.
Gemini für Jugendliche
Google bietet eine auf Jugendliche ausgerichtete Gemini-Erfahrung für Schüler an.
Die auf Jugendliche ausgerichtete Gemini-Plattform verfügt über \"zusätzliche Richtlinien und Schutzmaßnahmen\", darunter einen maßgeschneiderten Einführungsprozess und einen KI-Leitfaden. Andernfalls ist sie nahezu identisch mit der Standard-Gemini-Erfahrung, bis hin zur \"double-check\"-Funktion, die das Web durchsucht, um zu überprüfen, ob Gemini-Antworten korrekt sind.
Was können die Gemini-Modelle tun?
Weil Gemini-Modelle multimodal sind, können sie eine Vielzahl multimodaler Aufgaben ausführen, von der Transkription von Sprache bis zur Untertitelung von Bildern und Videos in Echtzeit. Viele dieser Fähigkeiten haben bereits den Produktionsstand erreicht, und Google verspricht noch viel mehr in naher Zukunft.
Natürlich bietet Google keine Lösung für einige der zugrunde liegenden Probleme der generativen KI-Technologie heute, wie ihre kodierten Voreingenommenheiten und die Tendenz, Dinge zu erfinden (d.h. zu halluzinieren). Auch die Konkurrenten bieten keine Lösung, aber es ist etwas, woran man denken sollte, wenn man in Erwägung zieht, Gemini zu nutzen oder dafür zu bezahlen.
Fähigkeiten von Gemini Pro
Google sagt, dass sein neuestes Pro-Modell, Gemini 2.0 Pro, für das Codieren und komplexe Anfragen am besten ist. 2.0 Pro übertrifft seinen Vorgänger, Gemini 1.5 Pro, in Benchmarks, die Programmierung, Denken, Mathematik und Faktengenauigkeit messen.
In Googles Vertex AI-Plattform können Entwickler Gemini Pro an spezifische Kontexte und Anwendungsfälle über einen Feinabstimmungs- oder \"Grounding\"-Prozess anpassen. Zum Beispiel kann Pro (zusammen mit anderen Gemini-Modellen) angewiesen werden, Daten von Drittanbietern wie Moody's, Thomson Reuters, ZoomInfo und MSCI zu verwenden oder Informationen aus unternehmenseigenen Datensätzen oder Google-Suche anstelle seines breiteren Wissenspools zu beziehen. Gemini Pro kann auch an externe, Drittanbieter-APIs angeschlossen werden, um bestimmte Aktionen auszuführen, wie die Automatisierung eines Back-Office-Workflows.
Googles AI Studio-Plattform bietet Vorlagen zur Erstellung strukturierter Chat-Anfragen mit Pro. Entwickler können den kreativen Spielraum des Modells kontrollieren und Beispiele geben, um Ton und Stilanweisungen zu geben - und auch die Sicherheitseinstellungen von Pro tunen.
Gemini Flash ist leichtgewichtig, während Gemini Flash Thinking Vernunft hinzufügt
Gemini 2.0 Flash, das Tools wie Google-Suche nutzen kann und mit externen APIs interagieren kann, übertrifft einige der größeren Gemini 1.5-Modelle in Benchmarks, die Programmierung und Bildanalyse messen. Als Ableger von Gemini Pro ist Flash klein und effizient - für schmale, hochfrequente generative KI-Arbeitslasten konzipiert.
Google sagt, dass Flash besonders für Aufgaben wie Zusammenfassungen und Chat-Apps, Bild- und Videobeschriftung und die Extraktion von Daten aus langen Dokumenten und Tabellen geeignet ist. In der Zwischenzeit übertrifft Gemini 2.0 Flash-Lite, eine kompaktere Version von Flash, Gemini 1.5 Flash, läuft aber zum gleichen Preis und Geschwindigkeit, laut Google.
Im letzten Dezember hat Google eine \"denkende\" Version von Gemini 2.0 Flash veröffentlicht, die \"Denkfähigkeiten\" hat. Das KI-Modell benötigt einige Sekunden, um sich rückwärts durch ein Problem zu arbeiten, bevor es eine Antwort gibt, was seine Zuverlässigkeit verbessern kann.
Gemini Nano kann auf Ihrem Telefon laufen
Gemini Nano ist eine winzige Version von Gemini, die effizient genug ist, um direkt auf (einigen) Geräten zu laufen, anstatt die Aufgabe an einen Server irgendwo zu senden. Bisher versorgt Nano einige Funktionen auf dem Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 und Samsung Galaxy S24, darunter das Zusammenfassen von Recorder und Smart Reply in Gboard.
Die Recorder-App, mit der Benutzer auf einer Schaltfläche tippen können, um Audio aufzunehmen und zu transkribieren, enthält eine von Gemini betriebene Zusammenfassung von aufgezeichneten Gesprächen, Interviews, Präsentationen und anderen Audio-Schnipseln. Benutzer erhalten Zusammenfassungen, auch wenn sie kein Signal oder eine Wi-Fi-Verbindung haben - und in einer Anspielung auf die Privatsphäre verlässt keine Daten ihr Telefon im Prozess.
Nano befindet sich auch in Gboard, Googles Tastaturersatz. Dort unterstützt es Smart Reply, das hilft, vorzuschlagen, was Sie als Nächstes sagen möchten, wenn Sie in einer Messaging-App wie WhatsApp ein Gespräch führen.
Eine zukünftige Version von Android wird Nano nutzen, um Benutzer vor potenziellen Betrugsmaschen während Anrufen zu warnen. Die neue Wetter-App auf Pixel-Telefonen verwendet Gemini Nano, um maßgeschneiderte Wetterberichte zu erstellen. Und TalkBack, Googles Zugänglichkeitsdienst, nutzt Nano, um auralie Beschreibungen von Objekten für Sehbehinderte und blinde Benutzer zu erstellen.
Gemini Ultra, vorübergehend verschwunden
In den letzten Monaten haben wir nicht viel von Gemini Ultra gesehen. Das Modell ist nicht in den Gemini-Apps verfügbar und wird auch nicht auf der Gemini-API-Preisseite von Google aufgelistet. Das bedeutet jedoch nicht, dass Google Ultra nicht zu einem späteren Zeitpunkt zurückbringen wird.
Was kosten die Gemini-Modelle?
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash und 2.0 Flash-Lite sind über Googles Gemini-API für den Aufbau von Apps und Diensten verfügbar. Sie werden nach Verbrauch berechnet. Das sind die Grundpreise - ohne Add-Ons - vom Februar 225:
- Gemini 1.5 Pro: 1,25