In der dynamischen Welt der Künstlichen Intelligenz gibt es kontinuierlich bemerkenswerte Entwicklungen. Von erweiterter Bildgenerierung mit Midjourney v6, über Googles neues multimodales KI-Modell Gemini, bis hin zur wegweisenden KI-Regulierung durch den EU’s AI Act, erleben wir bedeutende Fortschritte. Ebenso erwähnenswert sind die Gerüchte um OpenAIs GPT-4.5, Curios innovative KI-Plüschtiere, Microsofts musikalische KI-Kreationen mit Suno und die Medprompt-Strategie zur Verbesserung medizinischer Anwendungen, die menschliche Experten übertrifft. Zudem steht eine Partnerschaft zwischen Axel Springer und OpenAI im KI-unterstützten Journalismus bevor, die die Art und Weise, wie wir Informationen konsumieren, beeinflussen könnte.
1. EU’s AI Act
Die Europäische Union hat sich auf die Grundzüge eines neuen Gesetzes, den „AI Act“, geeinigt. Dieses Gesetz zielt darauf ab, die Sicherheit und Grundrechte von Menschen und Unternehmen im Umgang mit KI zu schützen. Es beinhaltet Bestimmungen zur Qualität der für die Entwicklung der Algorithmen verwendeten Daten und zur Kennzeichnung von KI-generierten Inhalten. Für risikoreiche Anwendungen, wie in kritischen Infrastrukturen und bei Sicherheitsbehörden, gelten besondere Vorschriften, die eine menschliche Kontrolle über KI, technische Dokumentationen und ein Risikomanagement-System erfordern.
2. Midjourney v6
Mit der Alpha-Version von Midjourney v6 wird eine neue Generation des KI-Bildgenerators vorgestellt. Diese Version konzentriert sich darauf, längere und komplexere Prompts besser zu verstehen und zielt darauf ab, realistischere Bilder mit verbesserter Kohärenz zu erzeugen.
Das strukturierte Prompt-System, das Stil, Subjekt, Setting, Komposition und Lichtverhältnisse berücksichtigt, bietet Anwendern mehr Kontrolle indem selbst spezifische Winkel und Stimmungen berücksichtigt werden. Besonders interessant sind die Verbesserungen bei der Integration von Text in Bilder, womit sich Midjourney in dieser Fähigkeit mit anderen Generatoren wie bspw. DALL-E 3 gleichstellt.
Die Zugänglichkeit dieser Alpha-Version ist zunächst begrenzt. Es wird erwartet, dass mit zukünftigen Updates weitere Funktionen wie eine neue Ordner- und Sammlungsstruktur hinzufügen werden.
3. GPT-4.5 Spekulationen
Aktuell kursieren viele Spekulationen und Gerüchte um die mögliche Veröffentlichung von OpenAIs GPT-4.5. Einige Nutzer berichten, dass ChatGPT seit dem letzten Update zum einjährigen Jubiläums des ChatBots bereits mit der Version „gpt-4.5-turbo“ antwortet, was die Gerüchte weiter anheizt.
Die Spekulationen um die potenziellen Neuerungen durch das Update zu GPT-4.5 beinhalten den Ausbau der bereits vorhandenen Text-, Bild-und Audiounterstützung, sowie auch die Erweiterung der Fähigkeiten um Video und 3D-Generierung.
OpenAI jedoch hat sich noch nicht offiziell zu diesen Gerüchten geäußert womit bleibt unklar bleibt welche Funktionen die neue Version tatsächlich haben wird und wann sie erscheint.
4. Microsoft und Suno
Microsoft hat eine Partnerschaft mit Suno angekündigt, die es Nutzern ermöglicht, mit Hilfe des Chatbots Copilot Musik zu generieren.
Mit einem Plugin von Suno, das in Copilot über Microsoft Edge und ein Microsoft-Konto aktiviert werden kann, können Nutzer ihre eigenen etwa 1-2 Minuten langen Musikstücke erstellen. Die Funktion, Musikstücke in verschiedenen Genres zu generieren, bietet sowohl Hobbymusikern als auch professionellen Musikern eine neue Inspirationsquelle. Obwohl diese Funktion in erster Linie für spielerische und kreative Zwecke gedacht ist, könnte sie einen Ausblick auf die zukünftige Rolle von KI in der Musikindustrie geben.
5. KI-Plüschtiere
Der Spielzeughersteller Curio hat eine Reihe von KI-basierten Plüschtieren namens Grok, Grem und Gabbo auf den Markt gebracht. Diese interaktiven Spielzeuge, ausgestattet mit Mikrofonen, Lautsprechern und WLAN-Modulen, nutzen Microsofts Azure-Cloud und ein Sprachmodell von OpenAI, um mit den 3 bis 12 jährigen Kindern zu kommunizieren. Eltern können die Gesprächstranskriptionen einsehen, wobei Curio die gesammelten Daten für 90 Tage speichert.
Trotz des innovativen Ansatzes bleiben Datenschutzbedenken, besonders im Hinblick auf den Umgang mit Kinderdaten und die Aufbewahrung von Gesprächstranskriptionen. Die Debatte um die Sicherheit und ethische Aspekte solcher Produkte ist damit eröffnet.
6. Google Gemini
Google hat ein neues multimodales KI-Modell namens Gemini vorgestellt. Es gibt drei Versionen des Modells: Gemini Ultra, Gemini Pro und Gemini Nano. Eine Besonderheit von Gemini ist seine Fähigkeit, Text, Bilder, Video, Audio und Code zu verstehen und zu verarbeiten. Während Gemini Ultra das umfangreichste Modell ist, bietet Gemini Pro Flexibilität für eine breite Palette von Aufgaben und Gemini Nano ist speziell für den mobilen Einsatz optimiert.
Das Modell wurde bereits in verschiedene Google-Dienste integriert, darunter der Chatbot Bard und das bevorstehende Smartphone Pixel 8 Pro. In 32 Benchmarks getestet, zeigte Gemini in 30 davon bessere Ergebnisse als OpenAIs GPT-4, insbesondere im Bereich des massiven Multitasking-Sprachverständnisses.
7. KI-Journalismus
Kürzlichen haben OpenAI und der Axel Springer-Verlag eine Partnerschaft angekündigt, die darauf abzielt den Journalismus mit Hilfe von KI zu verbessern. Diese Zusammenarbeit wird ChatGPT-Nutzern weltweit aktuelle und zuverlässige Inhalte aus Axel Springers Medienmarken zur Verfügung stellen.
Die Einbindung dieser Inhalte in ChatGPT-Antworten, einschließlich Quellenangaben und Links zu vollständigen Artikeln, könnte sowohl den Informationsfluss als auch die finanziellen Aspekte des Journalismus beeinflussen. Zudem wird Axel Springers hochwertiger Content zur Weiterentwicklung von OpenAIs Sprachmodellen beitragen, was die Qualität und Relevanz der generierten Inhalte weiter erhöhen soll.
8. Medprompt+
Microsoft hat Medprompt+ vorgestellt, eine erweiterte Version ihrer Methode zur Verbesserung der GPT-4-Leistung in medizinischen Anwendungen. Medprompt+ nutzt verschiedene Prompting-Strategien und erzielte im MMLU-Benchmark, der Allgemeinwissen und logisches Denken in 57 Fachbereichen testet, 90,1 Prozent – ein knapp höheres Ergebnis als Googles Gemini Ultra mit 90,04 Prozent. Obwohl die praktischen Unterschiede zwischen den Modellen gering sind und hauptsächlich für Marketingzwecke genutzt werden, zeigt sich, dass angepasste Prompting-Strategien die Leistung von KI-Modellen verbessern können. Beide Werte übertreffen die Leistung menschlicher Experten, wie im MMLU-Papier angegeben, was die Notwendigkeit neuer Benchmarks unterstreicht.