Aussteller & Produkte
Events & Speakers

Das neue Jahr ist erst ein paar Tage alt und Ass. Prof. Dr. Johannes Brandstetter und Prof. Dr. Sepp Hochreiter von der JKU Linz planen die nächsten Kurse. Auch die Weihnachtsfeier des Instituts steht noch an. "Normalerweise schaffen wir es im Dezember nie, weil uns die NeurIPS (die wichtigste KI-Konferenz der Welt mit mehr als 12.000 Besuchern) sehr beschäftigt", erklärt Brandstetter.

Das Linzer Team brachte neun Arbeiten mit nach New Orleans. Eines davon war unter den Top 10. Gleichzeitig forschen sie in Linz seit einigen Monaten an der europäischen Alternative zur Transformer-Architektur, die große Sprachmodelle wie ChatGPT so leistungsfähig macht. Das Projekt nennt sich XLSTM in Anlehnung an den LSTM-Algorithmus, den Hochreiter vor 25 Jahren erfunden hat. "Der LSTM-Algorithmus ist heute in der Industrie weit verbreitet. XLSTM wird noch leistungsfähiger werden", prophezeit Brandstetter. Die Fachwelt wartet auf die erste Veröffentlichung. XLSTM ist LSTM plus exponentielles Gating, verbessert durch Vektorisierung, flüstern einige Beobachter. XLSTM ist ein autoregressiver Ansatz, kann abstrahieren und Hochreiter will ihn in Europa halten. "XLSTM ist schneller, wir brauchen weniger Speicher und haben eine lineare Laufzeit", erklärte Hochreiter kürzlich im Podcast Industrial AI.

Die Realität sieht jedoch so aus, dass die KI-Welt in die Transformer-Architektur verliebt ist. Aber die Architektur ist brachiale Gewalt. Transformers bieten eine gute Leistung zum Preis riesiger Datensätze und einer Menge GPU-Rechenleistung. In Linz arbeitet man an einer schlankeren Lösung. Sie haben jetzt die GPUs für den Rechner für ihre eigenen Modelle. "Sepp kann das. Wer, wenn nicht er?" Brandstetter wundert sich über die vielen bösartigen Kommentare über Hochreiter, vor allem aus der deutschen Forschungslandschaft. "Ich habe von allen Kommentaren hier einen Screenshot gemacht - für später", kommentierte er vor einigen Wochen unter einem LinkedIn-Artikel. Er verteidigt seinen Mentor und seine Forschung. Nirgendwo ist ein Prophet weniger anerkannt als in seinem Heimatland - Hochreiter stammt aus Deutschland. Auf dem Whiteboard in Hochreiters Büro steht ein Thomas-Mann-Zitat. "Um des Guten und der Liebe willen sollte der Mensch nicht zulassen, dass der Tod seine Gedanken beherrscht", schrieb er. Um es mit Hochreiters Worten zu sagen: Lass dich nicht von "Bösewichtern" verrückt machen. Das hat auch Brandstetter verinnerlicht. Der junge Professor gilt als eines der KI-Wunderkinder in Europa. Brandstetter hat am CERN in der Schweiz promoviert. "Ich konnte mit brillanten Köpfen forschen", schwärmt der Physiker. Was er nicht verrät, ist, dass er an bahnbrechenden Arbeiten auf dem Gebiet der Higgs-Bosonen-Physik beteiligt war. Und doch zog es ihn weg - zu Hochreiter nach Linz.

"Sepp hat mich dazu gebracht, nach Amsterdam zu fahren. Die Gruppe von Max Welling hat das Thema Deep Learning sehr früh entdeckt und es war eine fantastische Zeit." In den ersten Wochen in Amsterdam war er berauscht - nicht vom Gras - sondern von den vielen Möglichkeiten im Bereich der KI. Mitreisende im Bus diskutierten über NeurIPS-Papiere. Brandstetter war erstaunt. "Im Laufe der Jahre hat sich in Amsterdam ein einzigartiges KI-Ökosystem entwickelt, das ich bisher nur aus den USA kannte." Qualcomm ist da, Alphabet, Bosch, ASML ist nicht weit weg, Microsoft und die Niederländer verkünden stolz, dass über 100 Unternehmen auf der Warteliste stehen, um ein Labor an der Universität von Amsterdam zu bekommen. Brandstetter hat für Microsoft geforscht und will nun in Linz mit seiner Forschung die Industrie voranbringen - vor allem für die Industrie. Wir haben ihn getroffen.

Wie war die NeurIPS?

Brandstetter: Über 12.000 Menschen, die in einer Halle mit schlechter Luftqualität auf unzählige Poster starren - das ist anstrengend und macht viel Spaß, zu diskutieren und alte und neue Kollegen zu treffen. Und wir waren mit neun Vorträgen gut vertreten und unsere Sessions waren sehr gut besucht.

Wird so die Qualität gemessen?

Brandstetter: Ja, wenn sich viele Leute um Ihr Poster scharen, ist das ein gutes Zeichen. (lacht)

Und alle waren in einem Rausch von Large Language Models (LLM)?

Brandstetter: LLMs sind faszinierend, aber viele in unserer Gemeinschaft sind jetzt froh, wenn man eine Weile nicht über ein LLM-Thema spricht.

Ist der Hype also vorbei?

Brandstetter: Nein, die Modelle werden jetzt multimodal, sie können viel mehr als Sprachmodelle. Das Gemini-Modell von Alphabet ist ein erster Ansatz.

Es wurde in den Medien ziemlich zerrissen.

Brandstetter: Aber es ist trotzdem der richtige Ansatz.

LLMs sind in den USA groß geworden. Viele Unternehmen forschen in diesem Bereich. Die ganze Aufmerksamkeit richtet sich auf generative KI. Ist zum Beispiel die Forschung an der JKU Linz im Bereich KI jetzt in der 2. Bundesliga oder, anders gefragt, ist sie noch attraktiv?

Brandstetter: Gute Frage, wir setzen in unserer Forschung auch LLMs ein und arbeiten an alternativen Architekturen, die für die Industrie sicher interessanter sind als Transformatoren.

xLSTM?

Brandstetter: Ganz genau. Aber der Hype um LLMs bringt uns mehr Studenten. Die Zahlen sind auf Rekordniveau, es gibt mehr Geld für die Forschung und die Unternehmen haben Angst, etwas zu verpassen.

Also mehr Industrieprojekte?

Brandstetter: Ja, eine ganze Menge. Wir müssen jetzt absagen. Und interessanterweise kommen viele deutsche Maschinenbauer auf uns zu. Wir erleben gerade den iPhone-Moment der KI in der Industrie.

Vielleicht liegt das auch an Ihrem Fokus auf Simulation und KI.

Brandstetter: Ja, auf jeden Fall. Jeden Tag werden Abertausende von Rechenstunden für die Modellierung von Turbulenzen, die Simulation von Flüssigkeits- oder Luftströmungen, die Wärmeübertragung in Materialien, Verkehrsströme und vieles mehr aufgewendet. Viele dieser Prozesse folgen ähnlichen Grundmustern, erfordern aber unterschiedliche und spezialisierte Software, um sie zu simulieren. Noch schlimmer ist, dass für unterschiedliche Parametereinstellungen die kostspieligen Simulationen in voller Länge von Grund auf neu durchgeführt werden müssen. Mithilfe von Deep-Learning-Techniken lassen sich Modelle entwickeln, die Simulationen in Sekunden statt in Tagen oder gar Wochen durchführen. Die Hardware ist in der Lage, hochauflösende Eingaben im industriellen Maßstab zu verarbeiten, z. B. 3D-Netze oder Bilder, und schafft damit die Voraussetzungen für das Training von Deep-Learning-Modellen in großem Maßstab.

Was wollen Sie damit erreichen?

Brandstetter: Wir wollen Simulationen besser, schneller und verallgemeinerter machen - grundlegende Modelle für die Simulation entwickeln. Neuronale Netze haben das Potenzial, Simulationen in allen Bereichen zu verbessern. Wir wollen Lösungen für Probleme finden, die bisher nicht denkbar waren. Es gibt zum Beispiel viele Prozesse in der Industrie, die nur sehr rudimentär modelliert werden können, wie bestimmte Schmelzprozesse.

Daten sind immer ein Problem.

Brandstetter: Diesmal nicht. Glücklicherweise haben viele der oben genannten Prozesse eine gemeinsame zugrundeliegende Dynamik - ähnlich wie verschiedene Sprachen eine gemeinsame Struktur und Grammatik haben. Es gibt eine Fülle von Simulationsdaten, wir müssen nur die richtigen verwenden, und zwar viele.

Wie kann ein neuronales Netz aus einer Simulation lernen und dann die Qualität der Simulation verbessern?

Brandstetter: Wir verallgemeinern. Wir zeigen dem Netz viele Simulationen - nicht nur die Schmelzsimulation zum Beispiel, sondern verwenden auch andere Simulationen aus anderen Bereichen. Glücklicherweise lässt sich die Natur mit wenigen Begriffen wie Konvektion und Diffusion beschreiben, die sich in verschiedenen Domänen immer wieder abwechseln. Das erhöht die Qualität über verschiedene Bereiche hinweg.

Das ist die Theorie.

Brandstetter: Nein, es funktioniert. Bei Microsoft haben wir zum Beispiel ClimaX entwickelt, ein flexibles und verallgemeinerbares Deep-Learning-Modell für Wetter- und Klimawissenschaften, das mit heterogenen Datensätzen trainiert werden kann. ClimaX ist das erste Basismodell für Wetter und Klima.