Act-i-ML – Methoden für das aktive informierte maschinelle Lernen
Prof. Dr. Katharina Baum
Freie Universität Berlin
Partner: Hasso-Plattner-Institut für Digital Engineering gGmbH
01.10.2024 bis 30.09.2027 (01IS24078A-B)
Motivation: Die Fähigkeiten moderner Algorithmen der Künstlichen Intelligenz (KI), Texte oder Bilder zu generieren oder Zeitreihen analysieren zu können, basieren zum größten Teil auf dem Zugang zu riesigen Datenmengen, anhand derer sie sich effektiv trainieren lassen. Für viele praktisch relevante Situationen ist die Datenlage jedoch spärlich, kann aber z.B. durch die Ergebnisse numerischer Simulationen ergänzt (augmentiert) werden. Diese hängen jedoch von der geeigneten Wahl von Anfangs- und Randbedingungen ab. Das Forschungsvorhaben „Act-i-ML“ hat daher das Ziel, Protokolle zu etablieren, nach denen dieses Vorgehen systematisch durchgeführt werden kann. Als Anwendungsfall dient ein Beispiel aus der Infektionsbiologie.
Ziele und Vorgehen: Das Leitmotiv von "Act-i-ML" ist, den Ansatz des sogenannten aktiven Lernens fest in den Prozess des "augmentierten" Maschinellen Lernens (ML) einzubinden. Aktiv bedeutet hier, dass der KI-Algorithmus selbst eine Teilkontrolle darüber bekommt, welche Beispiele zum Training und Lernen ausgewählt werden, anstatt ohne Gewichtung über alle möglichen Anfangszustände der Entwicklung einer Pandemie zu iterieren – ein möglicherweise numerisch kostspieliger und wenig aussagekräftiger Ansatz.
Innovationen und Perspektiven: Die entscheidenden Innovationen resultieren dar-aus, festzulegen, nach welchen Regeln das aktive Lernen organisiert werden soll. Hier spielt die Bewertung von Unsicherheiten, d.h. die Varianz der Modellvorhersagen unter Auswahl verschiedener Anfangsbedingungen, eine entscheidende Rolle. Insbesondere sollen diese nicht nur charakterisiert, sondern auch im Rahmen der verwendeten Modelle neuartig erklärbar gemacht werden. Dieser Ansatz reduziert nicht nur die Suche im Lösungsraum und erhöht die Effizienz der Verfahren, sondern steigert auch das Vertrauen in die Analyse. Dadurch würden bereits vortrainierte Modelle auf einfache Weise erweitert oder flexibel für andere Anwendungen wiederverwendet werden können.
AutoMD-AI: Surrogatmodelle und Auto-Tuning-Verfahren für molekulare Fluidsimulation
Prof. Dr. Felix Dietrich
Technische Universität München
Partner: Universität Hamburg
01.10.2024 bis 30.09.2027 (01IS24080A-B)
Motivation: Simulationen der Molekulardynamik (MD) spielen eine zentrale Rolle in der chemischen und verfahrens¬technischen Industrie, bspw., um die Produktion von Nanomaterialien effizienter zu gestalten. Sie ermöglichen auf atomarer Ebene Wechselwirkungen und Bewegungen von Molekülen und Atomen zu berechnen, wodurch tiefgehende Einblicke in die physikalisch-chemischen Eigenschaften der Materialien gewonnen werden können. Dies ist essenziell für die Optimierung der Herstellungsprozesse sowie die Entwicklung neuer Materialien. Jedoch sind diese MD-Simulationen extrem rechen- und zeitintensiv. Selbst auf typischen Höchstleistungsrechnern (Leistung entspricht mehrerer tausender Desktop-PCs) kann allein eine typische MD-Simulation Tage bis Wochen in Anspruch nehmen, was sie damit auch zu einer ressourcenintensiven Aufgabe macht (Energie, Zeit, Kosten).
Ziele und Vorgehen: Bestehende Ansätze, um die Effizienz dieser Simulationen zu steigern, erfordern verschiedenste, sehr komplexe Optimierungen der Parameter und müssen präzise an die jeweilige Aufgabe angepasst werden. Eine universelle Lösung, die für alle Szenarien gleichermaßen effektiv ist, gibt es nicht.
In „AutoMD-AI“ sollen in einem interdisziplinären Team - aus Informatikern, Chemikern, Verfahrenstechnikern und Mathematikern - die Möglichkeiten des Einbindens von Algorithmen des maschinellen Lernens (ML) erweitert und dabei gleichzeitig deren Ressourcenbedarf signifikant gesenkt werden. Zum einen soll damit die Suche den vielversprechendsten Optimierungsansätzen für die Simulationsaufgabe unterstützt werden. Zum anderen sollen auf Basis von „ML-Ersatz-Modellen” die auf-wendigen Simulationsrechnungen durch schnellere, „sparsamere“ Berechnungen ersetzt werden, bei vergleichbarer Genauigkeit.
Innovationen und Perspektiven: Neben den wissenschaftlichen Ergebnissen leistet das Projekt damit auch einen wichtigen Beitrag zur Verbesserung der Ressourceneffizienz und damit auch der Wettbewerbsfähigkeit in der chemischen Industrie – dem energieintensivsten Sektor Deutschlands.
CausalNet: Ein Framework für Integration von Kausalität für flexible, robuste, und effiziente Machine-Learning-Modelle
Prof. Dr. Stefan Feuerriegel
Ludwig-Maximilians-Universität München
Partner: Karlsruher Institut für Technologie, Helmholtz Zentrum München Deutsches Forschungszentrum für Gesundheit und Umwelt GmbH und Economic AI GmbH
01.10.2024 bis 30.09.2027 (01IS24082A-D)
Motivation: Bestehende Machine-Learning (ML) Modelle basieren typischerweise auf Korrelationen, aber nicht auf Kausalität. Dies kann zu Fehlern und letztendlich schlechter Performance beim Anwenden von Künstlicher Intelligenz (KI) führen. Das Wissen über kausale Zusammenhänge hat eine besondere Bedeutung, wenn man basierend auf Erkenntnissen eine Veränderung vornehmen möchte: als Arzt möchte man zum Beispiel wissen, warum eine Krankheit entsteht und wie man sie behandeln kann. Um dieses Defizit zu adressieren, zielt das Forschungsvorhaben „CausalNet“ darauf ab neuartige Methoden zur Integration von Kausalität in die Modellarchitekturen zu entwickeln.
Ziele und Vorgehen: Im Projekt nutzen die Forschenden Werkzeuge aus dem Repräsentationslernen, der Theorie der statistischen Effizienz und spezifische ML-Verfahren. Zur Steigerung der Flexibilität der Methoden entwickelt das Projekt ein allgemeines kausales Grundlagenmodell, einschließlich hochdimensionaler, zeitlicher und multimodaler Daten. Zur Stärkung der Effizienz werden Techniken für effiziente Lernalgorithmen, die speziell auf kausales maschinelles Lernen zugeschnitten sind, wie beispielsweise synthetisches Vor-Training, Transferlernen und Few-Shot-Learning untersucht. Außerdem sollen Verfahren zur Überprüfung und Verbesserung der Robustheit hervorgebracht werden, wie beispielsweise neue Benchmark-Umgebungen und -Datensätze. Die Effektivität und Robustheit der neuen Methoden werden mit theoretischen Herleitungen gezeigt.
Innovationen und Perspektiven: Die Erkenntnisse und Ergebnisse werden an verschiedenen Use Cases aus Wirtschaft, öffentlichem Sektor und Bioinformatik erprobt. Die Umsetzung basiert auf neuronalen Netzwerken, die später als das „Causal ML-Toolchain“ publiziert werden. Dies umfasst die Veröffentlichung neuer Datensätze, Benchmarking-Software, Open-Source-Code für kausale und vortrainierte, kausale ML-Modelle für verschiedene Anwendungen.
COMFORT: Komprimierungsmethoden für Robustheit und Transfer
Prof. Dr. Leon Bungert
Universität Würzburg
Partner: Deutsches Elektronen-Synchrotron, Technische Universität München, Universität Hamburg und Friedrich-Alexander-Universität Erlangen-Nürnberg
01.10.2024 bis 30.09.2027 (01IS24072A-E)
Motivation: Datengetriebene Methoden stehen durch ihre beeindruckenden Erfolge nicht nur im Fokus der Wissenschaft, sie sind auch im öffentlichen Diskurs angekommen. Doch mit der steigenden Popularität dieser Ansätze werden auch deren Nachteile sichtbar. Das Trainieren von Künstlicher Intelligenz (KI) erfordert die Anschaffung und intensive Nutzung von Hardware, was eine finanzielle Hürde schafft und mit hohem Energieeinsatz verbunden ist. Hochgradige Spezialisierung verhindert zudem den flexiblen Einsatz der trainierten Modelle. Weiterhin sind viele neuronale Netze anfällig gegen kleinste Störungen, was die sichere Verwendbarkeit und das Vertrauen in solche Modelle drastisch ein-schränkt.
Ziele und Vorgehen: Im Forschungsvorhaben „COMFORT“ werden da-her mathematisch fundierte Methoden für effizientes, flexibles und robustes Lernen entwickelt und insbesondere die Schnittstellen zwischen diesen Bereichen untersucht. Innovative Algorithmen zur Modellkompression in neuen Domänen werden den Aufwand für Training und Auswertung merklich verringern. Ein Kernaspekt ist der Transfer dieser Algorithmen auf verschiedenste Problemklassen und Datentypen (Bild-, Audio- und Netzwerk- und Zeitreihendaten). Ein weiterer Fokus liegt auf der mathematischen Analyse des Zusammenspiels von Kompression, um die Resilienz der Lernverfahren zu sicherzustellen.
Innovationen und Perspektiven: Die theoretischen Fortschritte für optimiertes Lernen parametrisierter Modelle werden voraussichtlich wichtige Erkenntnisse für das gesamte Feld liefern und auch das nötige Vertrauen für den Einsatz von KI in der Praxis stärken. Die effizienten Lernverfahren durch Modellkompression und Transfer werden angesichts der durch technologischen Fortschritt immer größer werdenden Daten-mengen große Relevanz auch in der Industrie haben. Die zu erwartenden CO₂ Einsparungen werden merklichen Einfluss auf die nationale und globale Klimabilanz und Ertrag von Firmen im KI-Sektor haben.
CORAL: Fundierte Sprachmodelle auf der Grundlage proprietärer Daten
Prof. Dr. Gerhard Heyer
Institut für Angewandte Informatik e.V.
Partner: Universität Kassel, Hochschule Anhalt und Deutsche Nationalbibliothek
01.10.2024 bis 30.09.2027 (01IS24077A-D)
Motivation: Die Nutzung von Sprachmodellen unterliegt häufig einschränkenden Anforderungen, sogenannten Constraints. Wenn zum Beispiel lizenzrechtlich beschränkte Daten für das Training verwendet wer-den, sollen diese regelmäßig nicht in künstlich generierten Texten reproduziert werden. Aussagen in generierten Texten sollen darüber hinaus anhand von Quellen transparent nachvollziehbar sein. Solche und ähnliche Anforderungen sind für viele Institutionen und Unternehmen unverzichtbar für den produktiven und sicheren Einsatz von Sprachmodellen. Die Frage ist also, ob und wie Constraints bei der Konstruktion von Sprachmodellen berücksichtigt werden können. Genau hier setzt das Forschungsvorhaben „CORAL“ an und will Künstliche Intelligenz flexibler, resilienter und effizienter gestalten.
Ziele und Vorgehen: Das Projekt untersucht, ob praktisch nutzbare Sprachmodelle auf Basis von Texten trainiert wer-den können, die nur in verschiedenen eingeschränkten Formen zur Verfügung gestellt werden dürfen. Außerdem werden Methoden entwickelt, um Texte unter Berücksichtigung von Fachwissen mit Quellenangaben zu generieren. Insbesondere soll die Textreproduktion aus den Trainingsdaten vermieden, jedoch vorgegebene Quellen akkurat wiedergeben, werden. Diese Verfahren werden in auf-wendigen Experimenten evaluiert und mit Partnern aus dem Finanzwesen, GLAM-Institutionen (Kultur- und Gedächtnisinstitutionen) und der Privatwirtschaft getestet.
Innovationen und Perspektiven: Erwartet werden innovative Ergebnisse und Erkenntnisse in drei Kernabschnitten bei der Entwicklung und Nutzung von Sprachmodellen, sowohl in der Gesellschaft, Wissenschaft als auch Industrie: (1) Berücksichtigung bisher eingeschränkter Trainingsdaten; (2) Modellarchitekturen unter Berücksichtigung von Constraints, die u.a. die Reproduktion von Trainingsdaten vermeiden und (3) Verweis auf relevante und verlässliche Quellen, auf die der generierte Text basiert. Durch den exemplarischen Transfer dieser Ansätze werden Flexibilität als auch Effektivität sicher demonstriert.
DIALOKIA: Überprüfung von LLM-generierter Argumentation mittels dialektischem Sprachmodell
Prof. Dr. Benno Stein
Bauhaus-Universität Weimar
Partner: Friedrich-Schiller-Universität Jena
01.10.2024 bis 30.09.2027 (01IS24084A-B)
Motivation: Große Sprachmodelle (LLMs) können bei vielen Fragestellungen mit Argumenten die Entscheidungsfindung unterstützen, wofür sie auch zunehmend genutzt werden. Sie sind in der Lage, einfache Schlüsse aus Texten zu ziehen, wobei sie (implizit) so trainiert sind, Aussagen „selbstsicher“ zu formulieren und zu begründen, obwohl sie keine explizite Repräsentation logischer Kalküle oder des Konzeptes ‘Wahrheit’ besitzen. Somit besteht die Frage, inwieweit man durch ein Sprachmodell er-zeugten Argumentation vertrauen kann, ohne Gefahr zu laufen daraus Fehlschlüsse zu ziehen oder in eine bestimmte Richtung manipuliert zu werden. In anderen Worten: Inwieweit ist die Validität von LLM-generierter Argumentation überprüfbar? Genau hier setzt das Vorhaben „DIALOKIA“ an.
Ziele und Vorgehen: Die Argumentationstheorie stellt logisch-formale Regeln bereit, um gegebene Aussagen im Sinne der Dialektik anzuzweifeln aber auch zu verteidigen. So kann z.B. eine unzulässige Verallgemeinerung durch ein Gegenbeispiel in Frage gestellt wer-den. Ein Argument, das dem Schema der Schlussfolgerung aus einer Expertenaussage folgt, kann z.B. verteidigt werden, indem die fachliche Autorität der Person belegt wird. Ziel von DIALOKIA ist die Entwicklung einer LLM-basierten KI-Architektur, die diese Regeln der formalen Dialektik anwendet. Ein vom Sprachmodell unabhängiges Prüfmodell nimmt dann – ganz im Sinne der dialektischen Logik – die Rolle der Diskussionspartnerin ein und trainiert das Sprachmodell hinsichtlich der Einhaltung der zugrundeliegenden Regeln und Logik.
Innovationen und Perspektiven: Der Einsatz von KI zur Argumentationsgenerierung kann den öffentlichen Diskurs maßgeblich beeinflussen. Im Vorhaben wird ein leicht zugänglicher Demonstrator für gesellschaftlich relevante Themen entwickelt, wie Familie und Bildung, um in eine fundierte Debatte über die Chancen und Risiken ein-steigen zu können. Die Forschungsergebnisse werden in der Wissenschaftlichen Community geteilt und diskutiert, u.a. durch Publikationen und Shared-Task-Wettbewerbe, weiterentwickelt und kommen auch dem wissenschaftlichen Nachwuchs beider Projektpartner zugute.
FAIME: Flexible, effiziente AI-getriebene molekulare Simulation
Prof. Dr. Cecilia Clementi
Freie Universität Berlin
Partner: Forschungszentrum Jülich GmbH
01.10.2024 bis 30.09.2027 (01IS24076A-B)
Motivation: Proteine regulieren zelluläre Prozesse und spielen eine wichtige Rolle in der Biologie des Körpers. Ihre Fehlfunktion geht mit Krankheiten einher, wie Alzheimer und Parkinson. Ihre Funktion oder Fehlfunktion wird durch ihre 3-dimensionalen (3D) Strukturen bestimmt und wie sie zwischen diesen 3D-Strukturen umschalten. Das Studium der Proteindynamik ist daher wichtig für das Verständnis der fundamentalen Prozesse des Lebens, der Entwicklung von neuen Impfstoffen, Enzymen, Antikörpern und Wirkstoffen. Dahingehende Fortschritte sind jedoch mit existierenden Methoden schwierig, da Proteine sehr klein und die Zeitskalen ihrer Bewegung zu kurz für die meisten experimentellen Methoden und zu lang für Computersimulationen sind. Genau hier setzt das Forschungsvorhaben „FAIME“ an.
Ziele und Vorgehen: Das Ziel ist die Entwicklung einer neuartigen Simulationsmethode zum Studium von Protein-dynamik und -funktion mithilfe von neuartigen Verfahren der Künstlichen Intelligenz (KI). Das Konsortium setzt Maschinelles Lernen ein, um Computersimulationen von Proteinen um ein Vielfaches zu beschleu-nigen und so die direkte Untersuchung von Proteindynamik zu ermöglichen. Der Ansatz beruht darauf, dass nur einige wenige, repräsentative Proteinatome beschrieben werden. Das Konsortium nutzt „Graph Neural Networks“, um die Wechselwirkungen zu lernen. Dieser Ansatz ist auch durch physikalische Theorien fundiert.
Innovationen und Perspektiven: Die in „FAIME“ entwickelte Software wird für die wissenschaftliche Community frei zur Verfügung gestellt. Das Konsortium wird die Resilienz, Flexibilität und Effektivität der Methode an medizinisch relevanten Problemen demonstrieren: die Aktivierung des Immunsystems und die Proteinaggregation bei der Alzheimerkrankheit. Die KI-Modelle und Software können ferner auf andere Anwendungsgebiete erweitert werden, wie z.B. die Entwicklung von Arzneimitteln oder neuen Materialien.
GeniusRobot: Interpretierbare multimodale generative KI-Modelle für robuste Manipulation in der Robotik
Prof. Dr. Wolfram Burgard
Technische Universität Nürnberg
Partner: Ludwig-Maximilians-Universität München und Technische Universität Dresden
01.10.2024 bis 30.09.2027 (01IS24083A-D)
Motivation: Das zuverlässige Greifen und Manipulieren beliebiger Objekte ist eine der zentralen Herausforderungen in der Robotik, von der Produktion bis Medizin. In diesem Kontext sind Regelungsverfahren, die den Griff dynamisch anpassen, noch weitgehend unerforscht. Dadurch kann sich der Roboter flexibel, resilient und effizient an Änderungen in der Umgebung, beim Objekt oder in der Aktivität selbst anpassen. So kann unmittelbar reagiert werden, wenn beispielsweise ein Objekt aus der Hand zu gleiten droht. Eine solche Regelung erfordert nicht nur taktile Sensorik, die Kontakt- und Scherkräfte erfassen kann, sondern auch entsprechende multimodale Modelle aus der Künstlichen Intelligenz (KI), die sensorische Informationen aus mehreren komplementären Quellen integrieren und interpretieren können. Genau hier setzt das Forschungsvorhaben „GeniusRobot“ an.
Ziele und Vorgehen: Das Ziel ist die Entwicklung neuer, interpretierbarer KI-Modelle, mit denen Methoden aus dem Bereich der generativen KI für die Erzeugung von Bildern für die Robotik nutzbar gemacht werden. Zur Planung von Greifbewegungen sollen taktile Sensordaten aus Kameradaten vorhergesagt werden, zunächst statisch und anschließend dynamisch über die Zeit. Umgekehrt werden diese Vorhersagen mit einem weiteren generativen Modell wieder in Kamerabilder zurückgerechnet, sodass die Effekte von Bewegungen des Roboters direkt visualisiert werden können. Dies ermöglicht die Manipulation von verdeckten Objekten, die nur teilweise mit der Kamera erfasst werden können. Die Modelle werden in einem gängigen “Pick and Place”-Szenario erprobt und mittels in diesem Projekt generierter Daten trainiert.
Innovationen und Perspektiven: Ein wesentlicher Entwicklungsschwerpunkt liegt auf der Interpretierbarkeit der Modelle, die für den Einsatz von generativer KI in sicherheitskritischen Umgebungen unerlässlich ist. Perspektivisch er-schließen die Ergebnisse damit auch neue Einsatzszenarien in der automatisierten Fertigung und Mensch-Maschine-Interaktion und liefern neue wissenschaftliche Erkenntnisse im Bereich sicherer und multimodaler KI.
HybridSolver: Hybridisierung numerischer Löser und physik-informierter neuronaler Netze für die flexible, resiliente und effiziente Multiskalensimulation
Prof. Dr. Michael Hintermüller
Weierstraß-Institut für Angewandte Analysis und Stochastik
Partner: Leibniz-Institut für Verbundwerkstoffe GmbH und Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau
01.10.2024 bis 30.09.2027 (01IS24081A-C)
Motivation:
Computersimulationen sind heute bei wissenschaftlichen wie auch industriellen Fragestellungen unverzichtbar. Jedoch kann jede Art physikalisch basierter Simulation sowohl zeitlich als auch räumlich nur einen begrenzten Bereich abbilden. Steigt die Auflösung, sinkt aufgrund der höheren Anforderungen an die Rechenleistung die mögliche Modellgröße. Ein sehr anschauliches Beispiel sind Faser-Kunststoff-Verbunde, wie sie in Rotorblättern für Windenergieanlagen, Flugzeugen oder auch Nutzfahrzeugen zum Einsatz kommen. Um physikalische Vorgänge vom Mikrometer-Faserdurchmesser bis zum über hundert Meter langen Rotorblatt simulieren und dadurch verstehen zu können, werden im Forschungsvorhaben „HybridSolver“ klassische numerische Simulationsmethoden mit modernsten Ansätzen des maschinellen Lernens hybridisiert.
Ziele und Vorgehen: Im Anwendungsfall der Faser-Kunststoff-Verbunde werden hocheffiziente physik-informierte neuronale Netze zur Vorhersage physikalischer Prozesse auf mikroskopischer Ebene eingesetzt. Auf den höheren Ebenen bis hin zum Bauteil kommen konventionelle und resiliente numerischen Solver zum Einsatz. Ein zwei-Wege Austausch zwischen den Berechnungsprozessen dient der Maximierung von Genauigkeit, Flexibilität und Effizienz. Die spezielle Auswahl der Methoden erlaubt auf allen Ebenen die neuartige Integration vorhandenen Wissens, z.B. in Form von physikalischen Gleichungen und Randbedingungen.
Innovationen und Perspektiven: Die Hybridisierung verschiebt die Grenzen der digitalisierten Material- und Prozessentwicklung, da perspektivisch deutlich genauere und schnellere Simulationen bspw. von Herstellprozessen oder Bauteileigenschaften möglich sind. Der gewählte Anwendungsfall verspricht indes eine breite Übertragbarkeit auf andere Werkstoffklassen, wie z. B. Filtrationsmedien, Batterien und Gesteinsphysik. Durch diese langfristige und viel-seitige Verwertbarkeit befördert das Projekt den Erhalt und Ausbau der Wettbewerbsfähigkeit in Forschungs- und Industriesektoren, die als Kompetenzschwerpunkt der nationalen Wirtschaft und IT-Strategie gesehen werden.
KI-HopE-De: KI-gestützte Hochwasserprognose für kleine Einzugsgebiete in Deutschland
Dr. Ralf Loritz
Karlsruher Institut für Technologie (Universitätsaufgabe)
Partner: Deutscher Wetterdienst, Landesamt für Natur, Umwelt und Verbraucherschutz Nordrhein-Westfalen und Landesamt für Umwelt Rheinland-Pfalz
01.12.2024 bis 30.11.2027 (01IS24088A-D)
Motivation: Starkregen und Hochwasser stellen eine der größten Naturgefahren dar, mit gravierenden Auswirkungen auf Mensch, Natur und Infrastruktur. Insbesondere kleine und mittlere Flusseinzugsgebiete, wie sie in Mitteleuropa häufig zu finden sind, reagieren schnell auf extreme Wetterbedingungen. Dies führt nicht nur zu drastischen Verkürzungen des Vorwarnfensters, sondern auch verstärkten Unsicherheiten der Vorhersagen. Aktuelle hydrologische Modelle stoßen hier an ihre Grenzen, da sie die Komplexität und Genauigkeit in der Wettervorhersage und Abflussbildung nicht ausreichend erfassen können. Das Forschungsvorhaben „KI-HopE-De“ setzt deshalb genau hier an und will diese effizienter, robuster und flexibler gestalten
Ziele und Vorgehen: Moderne Methoden der Künstlichen Intelligenz (KI) werden untersucht, entwickelt und eingesetzt, um erstmals eine deutschlandweit einheitliche Prognose in kleinen Einzugsgebieten (< 500 km2) zu ermöglichen und die Vorhersagegenauigkeit bei Extremen in diesen Gebieten zu steigern. Dazu ist geplant, einen umfassenden hydro-meteorologischen Datensatz zu erstellen, der sowohl Mess- als auch Vorhersagedaten enthält und damit die Basis für das zukünftige Training und Abgleichen von Modellen bildet. Als Anwendungsfall dienen Kurzfristvorhersagen (< 48 Stunden). Am Vorhaben sind mehrere Hochwasserzentralen direkt beteiligt.
Innovationen und Perspektiven: Durch „KI-HopE-De“ wird ein wesentlicher Beitrag zur öffentlichen Sicherheit und zum Schutz vor Überflutungen geleistet. Geschaffen wird eine innovative, prototypische Plattform, die potentiell von allen Hochwasservorhersagezentren bundesweit übernommen werden könnte. Damit würde auch die momentane Abhängigkeit und der Vorsprung von globalen Techunternehmen effektiv reduziert. Durch neuartige Einbettung von KI in großen, naturwissenschaftlichen Simulationsmodellen werden neue Anwendungsfälle, Datenintegrationstechniken und adaptive Lernmethoden vorangebracht.
OPENHAFM: Evaluating and improving open foundation models through systematic human alignment benchmarking and dataset curation
Dr. Wieland Brendel
Max-Planck-Institut für Intelligente Systeme
Partner: Eberhard Karls Universität Tübingen und Forschungszentrum Jülich GmbH
01.10.2024 bis 30.09.2027 (01IS24085A-C)
Motivation: Große (Sprach-)Modelle wie ChatGPT liefern oftmals beeindruckende Ergebnisse. Gleichzeitig machen sie unerwartete Fehler, die zeigen, dass die Programme teilweise anders funktionieren als er-wartet und nur bedingt auf menschliches Verhalten ausgerichtet sind. Das Forschungsvorhaben „OPENHAFM“ zielt deshalb darauf ab, die Leistungsfähigkeit und Zuverlässigkeit von maschinellen Lernmodellen durch die Ausrichtung auf robustes menschliches Urteilsvermögen zu verbessern. Da-bei wird eine größere Übereinstimmung von menschlichem und maschinellem Verhalten angestrebt und resilientes Urteilsvermögen in vortrainierte Modelle integriert.
Ziele und Vorgehen: Zunächst werden Defizite im logischen Schließen der Modelle und Fehlanpassungen zwischen menschlichem und maschinellem Verhalten analysiert und neue Methoden zur Datenauswahl und -aufbereitung entwickelt. Dazu setzt „OPENHAFM“ manuell kuratierte Benchmark-Datensätze, optimierungsbasierte Methoden und halbautomatische Entdeckungsverfahren ein. Das Projekt erforscht auch, wie sich Eigenschaften und Fähigkeiten von verbesserten Modellen mit steigender Modellgröße, Trainingsdaten sowie -dauer verändern. Es werden gezielte Ansätze entwickelt, wie Trainingsdaten angereichert oder der Lernprozess angepasst wer-den können, um bessere, flexiblere und effizientere Modelle zu bekommen. Dies beinhaltet die Erstellung synthetischer Datensätze, gezielte Datenanpassungen und Einführung von aktiven Lernmethoden.
Innovationen und Perspektiven: Die Neuartigkeit dieses Projekts liegt in der gezielten funktionalen Ausrichtung von großen Modellen auf robustes menschliches Verhalten und logisches Denken. Die erhöhte Konsistenz zwischen Mensch und Maschine und die bessere Skalierung der Modelle können nicht nur die wissenschaftliche Gemeinschaft voranbringen, sondern auch erhebliche wirtschaftliche Vorteile bieten, indem die Einsatzmöglichkeiten dieser Modelle in kritischen Bereichen erweitert werden. Langfristig könnte dies zu Fortschritten in der Medizin, dem autonomen Fahren und anderen sicherheitskritischen Anwendungen führen.
PIAD: Physik-informierte Anomalieerkennung
Prof. Dr. Marius Kloft
Rheinland-Pfälzische Technische Universität Kaiserslautern-Landau
Partner: Deutsches Forschungszentrum für Künstliche Intelligenz GmbH und Aixpath Gmbh
Website des Projekts
01.11.2024 bis 31.10.2027 (01IS24071A-C)
Motivation: In den letzten Jahren wurden enorme Fortschritte im Bereich der Künstlichen Intelligenz (KI) erzielt. Neue Methoden unterstützen die Menschen bei ihren täglichen und beruflichen Aufgaben und er-möglichen eine Automatisierung vieler Vorgänge, die zuvor anstrengende manuelle Arbeit erforderten. Ein besonders wichtiges Anwendungsgebiet für die KI ist dabei die Anomalieerkennung, das bedeutet, Daten zu identifizieren, die von der Norm ab-weichen. Beispiele dafür sind Mutationen in der Virologie, Betrugsfälle im Finanzwesen oder fehlerhafte Komponenten in der industriellen Fertigung. Jedoch sind aktuelle Anomaliedetektoren auf Anwendungen limitiert, bei denen enorme Mengen an Trainingsdaten zur Verfügung stehen. Genau hier setzt das Forschungsvorhaben „PIAD“ an.
Ziele und Vorgehen: Das Ziel ist die Entwicklung einer neuartigen physik-informierten KI für Bereiche, die keine große verfügbare Datenbasis aufweisen, wie der im Projekt verfolgte Anwendungsfall des Laserstrahlschmelzens. Physik-informiert bedeutet, dass physikalischen Wissen und Regeln in die KI eingearbeitet werden. Dabei wird auf modernste neuronale Erkennungsalgorithmen aufgebaut, die kürzlich die Fehlerraten drastisch reduzieren konnten. Es wer-den Modellarchitekturen entwickelt, die gezielt Informationen aus der Datendomäne einarbeiten, um die Dateneffizienz weiter zu steigern. Es werden Methoden entwickelt, die die vorhandenen Trainingsdaten ausbauen und verbessern sollen. Die prototypische Anwendung wird Beispielhaft in der additiven Fertigung, insbesondere in der effizienten Prozessüberwachung, evaluiert.
Innovationen und Perspektiven: Der Einsatz von Anomalieerkennungssystemen kann die Dateneffizienz erheblich steigern und so-gar Katastrophen verhindern, indem beispielsweise bei Produktionsprozessen ungewöhnliche Hitzeentwicklungen in Fabriken erkannt werden. Eine erfolgreiche Anwendung in der additiven Fertigung würde das Potenzial dieser Technologie in der Praxis demonstrieren. Ein Projekterfolg würde damit auch einen Durchbruch in der Grundlagenforschung bedeuten, indem KI-gestützte Anomalieerkennung auch in datenarmen Bereichen flexibel, resilient und praktikabel wird.
RAINA: Ein statistisch robustes KI-Grundlagenmodell der Atmosphäre für bessere Kurzfristvorhersagen von Extremereignissen
Prof. Dr. Martin Schultz
Forschungszentrum Jülich GmbH
Partner: Europäisches Zentrum für Mittelfristige Wettervorhersage, Rheinische Friedrich-Wilhelms-Universität Bonn und Deutscher Wetterdienst
01.11.2024 bis 31.10.2027 (01IS24075A-D)
Motivation: Die verlässliche Vorhersage des Wetters und Klimas sowie die dazugehörigen Anpassungsstrategien sind mehr denn je wesentliche Anliegen von Gesellschaft und Politik. Dafür sind jedoch akkurate Prognosen über alle möglichen Naturphänomene hinweg unerlässlich. Herausfordernd sind hierbei aber insbesondere die Kurzfristvorhersage und Extremereignisse. Eine dafür entscheidende Rolle spielt auch die Auflösung der Modelle und Daten. Genau hier wirkt der gezielte Einsatz von Methoden der Künstlichen Intelligenz (KI) vielversprechend und wird im Forschungsvorhaben „RAINA“ unter-sucht und vorangebracht.
Ziele und Vorgehen: Das Ziel ist die Entwicklung des weltweit ersten flexiblem, resilientem und effizientem KI-Grundlagenmodells der Atmosphäre auf Basis von „Deep Learning“. Dafür soll auch die räumliche Auflösung des Modells von derzeit ca. 25 km auf etwa 1 km verfeinert werden. Der Prototyp wird dabei für Wetterereignisse durch Wind und Nieder-schlag aufgesetzt. Dieses Vorgehen ist sowohl auf wissenschaftlicher als auch technischer Ebene besonders anspruchsvoll. Besondere Herausforderungen spielen dabei die spezifische Weiterentwicklung und Implementierung der KI-Verfahren sowie die große Menge an unterschiedlichen Daten des gesamten Erdsystems zu verwalten und zusammenzuführen.
Innovationen und Perspektiven: Das wesentliche Ergebnis aus RAINA wird ein so-genanntes „Foundation Model“ sein, welches eine neuartige probabilistische Beschreibung der dynamischen Atmosphäre bietet. Damit sollen sowohl die intrinsische Unsicherheit einer Vorhersage als auch die des Simulationsmodells selbst quantifiziert werden können. Die prototypische Anwendung wird beispielhaft anhand hochauflösender Wettervorhersagen für bis zu 24 Stunden und mit bisher unerreichter Qualität demonstriert. Eine breite und öffentlichkeitswirksame Verwertung ist durch das starke Konsortium sichergestellt.
REFRAME: Erforschung und Erweiterung von Computer Vision Foundation Models
Dr. Anna Hilsmann
Fraunhofer-Institut für Nachrichtentechnik
Partner: Leibniz-Institut für Agrartechnik und Bioökonomie e.V. und Bergische Universität Wuppertal
01.10.2024 bis 30.09.2027 (01IS24073A-C)
Motivation: In der Welt der Künstlichen Intelligenz haben „Vision Foundation Models“ (VFM) im Bereich des „Deep Learnings“ eine neue Ära der Innovation eingeläutet. VFM sind leistungsfähige, vortrainierte maschinelle Lernmodelle, die auf sehr großen Bilddatensätzen trainiert werden und als Grundlage für eine Vielzahl von visuellen Anwendungen und spezialisierten Modellen dienen. Trotz rasanter Fortschritte bleiben entscheidende Fragen zur Vertrauenswürdigkeit dieser Technologie offen. So ist unklar, wann ein Modell den bekannten Bereich seiner Trainingsdaten verlässt und wie sich dadurch die Genauigkeit über verschiedene Domänen hinweg verhält. Mit anderen Worten: Wie kann die Genauigkeit durch welche Anpassungen und Finetuning an welcher Stelle beeinflusst werden? Das Forschungvorhaben „REFRAME“ widmet sich diesen Herausforderungen.
Ziele und Vorgehen: Das übergeordnete Ziel ist, eine nachhaltige, robuste, flexible und effiziente Nutzung von VFM auch in spezifischen Domänen zu erreichen. Es werden Methoden zur Untersuchung aktueller Grenzen und zur Identifikation von Unsicherheiten in den Vorhersagen erforscht. Neue Ansätze werden entwickelt, um die Vertrauenswürdigkeit und Erklärbarkeit zu steigern. Weiterhin werden resiliente und effiziente Methodiken entwickelt, um VFM an spezielle Domänen und Aufgaben auch mit wenigen Daten anzupassen.
Innovationen und Perspektiven: Die Ergebnisse werden zur wissenschaftlichen und technologischen Grundlage der robusten, flexiblen und effizienten Nutzung von großen VFM beitragen. Durch die neuartigen Verfahren für eine bessere Unsicherheitsquantifizierung, Erklärbarkeit und flexiblere Anpassung, vor allem in bisher unterrepräsentierten Anwendungsgebieten, wird auch ein großes Potenzial für soziale und wirtschaftliche Auswirkungen und neue Markterschließung freigeschaltet.
RIESIQ: Robuste, intelligente und effiziente Systeme in Industriequalität
Dr. Marc Weber
Siemens AG
Partner: Technische Universität Berlin und deepset GmbH
01.12.2024 bis 30.11.2027 (01IS24087A-C)
Motivation: Der durchschlagende Erfolg großer, generativer Sprachmodelle und darauf aufbauender Nutzerapplikationen, wie z.B. ChatGPT, hat hohe Erwartungen an den zukünftigen Nutzen von Künstlicher Intelligenz (KI) in nahezu allen Lebensbereichen geschürt. Neben unbestrittenen Wertschöpfungspotenzialen bei kreativen, kommunikativen oder text-analytischen Aufgaben ist noch ungeklärt, ob sich diese KI-Werkzeuge erfolgreich auf wissenschaftlich-technische Problemstellungen oder industrielle Anwendungen übertragen lassen. Hier setzt das Forschungsvorhaben „RIESIQ“ an.
Ziele und Vorgehen: Ziel des Vorhabens ist es, die Defizite von generativen KI-Modellen im Hinblick auf ihre Anwendbarkeit für industrielle Produktionsverfahren zu überwinden. Dazu stehen die Erforschung und Erprobung von robusten und zugleich flexiblen Lernmethoden im Vordergrund. Diese ermöglichen es, komplexe dynamische Systeme und physikalische Vorgänge sowohl hinreichend akkurat zu modellieren als auch intelligent und interpretierbar zu steuern. Der notwendige Ressourcenbedarf während des Trainings und der Bereitstellung resultierender KI-Lösungen soll durch dateneffiziente Algorithmen minimiert werden, um eine nachhaltige und umweltschonende Nutzung auf industrieller Skala zu gewährleisten. Um diese Ziele zu erreichen, werden Schwerpunkte auf eine skalierbare, synergetische Kopplung von Algorithmen und numerischen Simulationsverfahren sowie darauf aufbauende, resiliente und praxistaugliche RL-Verfahren zur Steuerungsoptimierung gelegt.
Innovationen und Perspektiven: Die neu entwickelten KI-Lösungsbausteine sollen anhand automatisierter Produktions- und Qualitätssicherungsprozesse bei der Herstellung von Lithium-Ionen-Batteriezellen prototypisch und praxisnah getestet werden, um somit den Mehrwert für den von KI angetriebenen Transformationsprozess hin zu einer skalierbaren und flexiblen Fabrik der Zukunft aufzuzeigen.
TrackOpt: Optimierung von dünn und dicht besetzten Systemen unter physikalischen Randbedingungen mittels maschinellen Lernens
Prof. Dr. Margret Keuper
Universität Mannheim
Partner: Universität Siegen, Technische Universität Ilmenau und Heinrich-Heine-Universität Düsseldorf
01.10.2024 bis 30.09.2027 (01IS24074A-D)
Motivation: Lebewesen, Objekte und Partikel können sich bewegen. Der Pfad dieser Bewegung wird auch als „Trajektorie“ bezeichnet. Dabei kann es sich um fließende aber auch stockende Abläufe handeln. Die Rekonstruktion von sogenannten Punkttrajektorien ist in vielen physikalischen oder biologischen Fragestellungen hochrelevant. So reichen Beispiele von der Rekonstruktion zerfallender Teilchen in der Physik, über das Verfolgen kleiner Partikel in Strömungen bis hin zur Rekonstruktion der Form eines Objekts aus der Beobachtung seiner Bewegung. Dabei stellen sich viele Herausforderungen wie Messungenauigkeiten oder kleine Datengrundlagen. Im Forschungsvorhaben „TrackOpt“ soll des-halb die Vorhersagegenauigkeit von Methoden aus dem Maschinellen Lernen (ML) und Künstlicher Intelligenz (KI) weiter verbessert werden, um diese flexibler, robuster und effizienter zu gestalten.
Ziele und Vorgehen: In TrackOpt soll anhand dreier Anwendungsfelder ein resilientes Framework untersucht und erstellt werden, dass es ermöglicht, aktuelle Tracking-Probleme flexibel zu integrieren und zuverlässig zu lösen. Konkret geht es um Teilchenphysik, Mikroflu-idik und Mikroskopie. Um eine hohe Dateneffizienz und gleichzeitige Resilienz gegenüber Messfehlern zu erzielen, werden hierbei modellgetriebene Optimierungsprobleme, die es ermöglichen, Bedingungen an eine gültige Lösung im Sinne der biologi-schen oder physikalischen Fragestellung mit einzubeziehen, mit tiefen neuronalen Netzen integriert. So können die Stärken beider Ansätze neu kombiniert werden.
Innovationen und Perspektiven: Das Projekt erarbeitet eine wiederverwendbare und transdisziplinäre, modulare Software-Toolbox, die es auch Externen in vielen Forschungs- und Anwendungsgebieten ermöglichen soll, komplexe Trackingprobleme mit verschiedenartigen Randbedingungen eigenständig zu lösen. Diese soll der interessierten Öffentlichkeit als Open-Source Applikation zur Verfügung gestellt werden. Durch diesen breiten Ansatz wird eine hohe Nutzbarkeit und Transfer der Ergebnisse gewährleistet.
XEI: Effiziente Inferenz für extrem große Kontext-Längen
Prof. Dr. Hilde Kühne
Eberhard Karls Universität Tübingen
Partner: Technische Universität Darmstadt
01.10.2024 bis 30.09.2027 (01IS24079A-B)
Motivation: Transformerarchitekturen haben verschiedene Bereiche der Künstlichen Intelligenz (KI), wie die Verarbeitung und Ausgabe natürlicher Sprache, revolutioniert. Allerdings bleibt ihre Bereitstellung, insbesondere bei großen Kontextlängen, aufgrund des erhöhten Rechen- und Speicherbedarfs eine große Herausforderung.
Ziele und Vorgehen: Das Forschungsvorhaben „XEI“ hat deshalb zum Ziel die Technologie effizient und flexibel einsetzbar zu machen, insbesondere beim Verarbeiten von Anfragen mit großen Kontextlängen. Im Grunde wird das Konzept einer dreistufigen Pipeline untersucht und entwickelt: Ein Memory-Modul liefert eine semantisch komprimierte Darstellung über einen langen Kontext, z.B. eine Dokumentation oder Nachrichten-Korpora. Die Ausgabe dieses Moduls wird dann an ein „Mid-Range-Attention-Modul“ weitergeleitet. Dieses basiert auf semantischen Blöcken, um effizient Token über mittlere Sequenzlängen zu generieren, die weiter auf die Benutzereingaben abgestimmt werden können. Die Ausgabe wird abschließend und entsprechend der eingegangenen Informationen durch ein klassisches Transformermodul erzeugt.
Innovationen und Perspektiven: Die nach Abschluss des Vorhabens neu entstehende, effiziente Inferenz auf großen Datenmengen wird KI-Modellen erlauben, mehr Eingabedaten mittels einfacherer Hardware zu verarbeiten. Da die laufenden Kosten für diesen Prozess mitunter den größten Teil der laufenden Kosten kommerzieller KI-Systeme ausmachen, würden somit auch die CO2-Emissionen dieser Systeme verringert werden. Darüber hinaus könnte das neuartige Modul für mehr Transparenz und Sicherheit sorgen, indem es relevante Merkmale in wenigen semantischen Konzepten erfasst und deren direkte Manipulation ermöglicht. Insgesamt bieten alle genannten Aspekte einen Wettbewerbsvorteil im internationalen Vergleich und machen die in „XEI“ gesammelten Erkenntnisse damit insbesondere für den EU-Markt attraktiv.