DESY und IBM entwickeln Big-Data-Lösung für die Forschung

Blick ins DESY-Rechenzentrum. Bild: Heiner Müller-Elsner/DESY

System soll bis zu 20 Gigabyte pro Sekunde verarbeiten und Zugang für mehr als 2000 Forscher jährlich bieten

DESY und der IT-Konzern IBM haben eine Kooperation zur Entwicklung einer hochperformanten Big-Data-Speicherlösung für die Forschung geschlossen. DESY setzt dazu ein IBM-Speichersystem ein, das große Datenmengen extrem schnell handhaben kann. Zu Spitzenzeiten sollen bis zu 20 Gigabyte pro Sekunde verarbeitet werden - das entspricht dem Inhalt von rund fünf einfachen DVDs.

Die Daten entstehen an DESYs Forschungslichtquelle PETRA III. Ihr hochbrillantes Röntgenlicht liefert Wissenschaftlern einzigartige Einblicke in den Nanokosmos - von neuartigen Halbleitern über Katalysatormaterialien bis hin zu lebenden Zellen. PETRA III ist ein 2,3 Kilometer langer Ringbeschleuniger, der elektrisch geladene Teilchen nahezu mit Lichtgeschwindigkeit durch spezielle magnetische Slalomstrecken schickt, um auf diese Weise intensive Röntgenstrahlung zu erzeugen.

Mehr als 2000 Forscher pro Jahr erkunden mit diesem Licht atomgenau die innere Struktur ihrer Proben, wobei enorme Datenmengen entstehen. "Ein typischer Detektor liefert heute einen Datenstrom von etwa fünf Gigabit pro Sekunde", erläutert der Leiter der DESY-IT, Dr. Volker Gülzow. Das entspricht knapp einer CD-ROM pro Sekunde. "An PETRA III steht aber nicht nur ein Detektor, sondern es gibt 14 Messstationen, die zurzeit auf 24 erweitert werden. Alle diese Daten müssen zuverlässig gespeichert und verarbeitet werden."

Um diese Herausforderung zu meistern, entwickeln DESY und IBM Research eine Lösung auf Basis des IBM-Systems Software-Defined-Storage mit dem Codenamen Elastic Storage. Diese nach oben skalierbare Lösung soll die bis zu 20 Gigabyte Daten, die pro Sekunde an den PETRA-III-Messstationen erzeugt werden, speichern und für die Analyse vorhalten. So sollen Forscher schnelleren Zugang zu ihren Messdaten bekommen. DESY kann auf diese Weise Analysis-as-a-Service und Cloud-Dienste für die Nutzer seiner Anlagen aus aller Welt anbieten.

Die Skalierbarkeit des Systems soll auch bei künftigen Herausforderungen bei der Verarbeitung von Forschungsdaten helfen. Mit dem europäischen Röntgenlaser European XFEL bauen DESY und internationale Partner derzeit eine Forschungslichtquelle, die noch sehr viel mehr Daten produzieren wird als PETRA III. "Wir erwarten vom European XFEL etwa 100 Petabyte pro Jahr, also 100 Millionen Gigabyte", erläutert Gülzow. Das ist vergleichbar mit dem Datenvolumen des weltgrößten Teilchenbeschleunigers LHC (Large Hadron Collider) am europäischen Teilchenforschungszentrum CERN bei Genf.

„Die Software-Defined-Technologien von IBM können DESY mit der nötigen Skalierbarkeit, Geschwindigkeit und Agilität versorgen, damit das Forschungszentrum in Zukunft Analysen als Service in Echtzeit anbieten kann“, sagt Jamie Thomas, General Manager Storage and Software Defined Systems bei IBM. „IBM kann von den Erfahrungen mit DESY profitieren und diese in andere datenintensive wissenschaftliche Bereiche wie etwa Astronomie, Klimaforschung und Geophysik einbringen. Dort können dann ebenfalls Speichersysteme errichtet werden für die Analyse von Daten, welche von verteilten Detektoren und Sensoren erzeugt worden sind.“

„Die verteilten Detektoren des DESY-Beschleunigers erzeugen sehr große Datenmengen, die in Echtzeit erfasst und zentral schnell ausgewertet werden müssen. Forscher aus aller Welt greifen dann auf Ergebnisse sowie Rohdaten zu. DESY braucht dazu eine flexible, skalierbare und kosteneffektive Compute- und Speicherarchitektur für die Aufnahme und Analyse riesiger Datenmengen. Wir sehen ähnliche Anforderungen und Verarbeitungsschritte auch in anderen datenintensiven Wissenschaften und glauben deshalb, dass die hier erarbeitete Architektur auf andere Bereiche übertragbar ist“, ergänzt Ulf Troppens, IBM Consulting IT-Spezialist.

IBM Research in Zürich und das IBM Storage Development Team in Mainz werden die nötige technische Expertise aufbieten und ein breites Spektrum von Funktionen auswerten, die Teil der Elastic Storage Roadmap sind.