- Startseite
- KI-Glossar
- BLOOM
BLOOM
BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) ist ein Open-Source-Großsprachmodell mit 176 Milliarden Parametern, das von einem internationalen Forscherteam unter der Leitung von BigScience entwickelt wurde. Es wurde explizit geschaffen, um den Zugang zu moderner KI-Technologie zu demokratisieren und steht im Kontrast zu proprietären Modellen wie GPT-3 oder PaLM. BLOOM generiert Texte in 46 natürlichen Sprachen und 13 Programmiersprachen und wurde auf dem ROOTS-Korpus trainiert, einem multilingvalen Datensatz mit über 1,6 TB Text.
Technische Merkmale
BLOOM basiert auf einer Decoder-only-Transformer-Architektur mit zwei Innovationen: ALiBi-Positionsembedding (Attention with Linear Biases) zur effizienten Verarbeitung langer Texte und eine zusätzliche Layer-Normalisierung nach dem Embedding-Layer für stabileres Training. Das Modell wurde auf dem französischen Jean-Zay-Supercomputer mit 384 NVIDIA-A100-GPUs trainiert und verbrauchte dabei über 1 Million GPU-Stunden.
Modell | Parameter | Sprachen | Open Source |
---|---|---|---|
BLOOM | 176 Mrd. | 46 + 13 Programmiersprachen | Ja (RAIL-Lizenz) |
GPT-3 | 175 Mrd. | Vorwiegend Englisch | Nein |
OPT-175B | 175 Mrd. | Multilingual | Ja |
Anwendungsbereiche und ethische Implikationen
BLOOM eignet sich besonders für multilinguale Textgenerierung, Code-Vervollständigung und akademische Forschung. Im Vergleich zu GPT-3 zeigt es bessere Leistung bei nicht-englischen Sprachen, hat jedoch höhere Hardwareanforderungen. Kritisch zu betrachten sind mögliche Verzerrungen im Training (Bias), die durch den heterogenen ROOTS-Datensatz gemildert, aber nicht eliminiert wurden. Die Umweltauswirkungen des Trainings (ca. 25 Tonnen CO₂) wurden durch Nutzung von Kernenergie reduziert.
Fazit
BLOOM setzt Maßstäbe für transparente, gemeinwohlorientierte KI-Entwicklung. Während es in Spezialanwendungen wie Code-Generierung (Humaneval-Score: 15,5%) kommerziellen Modellen unterlegen ist, bietet es Forschern und Entwicklern ein einzigartiges Werkzeug für multilinguale NLP-Projekte. Die Entscheidung für BLOOM sollte immer eine Abwägung zwischen ethischen Prioritäten, Sprachvielfalt und Ressourcenverfügbarkeit sein.