OpenAI 10.05.2023, 08:59 Uhr

Sprachmodelle erklären Neuronen in Sprachmodellen

OpenAI verwendet GPT-4, um automatisch Erklärungen für das Verhalten von Neuronen in großen Sprachmodellen zu schreiben und diese Erklärungen zu bewerten.

(Quelle: OpenAI.com)

Große Sprachmodelle (LLMs) wie ChatGPT sind leistungsfähiger geworden und werden breiter eingesetzt, aber selbst OpenAI weiß immer noch nicht genau, wie sie intern funktionieren. So könnte es beispielsweise schwierig sein, anhand ihrer Ergebnisse zu erkennen, ob sie voreingenommene Heuristiken verwenden oder Täuschungen begehen. Die Erforschung der Interpretierbarkeit zielt darauf ab, durch einen Blick in das Innere des Modells zusätzliche Informationen aufzudecken.

Ein einfacher Ansatz zur Erforschung der Interpretierbarkeit besteht darin, zunächst zu verstehen, was die einzelnen Komponenten (Neuronen und Aufmerksamkeitsköpfe) tun. Bisher mussten Menschen die Neuronen manuell untersuchen, um herauszufinden, welche Merkmale der Daten sie darstellen. Dieser Prozess lässt sich nicht gut skalieren: Es ist schwierig, ihn auf neuronale Netze mit Dutzenden oder Hunderten von Milliarden von Parametern anzuwenden. OpenAI schlägt ein automatisiertes Verfahren vor, das GPT-4 verwendet, um Erklärungen des Verhaltens von Neuronen in natürlicher Sprache zu erstellen und zu bewerten und sie auf Neuronen in einem anderen Sprachmodell anzuwenden.

Diese Arbeit ist Teil der dritten Säule des Ansatzes von OpenAI für die Alignment-Forschung: OpenAI will die Alignment-Forschungsarbeit selbst automatisieren. Ein vielversprechender Aspekt dieses Ansatzes ist, dass er mit dem Tempo der KI-Entwicklung mitwächst. Je intelligenter und hilfreicher zukünftige Modelle als Assistenten werden, desto bessere Erklärungen werden wir finden.

Wie der neue Ansatz von OpenAI funktioniert können Sie auf dieser Seite nachlesen.

Autor(in) Bernhard Lauer