Große Sprachmodelle (Large Language Models/LLMs) sind derzeit in aller Munde und es gibt viele Startups zum Thema. Während diese Modelle vieles beherrschen und sogar direkt aus Beispielen lernen können [1], bleibt ein zentrales Problem bestehen. Nahezu alle Modelle sind hauptsächlich auf die englische Sprache trainiert. Selbst wenn diese Modelle multilingual sind, bleiben die Fähigkeiten in nicht-englischer Sprache deutlich hinter der nativen Sprache zurück.

Funktionsweise der Tokenzing Strategie

Wie sehr es hier einen “Bias” auf die englische Sprache gibt, sieht man bereits bei Tokenizing Strategie. Der Tokenizer dient dazu, Wortstücke in mathematische Vektoren umzuwandeln, anhand dieser das Sprachmodell dann Wahrscheinlichkeiten zu Wortkombinationen berechnen und damit neue Inhalte erstellen kann. Für die Erstellung eines solchen Tokenizers nutzt man bereits einen Auszug an Trainingsdaten und durchsucht diese nach häufig vorkommenden Kombination. So wird man in deutschen Texten die Buchstabenkombination “an” häufiger finden als etwa “zr”. Analog wird man im Englischen häufiger die Kombination “th” finden als im Deutschen. Erzeugt man aus einem solchen Vokabular zufällige Wortketten sieht das zum Beispiel so aus:

attitudesatari overpowered planners halftime Bur Gauntlet city repairing championshipcowethy temperform TacoMexicoceive Jerome done362 NVIDIA town respons astronomer England [2]

Während durch den Zufallsgenerator hier natürlich nichts Sinnhaftes herauskommt, so kann man doch schon erkennen, dass hier Wortfetzen eher aus der englischen Sprache kommen (oder man findet auch Eigennamen wie des US Unternehmen NVIDIA). Da solche Wortfragmente für das Erlernen der Textstatistiken im Sprachmodell eine Rolle spielen hat bereits die Tokenisation Strategie einen Einfluss auf die Sprachfähigkeit eines solchen Modells.  

Weiterhin hängt die Fähigkeit des Modells auch von der Sprache der gelesenen Texte ab. Zwar sind Modelle wie GPT-3 (auf dem auch das populäre ChatGPT basiert) auf eine große Anzahl von Webtexten optimiert, jedoch haben diese etwa nur die englischsprachige Wikipedia gesehen [3]

Aus diesem Grund haben wir es uns zum Ziel gemacht, Sprachmodelle zu entwickeln, die ganz gezielt auf die deutsche Sprache und darüber hinaus gezielt auf die Bedürfnisse unserer Kunden zugeschnitten sind. 


„Die Sprache ist gleichsam der Leib des Denkens.“
Georg Wilhelm Friedrich Hegel


Quellen

[1] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, und I. Sutskever, „Language Models are Unsupervised Multitask Learners“.

[2] Tiktoken tokenizer mit random sequence: [5313, 43313, 14479, 35554, 49313, 33596, 35185, 5481, 48941, 1748, 39005, 12184, 8232, 33077, 4124, 687, 40129, 33006, 15164, 33617, 1760, 35667, 15127, 3240, 2424, 47603, 4492]

[3] T. Brown u. a., „Language Models are Few-Shot Learners“, in Advances in Neural Information Processing Systems, 2020, Bd. 33, S. 1877–1901. Zugegriffen: 4. März 2023. [Online]. 

 

David
Post by David
März 18, 2023