Store sprogsmodeller (Large Language Models, LLMs) er i fokus inden for AI-verdenen. De kan håndtere stor mængder og har stor kapacitet i forhold til tekstresumé, besvarelse af spørgsmål, kodning, indholdsoprettelse osv. Men der er udfordringer med træningsdatakvalitet og beregningsomkostninger.
WRAP, web rephrase augmented pre-training, er en ny metode udviklet af et forskerhold fra Apple og Carnegie Mellon University, som bruger en eksisterende, costum trænet LLM til at omformulere online sider i forskellige stilarter. Dette bidrager til forbedring af LLMs pre-training med både ægte og kunstigt omformuleret data. Altså at bruge eksisterende data og skabe nyt data på baggrund heraf, som er det man kalder syntetisk data.
WRAP repræsenterer et betydeligt fremskridt indenfor pre-training af LLMs ved at bruge forskelligartet syntetisk data af høj kvalitet for at fremskynde træning og forbedre LLMs generelle præstation. Den præsenterer en banebrydende vej fremover i lyset af den overflod af lavkvalitets web data og ressource-intensive natur af klassiske LLM træningsmetoder.