Mit jelent az LLM a mesterséges intelligencia témakörben?

Az LLM, azaz large language modell, magyarul nagy nyelvi modell egy olyan mesterséges intelligencia alapú rendszer, amely mesterséges neurális hálókból áll, a gépi tanulás illetve a deep learning segítségével sok paraméterből álló adatbázisok óriási tömegén tanítanak arra, hogy az emberi nyelvre hasonlító nyelvi feladatokat oldjanak meg.

Az LLM-ek használhatók például szövegkészítésre, fordításra, szövegértésre, szövegösszefoglalásra, szöveg bővítésére.

Hogyan működnek az LLM-ek?

Nagy adatbázis halmazokon tanulnak be, a ChatGPT-3 például például 175 milliárd adatbázist kapott. Itt az adatbázis az egyes felületeket jelenti, például egy könyvet, egy internetes oldalt, egy dokumentumot. Ezek az adatbázisok tokenekből, kisebb egységekből, például szavakból, mondatokból állnak. A ChatGPT-3-é például hozzávetőlegesen 499 milliárt tokenes. Az óriási adathalmazok alapján valószínűségi alapon teszik ezek a modellek egymás után a szavakat.

Egy nagy nyelvi modellben a súlyoknak hívjuk azokat a paramétereket, amelyek meghatározzák a modell viselkedését és teljesítményét. A nyelvi modell kezdeti betanításánál a súlyok véletlenszerűek általában. Az úgynevezett finomhangolás (fine-tuning) során a már előzetesen betanított nyelvi modell súlyait módosítjuk olyan módon, hogy további tanítást végzünk egy specifikus feladatra vonatkozóan. A finomhangolás során a súlyokat az új adatokra vagy feladatokra optimalizáljuk úgy, hogy a modell jobban teljesítsen az adott feladaton.

Mely cégek fejlesztenek nagy nyelvi modelleket?

A leghíresebb talán az OpenAI ChatGPT nevű modellje, e mögé finanszírozóként beszállt a Microsoft. A Google ismert modellje a BERT, a kínai Baidu keresőé az Ernie 3.0 Titan, a Metáé az LLaMA (Large Language Model Meta AI), az orosz Yandex keresőé a YaLM 100B, az Amazoné az AlexaTM. A nagy nyelvi modellek nagy adatbázis halmazokon tanulnak be, és nagy szímítási kapacitásra van szükségük az optimális működéshez. Éppen ezért az LLM fejlesztése általában a nagyobb cégek terepe.