Cztery Polskie AI i cztery różne podejścia

Cztery Polskie AI i cztery różne podejścia

Robimy polskie AI! Ok, tak naprawdę to robimy duże modele językowe (LLM) a'la ChatGPT, ale stały się one dzisiaj takim samym synonimem AI, jak kiedyś WWW - Internetu albo Bitcoin - blockchaina.

Ale po co nam właściwie własny polski duży model językowy? Po co nam ich wręcz kilka? Czy to marnowanie pieniędzy? A może niepotrzebna konkurencja zamiast współpracy?

Własne polskie LLM tworzymy po to, by lepiej rozumiały kulturowo-historyczne niuanse naszego kraju i języka.

Duże modele wielkich korporacji trenowane są zazwyczaj w 90% na anglojęzycznych treściach. Stąd polska reprezentacja stanowi w nich ułamek procenta. Takie modele nie rozumieją niuansów i specyfiki języka polskiego.

Jeszcze istotniejsze jest zwrócenie uwagi, iż modele te zastąpią w przyszłości wynajdywanie informacji i faktów w wyszukiwarkach internetowych oraz połkną Wikipedię, tak jak ona kiedyś połknęła Encyklopedię Britannica.

Historię piszą zwycięzcy, a fakty historyczne są odmiennie przedstawiane przez różne strony konfliktu. Model może zatem zostać nakarmiony zarówno tekstem o "wyzwoleńczym pochodzie" Armii Czerwonej wkraczającej 17 września 1939 na tereny Polski albo o "zbrojnej napaści".

Stworzenie narodowego LLM można też porównać do stworzenia narodowego pisma. Pismo polskie wprowadziliśmy w XIII wieku, co pozwoliło na wzmocnienie tożsamości narodowej, rozwój kultury i nauki, usprawnienie administracji i gospodarki oraz wzmocnienie pozycji międzynarodowej. Teraz podobnie, to otwarte i niezależne od zewnętrznych dostawców polskie modele językowe będą wspierały konkurencyjność polskich przedsiębiorstw na rynku technologicznym, zapewnią stabilne zaplecze dla kluczowych sektorów, takich jak bankowość, administracja, medycyna czy prawo.

Jeśli jednak już wiemy, że polski LLM jest nam niezbędny i dobrze zrozumie naszą specyfikę, prawo, idiomy, zwyczaje i historię, to po co nam ich więcej?

Odpowiedź Trurl v1.1
Odpowiedź Bielik v2

Stworzenie LLM od podstaw to bardzo drogi projekt. Pierwsze komercyjne i zamknięte LLM opracowywały amerykańskie Google, OpenAI, Meta, IBM, NVIDIA i każda z tych organizacji wydawała na to setki milionów dolarów. W Polsce dalej nie mamy zgromadzonego w firmach takiego kapitału, aby pozwolił nam na tworzenie tak kosztownych projektów.

Bardziej zaspana technologicznie Europa jak zwykle zaczęła temat od stworzenia regulacji. Jednak na tym tle wyróżniła się inicjatywa francuskiej firmy Mistral, która za cel postawiła stworzenie otwartego LLM, w którym lepiej byłyby reprezentowane języki europejskie: francuski, niemiecki, hiszpański i włoski. Do realizacji tego zadania w kolejnych rundach finansowania firma zdobyła ponad 1 mld euro (4,3 mld zł).

Alternatywą, w wielu innych krajach, było stworzenie przez rządy narodowego programu budowy swojego LLM, jak w Chinach, Rosji, Indiach, Hiszpanii, Niemczech, Szwecji, Finlandii, Singapurze czy Nigerii.

W Polsce powstała Polityka AI przy Ministerstwie Cyfryzacji, a przy niej Rada AI, Zespoły zadaniowe, Punkty kontaktowe. Kompleksowo, ale ciężko, dużo na raz, co oznacza, że może być wolno i nieefektywnie.

Sytuacja zmieniła się 03.2023, gdy wyciekł z firmy Meta kod modelu LLaMa. Kilka miesięcy później 09.2023 swój model opublikowała firma Mistral. Od tego momentu, możliwe było użycie jednego z tych bazowych modeli oraz douczenie go polskimi treściami. A to już było o wiele tańsze, niż tworzenie modelu od podstaw.

W tym momencie wystartowało kilka inicjatyw związanych z tworzeniem narodowego LLM. Poniżej opisuję cztery najważniejsze, by porównać ich cele, różne podejścia i sposoby finansowania.

Trurl

To inwestycja polskiej firmy, która od wielu lat tworzy systemy rozpoznawania mowy i systemy dialogowe. Inwestując własne środki i wspierając się Funduszami Europejskimi opracowywała własne modele. Po udostępnieniu przez Metę modelu LLaMa, niezwłocznie przystąpiła do użycia jego potencjału i dotrenowania go polskimi treściami.

Start: 11.2022

Cel: Stworzenie narzędzia do budowy automatycznych systemów obsługi klienta oraz chatbotów do e-commerce

Twórca: Firma Voicelab.AI

Wykonawcy: pracownicy, programiści firmy

Finansowanie: kapitał prywatny firmy + własna moc obliczeniowa + doświadczenie zdobyte na poprzednich projektach z dotacjami z funduszy UE na kwotę ok. 20 mln zł

Sposób: douczanie modelu LLaMa 2

Efekt: udostępnione modele z 7B i 13B parametrów

PLLuM

Wielkie konsorcjum 6 jednostek naukowych ze wsparciem Ministra Cyfryzacji, podjęło się dzieła stworzenia od podstaw polskiego dużego modelu językowego. Planowane upublicznienie pierwszej wersji ma nastąpić 12.2024. Projekt ten ma znamiona poważnego przedsięwzięcia z błogosławieństwem rządu.

Start: 11.2023

Cel: Stworzenie i rozwój otwartego polskiego modelu językowego wspierającego innowacje technologiczne w sektorach publicznym i prywatnym.

Twórca: Politechnika Wrocławska, NASK, Instytut Slawistyki PAN, Uniwersytet Łódzki, Instytut Podstaw Informatyki Polskiej Akademii Nauk, Ośrodek Przetwarzania Informacji

Wykonawcy: naukowcy uczelni i instytutów: programiści, data science, lingwiści, socjolodzy, prawnicy, specjaliści od bezpieczeństwa i etyki

Finansowanie: budżety jednostek naukowych + dofinansowanie Ministerstwo Cyfryzacji 14,5 mln zł + moc obliczeniowa PWr

Sposób: tworzenie własnego modelu od podstaw

Efekt: trwa trenowanie modelu

Qra

To alternatywna inicjatywa innej polskiej politechniki i instytutu. Mimo, iż to także inicjatywa polskich naukowców, to w odróżnieniu od PLLuM, wybrano douczanie istniejącego modelu.

Start: 02.2024

Cel: Opracowanie nowoczesnego polskojęzycznego modelu językowego, który mógłby stanowić fundament dla zaawansowanych rozwiązań informatycznych wymagających głębokiego zrozumienia języka polskiego

Twórca: Politechnika Gdańska, Ośrodek Przetwarzania Informacji

Wykonawcy: pracownicy instytutu i naukowcy z politechniki

Finansowanie: budżety jednostek naukowych + moc obliczeniowa PG

Sposób: douczanie modelu LLaMa 2

Efekt: udostępnione bazowe modele z 1B, 7B, 13B parametrów

Bielik

To oddolna inicjatywa pasjonatów AI, profesjonalistów i hobbystów, normalnie pracujących w komercyjnych firmach. Założyli stowarzyszenie SpeakLeash.org, by gromadzić wysokiej jakości polskie cyfrowe treści. Jednak po zdobyciu dostępu do superkomputerów AGH, zdecydowali się na stworzenie także modelu Bielika.

Start: 04.2024

Cel: Dostarczenie polskim firmom modelu, dzięki któremu będą mogły zyskać przewagę konkurencyjną

Twórca: Stowarzyszenie SpeakLeash.org i Akademickie Centrum Komputerowe Cyfronet AGH

Wykonawcy: wolontariat pasjonatów IT z różnych firm, w swoim wolnym czasie

Finansowanie: bezpłatnie + zasoby AGH

Metoda: stworzenie nowego modelu zainicjowanego fragmentami Mistral-7B

Efekt: udostępniony model 7B parametrów, następnie 11B parametrów i dalszy rozwój

Wnioski

Firma z dotacją. Mamy zatem firmę komercyjną, która próbuje od dawna na różne sposoby i wspiera się dotacjami. Osiąga swoje cele, udostępnia model publicznie i komercjalizuje jego użycie w swoich produktach.

Rząd Konsorcjum. Mamy również największą inicjatywę polskich naukowców, zrzeszającą wiele uczelni i instytutów. Do tego otrzymują wsparcie Ministra Cyfryzacji, czym projekt zyskuje rangę krajowego. Warto podkreślić, iż jest to najbardziej kompleksowa próba, bo model budowany jest od podstaw, a w tworzenie od razu zaangażowani są ludzie od etyki i prawa. Ma on szansę być najważniejszym polskim LLM, ale czy nie upadnie pod ciężarem akademickich analiz, zastrzeżeń na gruncie bezpieczeństwa i etyki? Warto również zwrócić uwagę, iż kwota dofinansowania wprost, to tylko kilkanaście mln zł, gdy na inne projekty Ministerstwo Cyfryzacji wydaje setki milionów zł.

Naukowcy. Mamy także alternatywną inicjatywę, także polskich naukowców, ale tym razem w małym gronie i w lekkim podejściu douczania innego modelu. Efekty już są gotowe, ale jest to jedynie model bazowy. Nie można więc z nim pogadać, czy wydać mu polecenia. Powstał zatem półprodukt, który z pewnością spełnił akademickie założenia, ale jest mniej użyteczny. Pytanie brzmi czy to jest skoordynowana alternatywa, zupełnie niezależna próba, czy też część naukowców poczuła się wykluczona z dużego projektu PLLuM?

Pasjonaci. Ostatnia inicjatywa jest najciekawsza, gdyż wykluła się z pasji, a może i nawet z odrobiny technopatriotyzmu. Nie jest tajemnicą, iż wielu polskich inżynierów pracuje w zagranicznych firmach przy tworzeniu najlepszych LLM. W polskich firmach mamy również wielu świetnych fachowców od AI. I to właśnie oni zrzeszyli się w stowarzyszenie SpeakLeash, stworzyli model, który działa i w chwili obecnej daje najlepsze rezultaty spośród działającej trójki. Wygrywa także z wieloma zagranicznymi, znacznie większymi modelami. Zaczęli szybko i efektywnie, bardzo praktycznie, iteracyjnie i eksperymentalnie. Dowieźli efekt, pokazali wartość i teraz dopiero bardziej się organizują zawiązując fundację. To całkiem odwrotnie niż w PLLuM.


To dobrze, że mamy w Polsce kilka równoległych inicjatyw. Konkurencja i większy wybór jest dobry. Łatwiej będzie też porównać tempo i efekt prac poszczególnych inicjatyw oraz wybrać najlepsze rozwiązanie. Specjaliści twierdzą, że w Polsce jest miejsce na 5-10 otwartych modeli i pewnie dziesiątki ich doszkolonych do różnych zastosowań wersji. Różne inicjatywy mają też różne cele. Formalnie brzmią one podobnie, ale o ile PLLuM może skupiać się bardziej na prawdzie historycznej i etyce, tak Bielik skupia się na szybkim użyciu w biznesie.

Zwraca jednak uwagę, iż na dzisiaj mamy dwie inicjatywy bardziej związane z biznesem i dwie bardziej z naukowcami. Zatem dalej w Polsce mamy problem, by połączyć ze sobą te dwa potencjały. Sposób w jaki obie inicjatywy pracują, jasno pokazuje jak różne są to podejścia. Stąd próba łączenia tych zespołów wprost, skończyłaby się porażką. Bardzo dobrze zatem, że inicjatywy te działają niezależnie.

Jednocześnie wszystkie strony podkreślają, że potrzebna jest współpraca, wymiana doświadczeń oraz treści uczących. I to już się dzieje, przynajmniej na poziomie osobowym pomiędzy twórcami Bielika i PLLuMa oraz PLLuMa i Qry. Taka forma współpracy ma szansę wykorzystać synergię tam gdzie jest ona możliwa, a zarazem nie będzie doprowadzała do konfliktów wynikających z różnego podejścia i trochę innych celów.

Zastanawiam się też nad rolą państwa. Nie wierzę, by potrafiło dobrze zorganizować taki projekt czy chociażby zsynchronizować te inicjatywy. Uważam jednak, że bezsprzecznie powinno przeznaczyć odpowiednio większe środki finansowe i to nie na jedną wybraną inicjatywę, ale na każdą z nich.

Zaznaczyć też trzeba, że inicjatywom tym pomaga fakt, że mamy w Polsce odpowiednio mocne centra obliczeniowe, które udostępniły swoje zasoby: STOS z PG, WCSS z PWr, Cyfronet z AGH oraz ich specjalistów, którzy włączyli się w projekt.

Jeśli brakuje nam kapitału, to musimy nadrabiać sprytem, wiedzą ekspertów, szybkością, pasją, zaangażowaniem i aliansami. Wydaje się, że to właśnie teraz się dzieje na polu Polskiego Dużego Modelu Językowego. Nawet jeśli PLLuM będzie się przeciągał, to Bielik już lata, Qra jest chociaż nie gdaka, a Trurl się komercjalizuje.

Natalia M

AI Solutions Engineer | Automation engineer

6mo

Ja w tych ostatnich 🙈

Like
Reply
Julia Krysztofiak-Szopa (she/her)

AI Educator | Gifted Children Advocate

6mo

Doskonałe zestawienie, dzięki za zebranie w jednym miejscu tych info! NIe miałam pojęcia o projekcie Qra!

🍋Tom 🍑Pom

✨🅰🅽🆄 🆁🅴🆂🅴🅰🆁🅲🅷✨

7mo

Z Bielikiem pomogli nam Francuzi, bo Mistral jest od nich

Like
Reply
Dobrosław Duszynski

Director of Sales (Digital Products) at Flyps | Owner and founder at SalesMeUp

7mo

Zaznaczmy tu wyraźnie, że wykorzystanie ChatuGPT startupu AI nie czyni, nawet połączenie przez API (które mam), tak samo jak jazda na rowerze nie czyni kolarzem! Pozdrawiam kolegów @microscopeIT obecnie w Tooploox prawdziwych gości od machine learningu i AI. Jakby ktoś pytał to ja jeżdżę na rowerze, oni są kolarzami.

Like
Reply
Wojciech Bielecki

Founder of entre.agency · Communication strategy · Building narratives on the Internet · Identifying web amplifiers and useful idiots as a side project · Marketing for ENTREpreneurs!

7mo

Ciekawa konkluzja o roli państwa - podejrzewam, że poza finansowaniem mogłoby zapewnić inne zasoby w zamian za częściową kontrolę, ale za mało znam ten rynek, żeby powiedzieć co. Jak to robią francuzi?

To view or add a comment, sign in

Explore topics