Jei jūsų tikslinėje rinkoje yra 22 oficialios kalbos ir jos žmonės kalba daugiau nei 19 000 tarmių, ar prasminga pasiūlyti tik tekstinį AI pokalbių robotą, kuris geriausiai veiktų keliomis kalbomis?
Šį klausimą stengėsi išspręsti Indijos dirbtinio intelekto startuolis „Sarvam“, o antradienį jis pristatė daugybę pasiūlymų, įskaitant balsu įgalintą AI botą, kuris palaiko daugiau nei 10 indų kalbų, o tai reiškia, kad šalies žmonės norėtų kalbėtis su AI modeliuoja jų gimtąja kalba, o ne kalbasi su juo per tekstą. Startuolis taip pat pristato mažos kalbos modelį, AI įrankį teisininkams, taip pat garso kalbos modelį.
„Žmonės nori kalbėti savo kalba. Šiandien labai sudėtinga spausdinti indų kalbomis“, – „TechCrunch“ pasakojo „Sarvam AI“ vienas iš įkūrėjų Vivekas Raghavanas.
Bengalūre įsikūręs startuolis, kuris visų pirma skirtas verslui ir įmonėms, siūlo savo dirbtinio intelekto balso robotus įvairioms pramonės šakoms, ypač toms, kurios remiasi klientų aptarnavimu. Kaip pavyzdį ji nurodė vieną iš savo klientų: religinį turinį siūlantis startuolis Sri Mandir naudojo Sarvam AI agentą mokėjimams priimti ir iki šiol apdorojo daugiau nei 270 000 operacijų.
Bendrovė teigė, kad jos AI balso agentai gali būti įdiegti „WhatsApp“ programoje ir netgi gali dirbti su tradiciniais balso skambučiais.
„Peak XV“ ir „Lightspeed“ palaikoma „Sarvam“ planuoja savo AI agentus kainuoti nuo 1 ₹ (maždaug 1 cento) už naudojimo minutę.
Startuolis kuria savo balsu įgalintus AI agentus, remdamasis pagrindiniu mažos kalbos modeliu, vadinamu Sarvam 2B, kuris yra parengtas remiantis 4 trilijonų žetonų duomenų rinkiniu. Pasak Raghavano, modelis yra visiškai apmokytas sintetiniais duomenimis.
Dirbtinio intelekto ekspertai dažnai pataria būti atsargiems, kai naudojami sintetiniai duomenys – iš esmės duomenys, sugeneruoti naudojant didelį kalbos modelį, kuriuo siekiama atkartoti realaus pasaulio duomenis – mokyti kitus AI modelius, nes LLM linkę haliucinuoti ir sudaryti informaciją, kuri gali būti netiksli. DI modelių mokymas apie tokius duomenis gali padidinti tokius netikslumus.
Raghavanas sakė, kad Sarvamas pasirinko naudoti sintetinius duomenis dėl itin riboto indų kalbos turinio prieinamumo atvirame žiniatinklyje. Jis pridūrė, kad startuolis sukūrė modelius, skirtus išvalyti ir tobulinti duomenis, pirmą kartą panaudotus sintetiniams duomenų rinkiniams generuoti.
Įkūrėjas teigė, kad „Sarvam 2B“ kainuos dešimtadalį visų panašių pramonės šakų. Startuolis naudojasi atviru modeliu, tikėdamasis, kad bendruomenė juo toliau remsis.
„Nors didelių kalbų pagrindų modeliai yra labai įdomūs, naudojant mažų kalbų modelius galite pasiekti geresnės, specifiškesnės, pigesnės ir mažesnės delsos patirtį“, – sakė Raghavanas. „Jei norite atlikti vieną ar dvi užklausas per savaitę ar mėnesį, turėtumėte naudoti didelių kalbų modelius. Tačiau naudojimo atvejams, kuriems reikia milijonų kasdienių sąveikų, manau, kad mažesni modeliai yra tinkamesni.
Startuolis taip pat pristato garso kalbos modelį, pavadintą Shuka, sukurtą remiantis Saaras v1 garso dekoderiu ir Meta Llama3-8B Instruct. Šis modelis taip pat yra atvirojo kodo, todėl kūrėjai gali naudoti paleisties vertimą, TTS ir kitus modulius balso sąsajoms kurti.
Be to, yra dar vienas produktas, pavadintas „A1“ – generatyvus dirbtinio intelekto darbastalis, skirtas teisininkams, galintis ieškoti taisyklių, parengti dokumentus, juos redaguoti ir išgauti duomenis.
„Sarvam“ yra viena iš mažų Indijos startuolių grupių, pasisakančių už naudojimo atvejus, kurie atitinka šalies interesus ir prisideda prie vyriausybės pastangų plėtoti savo individualią AI infrastruktūrą.
Viso pasaulio vyriausybės vis labiau siekia „suverenios AI“ – AI infra, kuri yra sukurta ir kontroliuojama nacionaliniu lygiu. Tariamas tokių pastangų tikslas – apsaugoti duomenų privatumą, skatinti ekonomikos augimą ir pritaikyti dirbtinio intelekto vystymą pagal jų kultūrinį kontekstą. JAV ir Kinija šiuo metu daugiausiai investuoja į šią erdvę, o Indija seka savo „IndiaAI“ programa ir konkrečiai kalbai pritaikytais modeliais.
Viena iš „IndiaAI“ programos iniciatyvų vadinama „IndiaAI Compute Capacity“, o planas yra sukurti superkompiuterį, maitinamą mažiausiai 10 000 GPU. Vienas iš kuriamų modelių, pavadintas Bhashini, siekia demokratizuoti prieigą prie skaitmeninių paslaugų įvairiomis Indijos kalbomis.
Raghavanas teigė, kad jo startuolis yra pasirengęs prisidėti prie IndiaAI programos. „Jei atsiras galimybė, dirbsime su vyriausybe“, – interviu sakė jis.