Open Assistant – Avoimen lähdekoodin keskusteleva tekoäly kaikille

Briefly in English:
COSS interviewed Andreas Köpf about the Open Assistant project. Köpf is one the four founders and main coordinators behind the open source AI chat-assistant project. You can download the full interview in English here: OpenAssistant interview (PDF)

______________________________________

Erilaiset chatbotit ja keskustelevat tekoälyratkaisut ovat kehittyneet nopeasti ja niiden ympärillä on käyty viime aikoina vilkastakin keskustelua mediassa. Niin sanottu keskusteleva tekoäly mahdollistaa ihmisten ja koneen välisen dialogin käyttämällä luonnollista kieltä. Se mahdollistaa nopeutetun tiedonhaun eri järjestelmistä ja lähteistä, tiedon muokkaamisen ja sen yhdistämisen osaksi käytyä dialogia. Tämä mullistava teknologia on avannut uusia mahdollisuuksia nopeuttaa ja tehostaa toimintaa, ja sitä on hyödynnetty jo hyvin monenlaisiin eri käyttötapauksiin.

COSS haastatteli Andreas Köpfiä koskien avoimen lähdekoodin tekoälyä hyödyntävää Open Assistant -projektia. Köpf on yksi projektin neljästä perustajasta sekä pääkoordinaattorista. Lue alta COSSin tekemä haastattelu kokonaisuudessaan käännettynä suomeksi.

Mistä Open Assistant -projektissa on kyse? Mitkä ovat mallin keskeisimmät hyödyt ja ominaisuudet? Kertoisitteko myös lyhyesti sen historiasta sekä henkilöistä projektin takana?

OpenAssistantin tehtävänä on kehittää avoimen lähdekoodin tekoälyä hyödyntävä chat-assistentti, joka voi seurata luonnollisen kielen ohjeita, suorittaa tehtäviä, hakea tietoa ja olla vuorovaikutuksessa kolmansien osapuolten rajapintojen kanssa.

Projektin ytimessä on suuren kielimallin (Large Language Model, LLM) tekoälyn kohdistaminen. Tämä prosessi pyrkii ohjaamaan kielimallia kommunikoimaan käyttäjän kanssa positiivisella, kohteliaalla, rehellisellä, avuliaalla ja vaarattomalla tavalla.

Tällaisen mallin kouluttamiseen tarvitaan datasetti, joka tallettaa haluttujen vastausten jakauman, jota malli jäljittelee koulutuksen jälkeen. Tällaisen datasetin kokoaminen on erittäin työlästä ja aikaa vievää. Päätimme aloittaa suuren joukkoistamiskampanjan ja loimme verkkosivuston (open-assistant.io) kootaksemme ihmisten näyttöjä kyselyavustaja-dialogeista yhdessä käyttäjien arviointien ja vastausluokitusten kanssa ihmisten mieltymysten mukaan.

Dialogi- ja mieltymysdatasettejä käytetään sitten hienosäätämään esikoulutettuja suuria kielimalleja, LLM:ia, prosessissa, joka tunnetaan nimellä Reinforcement Learning from Human Feedback (RLHF). Yksi OpenAssistantin päätavoitteista on julkaista datasetti ja tarjota se kaikkien saataville omien malliensa kouluttamiseen.

OpenAssistant-projekti on satojen vapaaehtoisten yhteisponnistus ympäri maailmaa. Vapaaehtoiset tekevät yhteistyötä GitHubin ja Discord-palvelimen kautta. Tammikuun ja huhtikuun 2023 välillä tuhannet käyttäjät osallistuivat OpenAssistant-tietokannan tehtävien suorittamiseen open-assistant.io -sivustolla.

OpenAssistant perustettiin joulukuun puolivälissä 2022 Christoph Schuhmannin, Huu Nguyenin, Yannic Kilcherin ja minun, Andreas Köpfin, toimesta. Projekti on LAIONin ja Yannic Kilcherin Discord-yhteisöjen yhteistyö. LAION on saksalainen voittoa tavoittelematon organisaatio, joka keskittyy avoimen lähdekoodin tekoälytutkimusprojekteihin. Yhtenä perustajista on Christoph Schuhmann. Yannic Kilcher on vaikutusvaltainen ML/AI-YouTuber, jolla on suuri seuraajakunta ja aktiivinen Discord-yhteisö. Huu Nguyen on ontocord.ai:n perustaja, entinen BigLaw-kumppani, tietojenkäsittelijä ja LAION-vapaaehtoinen. Minä itse olen aktiivinen jäsen molemmissa LAION- sekä YK-yhteisöissä. Olen johtanut aiemmin useita tiimejä haastavissa perinteisen ohjelmistokehityksen, koneoppimisen ja robotiikan projekteissa, mutta OpenAssistantin organisointi oli minulle poikkeuksellinen kokemus.

Onko mitään vastaavaa luotu aiemmin? Mikäli on, kuinka Open Assistant eroaa näistä? Onko projektissa jotakin ainutlaatuista, jota haluaisitte erityisesti korostaa?

Keskustelevalla tekoälyllä on pitkä historia, joka ulottuu aina varhaisiin yrityksiin, kuten Weizenbaumin ELIZA-ohjelmaan vuonna 1966. Uudemmat ääniohjatut avustajat, kuten Siri, Alexa tai Google Assistant, ovat jo käyttäneet onnistuneesti koneoppimista puheentunnistukseen ja -generointiin, mutta pysyivät suurelta osin sääntöpohjaisina varsinaisten tehtävien osalta. ChatGPT:n ja GPT-4:n julkaisun myötä olemme siirtyneet uuteen keskustelevien avustajajärjestelmien aikakauteen, jossa käytetään kohdennettua suurta kielimallia (LLM) ytimenä. OpenAssistantin pääasiallinen ero kaupallisiin, voittoa tavoitteleviin tuotteisiin verrattuna on avoin tiedonkeruu- ja kehitysprosessi. Kaikki tuotokset ovat saatavilla Apache 2.0 -lisenssin alla.

Kuinka pitkällä projekti on? Milloin mallia pääsee testaamaan?

Julkaisimme 15. huhtikuuta OpenAssistant Conversations Datasetin (OASST1), joka sisältää yli 160 000 viestiä 35 eri kielellä. Samana päivänä julkaisimme myös ensimmäisen version avustajamallistamme, joka on saatavilla osoitteessa: open-assistant.io/chat . Parhaillaan testauksessa on vahvistusoppimiseen perustuvia malleja ja ensimmäinen versio plug-in -järjestelmästä, joka mahdollistaa avustajan vuorovaikutuksen kolmansien osapuolten verkkopalveluiden kanssa.

Tuleeko Open Assistant olemaan ilmainen?

Lähdekoodi, datasetti ja mallit tulevat aina olemaan ilmaisia. Kestävän LLM-verkkotoiminnan järjestäminen on ehdottomasti suurin haaste, jota työstämme. Lanseerauksemme yhteydessä meillä on erittäin anteliaita sponsoreita, jotka lahjoittavat osan laskentaklustereistaan meille. Keskipitkällä tai pitkällä aikavälillä meidän on joko rakennettava kumppaniverkosto (kuten yliopistot, yritykset ja yksityishenkilöt), jotka ajavat osan hajautetusta laskentajärjestelmästämme, tai meidän on tehtävä yhteistyötä kaupallisten toimijoiden kanssa rakentaaksemme uudelleenrahoitusjärjestelmän OA:n päälle. Toinen vaihtoehto voisi olla lohkoketju-/token-pohjainen ratkaisu. Tietenkin kaikki tuki laskentaklusterien organisaatioilta tai ihmisiltä, jotka haluavat auttaa meitä järjestämään verkoston, olisi tervetullutta.

Millaisia kontribuutioita etsitte erityisesti tällä hetkellä? Miten kiinnostuneet voivat osallistua Open Assistant -projektiin?

Etsimme aina front-end sekä back-end kehittäjiä, ML-insinöörejä, mutta myös teknisiä kirjoittajia, kyselytekniikan insinöörejä tai plugin-kehittäjiä. Kiinnostuneet voivat vierailla GitHub-repositoriossamme tai liittyä OA:n Discord-palvelimelle. Ihmisten palautteen tietojen keruu on edelleen käynnissä, ja kutsumme kaikki osallistumaan omalla kielellään.

Mitkä ovat tulevaisuuden tavoitteenne Open Assistant -projektin suhteen?

Internet-haun lisäksi integroimme todennäköisesti asiakirjahakujärjestelmiä, kuten vektorihakutietokantoja, jotta avustaja voi käsitellä suurempia tietomääriä (esim. lukea koko käyttöohjeen). Tämä liittyy myös mallimme kontekstikoon laajentamiseen nykyisestä 2 000 merkistä 32 000 merkkiin ja sen yli (voit ajatella merkkiä sanana tai sanan osana).

Uusia laajempia avoimen lähdekoodin perusmalleja julkaistaan todennäköisesti lähitulevaisuudessa. Nykyinen mallikokomme ei riitä toistamaan kaikkia kaupallisten toimijoiden alalla olevia ominaisuuksia. Pyrimme työskentelemään koko AI/ML-avoimen lähdekoodin ja tutkimusyhteisön kanssa parantaaksemme kyvykkyyksiä ja tarjoamaan ilmaisen pääsyn tähän mullistavaan teknologiaan kaikille.

Onko vielä jotakin muuta, mitä haluaisitte kertoa projektista?

LLM-keskusteluälyagentit vaikuttavat merkittävästi siihen, miten työskentelemme ja mitä voimme tehokkaasti automatisoida. Viime kuukausien aikana ihmiset ovat esitelleet minulle uskomattomia käyttötapauksia. Meidän on varmistettava, että tämä teknologia tehdään kaikkien saataville eikä monopolisoida muutaman teknologiajätin toimesta. Sääntelijöiden ja päätöksentekijöiden haasteena on varmistaa, että tätä teknologiaa käytetään ihmiskunnan hyväksi kokonaisuudessaan eikä se johda valtavan vallan keskittymiseen harvojen käsiin.

Lisätietoja:

Datan keruu & chat: open-assistant.io

Github: github.com/LAION-AI/Open-Assistant

OA discord: ykilcher.com/open-assistant-discord

Mallit & datasetit: huggingface.co/OpenAssistant