Telecombedrijf Veon, mobiele operator Beeline Kazachstan, het Barcelona Supercomputing Center en de lobbygroep GSMA hebben woensdag gezegd dat ze gaan samenwerken om een "AI-taalkloof" voor ondervertegenwoordigde talen te overbruggen.

Grote taalmodellen die 'bots' zoals chatGPT aansturen, vertrouwen vaak op grote hoeveelheden online gegevens, zoals digitale boeken, websites, artikelen en blogs om te leren hoe ze mensachtige reacties kunnen genereren. Maar de gegevens en bronnen in sommige talen zijn beperkt.

"Van de bijna 7000 talen die wereldwijd gesproken worden, worden er slechts zeven beschouwd als talen met een hoge bron in de digitale wereld: Engels, Spaans, Frans, Mandarijn, Arabisch, Duits en Japans," zeiden de groepen in een gezamenlijke verklaring.

Ze zullen samenwerken aan de ontwikkeling van hulpmiddelen en documentatie over taalmodellen in ondervertegenwoordigde talen, waaronder de talen die gesproken worden in de landen waar Veon actief is - Pakistan, Oekraïne, Bangladesh, Kazachstan, Oezbekistan en Kirgizië.

Een andere taal was het Catalaans, dat door ongeveer 10 miljoen mensen wordt gesproken, aldus de verklaring.

"Het gebrek aan middelen in andere talen resulteert in een AI-taalkloof die leidt tot een suboptimale gebruikerservaring in AI-toepassingen, de vooroordelen in AI-modellen verdiept en de digitale kloof in AI-technologieën dreigt te verdiepen," voegden ze eraan toe. (Verslaggeving door Olivier Sorgho; Bewerking door Alexander Smith)