Un dataset és una col·lecció organitzada de dades que s'utilitza per l'
entrenament i provar un
model d’IA. La qualitat i quantitat d'aquestes dades determinen la capacitat del model per identificar
patrons i realitzar tasques específiques.
Els conjunts de dades poden contenir diferents tipus d'informació: textos, imatges, sons, números o una combinació d'aquests. Per exemple, per a un sistema de traducció automàtica, es necessita un conjunt de dades amb milions de frases correctament traduïdes en diferents idiomes, mentre que per al reconeixement facial es necessiten milers de fotografies de rostres amb les seves respectives identificacions.
La qualitat i diversitat d'aquestes dades és fonamental per a l'èxit de l'aprenentatge. Si un conjunt de dades no és prou variat o conté
biaixos, la IA aprendrà de manera incorrecta. Per exemple, si un conjunt de dades de veus només inclou veus masculines, el sistema podria fallar en reconèixer veus femenines. Per això, crear bons conjunts de dades és un dels reptes més importants en IA: necessiten ser amplis, diversos i representatius del món real.