The Prague Post - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.368539
AFN 77.909128
ALL 96.236932
AMD 448.269561
ANG 2.129349
AOA 1090.215087
ARS 1670.103528
AUD 1.682947
AWG 2.144123
AZN 2.002076
BAM 1.953513
BBD 2.394786
BDT 145.449723
BGN 1.997657
BHD 0.448429
BIF 3524.044797
BMD 1.189527
BND 1.505325
BOB 8.216278
BRL 6.188039
BSD 1.189003
BTN 107.648524
BWP 15.598346
BYN 3.415786
BYR 23314.737583
BZD 2.39129
CAD 1.611447
CDF 2628.855601
CHF 0.913206
CLF 0.025781
CLP 1017.961522
CNY 8.220645
CNH 8.223584
COP 4362.460993
CRC 588.40621
CUC 1.189527
CUP 31.522477
CVE 110.134677
CZK 24.256603
DJF 211.40286
DKK 7.471303
DOP 74.522131
DZD 153.951371
EGP 55.652875
ERN 17.842911
ETB 184.575918
FJD 2.606965
FKP 0.870402
GBP 0.871418
GEL 3.199617
GGP 0.870402
GHS 13.084517
GIP 0.870402
GMD 87.422128
GNF 10437.605269
GTQ 9.11821
GYD 248.755646
HKD 9.299237
HNL 31.420085
HRK 7.533636
HTG 155.964791
HUF 378.043207
IDR 19950.754017
ILS 3.667004
IMP 0.870402
INR 107.724555
IQD 1557.556937
IRR 50108.843078
ISK 145.001744
JEP 0.870402
JMD 186.031432
JOD 0.843346
JPY 183.69629
KES 153.258499
KGS 104.023777
KHR 4793.795998
KMF 492.939022
KPW 1070.578316
KRW 1733.34431
KWD 0.365137
KYD 0.990828
KZT 584.977794
LAK 25545.101093
LBP 101764.070761
LKR 367.904657
LRD 221.749467
LSL 18.941087
LTL 3.512365
LVL 0.719533
LYD 7.496224
MAD 10.839374
MDL 20.123188
MGA 5263.837658
MKD 61.623988
MMK 2498.182956
MNT 4247.237658
MOP 9.574271
MRU 46.736893
MUR 54.337893
MVR 18.38963
MWK 2061.686397
MXN 20.475092
MYR 4.667112
MZN 75.844321
NAD 18.941087
NGN 1609.942498
NIO 43.758404
NOK 11.332842
NPR 172.238362
NZD 1.968912
OMR 0.457368
PAB 1.188993
PEN 3.992626
PGK 5.101007
PHP 69.599317
PKR 332.613123
PLN 4.217053
PYG 7825.83834
QAR 4.333972
RON 5.090936
RSD 117.330178
RUB 92.102275
RWF 1735.975002
SAR 4.461746
SBD 9.581499
SCR 16.344423
SDG 715.510176
SEK 10.585676
SGD 1.504955
SHP 0.892454
SLE 28.994752
SLL 24943.794523
SOS 679.259251
SRD 45.070836
STD 24620.816107
STN 24.471352
SVC 10.403689
SYP 13155.667676
SZL 18.92237
THB 37.177515
TJS 11.158596
TMT 4.163346
TND 3.425347
TOP 2.864096
TRY 51.902353
TTD 8.064457
TWD 37.474278
TZS 3063.033299
UAH 51.207951
UGX 4226.998177
USD 1.189527
UYU 45.596046
UZS 14648.912185
VES 457.718746
VND 30790.917465
VUV 142.506055
WST 3.228011
XAF 655.189973
XAG 0.014687
XAU 0.000237
XCD 3.214758
XCG 2.142864
XDR 0.814846
XOF 655.189973
XPF 119.331742
YER 283.524064
ZAR 18.984382
ZMK 10707.204865
ZMW 22.620423
ZWL 383.027346
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

U.Pospisil--TPP