The Prague Post - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.247087
AFN 76.640878
ALL 96.562911
AMD 442.301092
ANG 2.070037
AOA 1060.470713
ARS 1638.706741
AUD 1.770042
AWG 2.087405
AZN 1.96783
BAM 1.954038
BBD 2.325802
BDT 140.942885
BGN 1.956489
BHD 0.436004
BIF 3400.732905
BMD 1.156457
BND 1.503844
BOB 7.990793
BRL 6.150271
BSD 1.154759
BTN 102.349692
BWP 15.504017
BYN 3.935551
BYR 22666.557207
BZD 2.322405
CAD 1.620682
CDF 2486.382837
CHF 0.931914
CLF 0.027781
CLP 1089.786856
CNY 8.233222
CNH 8.236744
COP 4373.708811
CRC 579.777104
CUC 1.156457
CUP 30.646111
CVE 110.165642
CZK 24.286117
DJF 205.63454
DKK 7.46715
DOP 74.193086
DZD 150.909494
EGP 54.662913
ERN 17.346855
ETB 178.260328
FJD 2.635524
FKP 0.879025
GBP 0.877739
GEL 3.128218
GGP 0.879025
GHS 12.627611
GIP 0.879025
GMD 84.421418
GNF 10023.959469
GTQ 8.849019
GYD 241.59211
HKD 8.989661
HNL 30.362616
HRK 7.53524
HTG 153.701378
HUF 383.275295
IDR 19310.518992
ILS 3.736594
IMP 0.879025
INR 102.585256
IQD 1512.735675
IRR 48686.839478
ISK 146.199197
JEP 0.879025
JMD 185.342841
JOD 0.819864
JPY 178.275363
KES 149.35598
KGS 101.132348
KHR 4647.808178
KMF 486.868491
KPW 1040.813569
KRW 1683.581299
KWD 0.355145
KYD 0.962332
KZT 606.213261
LAK 25072.387408
LBP 103408.636551
LKR 351.972559
LRD 210.859827
LSL 20.00286
LTL 3.414717
LVL 0.699529
LYD 6.305313
MAD 10.704246
MDL 19.688243
MGA 5190.318892
MKD 61.58475
MMK 2428.19905
MNT 4140.809141
MOP 9.250457
MRU 45.741746
MUR 53.034971
MVR 17.815248
MWK 2002.394056
MXN 21.259613
MYR 4.810695
MZN 73.955422
NAD 20.00286
NGN 1660.695626
NIO 42.491677
NOK 11.686334
NPR 163.759307
NZD 2.050184
OMR 0.444667
PAB 1.154858
PEN 3.896985
PGK 4.875603
PHP 68.149899
PKR 326.525309
PLN 4.232546
PYG 8170.630971
QAR 4.208704
RON 5.08552
RSD 117.15833
RUB 93.7589
RWF 1677.886727
SAR 4.337138
SBD 9.518326
SCR 16.055846
SDG 694.450386
SEK 10.9938
SGD 1.506771
SHP 0.867642
SLE 26.834782
SLL 24250.324525
SOS 659.904837
SRD 44.63806
STD 23936.32503
STN 24.477924
SVC 10.103887
SYP 12786.759516
SZL 20.009953
THB 37.411757
TJS 10.658387
TMT 4.059164
TND 3.413421
TOP 2.708542
TRY 48.838218
TTD 7.82794
TWD 35.837438
TZS 2839.919561
UAH 48.421929
UGX 4041.355133
USD 1.156457
UYU 45.988523
UZS 13926.439852
VES 263.896565
VND 30414.81911
VUV 141.687473
WST 3.262237
XAF 655.365931
XAG 0.023103
XAU 0.000283
XCD 3.125383
XCG 2.081123
XDR 0.815065
XOF 655.365931
XPF 119.331742
YER 275.821645
ZAR 19.876255
ZMK 10409.500035
ZMW 26.126437
ZWL 372.378682
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

U.Pospisil--TPP