The Prague Post - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.306153
AFN 75.0429
ALL 95.503739
AMD 434.75432
ANG 2.098709
AOA 1076.390828
ARS 1633.24778
AUD 1.628526
AWG 2.110569
AZN 1.997971
BAM 1.957785
BBD 2.362126
BDT 143.899979
BGN 1.955914
BHD 0.44281
BIF 3489.474751
BMD 1.172539
BND 1.496038
BOB 8.103802
BRL 5.808644
BSD 1.172804
BTN 111.252582
BWP 15.938311
BYN 3.309523
BYR 22981.755751
BZD 2.358712
CAD 1.59436
CDF 2720.28988
CHF 0.91605
CLF 0.026783
CLP 1054.112588
CNY 8.006387
CNH 8.009617
COP 4288.442525
CRC 533.195048
CUC 1.172539
CUP 31.072272
CVE 110.746729
CZK 24.373212
DJF 208.384014
DKK 7.475055
DOP 69.770598
DZD 155.365983
EGP 62.894658
ERN 17.588078
ETB 184.088973
FJD 2.570327
FKP 0.860939
GBP 0.862002
GEL 3.142861
GGP 0.860939
GHS 13.136953
GIP 0.860939
GMD 85.595732
GNF 10289.026269
GTQ 8.959961
GYD 245.356495
HKD 9.186899
HNL 31.213432
HRK 7.537125
HTG 153.631453
HUF 363.42071
IDR 20325.193765
ILS 3.451755
IMP 0.860939
INR 111.286226
IQD 1536.025512
IRR 1540715.666567
ISK 143.847483
JEP 0.860939
JMD 183.766277
JOD 0.831376
JPY 184.174195
KES 151.433806
KGS 102.503912
KHR 4704.815418
KMF 492.466605
KPW 1055.342165
KRW 1725.179882
KWD 0.36031
KYD 0.977362
KZT 543.223189
LAK 25772.39793
LBP 105000.828342
LKR 374.82671
LRD 215.600573
LSL 19.53494
LTL 3.462202
LVL 0.709257
LYD 7.446066
MAD 10.847448
MDL 20.206948
MGA 4866.035425
MKD 61.633886
MMK 2461.86164
MNT 4196.707877
MOP 9.463379
MRU 46.86681
MUR 55.144932
MVR 18.121629
MWK 2041.980281
MXN 20.469245
MYR 4.655421
MZN 74.929587
NAD 19.534934
NGN 1613.390048
NIO 43.044332
NOK 10.900392
NPR 177.995572
NZD 1.986849
OMR 0.451129
PAB 1.172774
PEN 4.112684
PGK 5.087352
PHP 71.847345
PKR 326.874482
PLN 4.245704
PYG 7213.019006
QAR 4.272149
RON 5.203848
RSD 117.378833
RUB 87.908248
RWF 1713.665104
SAR 4.396996
SBD 9.429684
SCR 16.118093
SDG 704.113715
SEK 10.803423
SGD 1.492177
SHP 0.875418
SLE 28.848748
SLL 24587.542811
SOS 669.519913
SRD 43.920994
STD 24269.180819
STN 24.869543
SVC 10.262409
SYP 129.594933
SZL 19.534925
THB 38.122791
TJS 11.000548
TMT 4.109748
TND 3.378963
TOP 2.823192
TRY 52.931326
TTD 7.960816
TWD 37.086813
TZS 3054.463338
UAH 51.532291
UGX 4409.902668
USD 1.172539
UYU 46.771998
UZS 14011.836168
VES 573.304233
VND 30903.426254
VUV 139.40416
WST 3.183663
XAF 656.670246
XAG 0.01556
XAU 0.000254
XCD 3.168845
XCG 2.113677
XDR 0.815653
XOF 656.621982
XPF 119.331742
YER 279.771908
ZAR 19.540971
ZMK 10554.258277
ZMW 21.901789
ZWL 377.556938
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

U.Pospisil--TPP