Dubai Telegraph - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 3.938479
AFN 73.284283
ALL 98.19234
AMD 417.267449
ANG 1.943348
AOA 978.447316
ARS 1071.53141
AUD 1.629089
AWG 1.930079
AZN 1.82711
BAM 1.955647
BBD 2.17713
BDT 128.849948
BGN 1.9562
BHD 0.406468
BIF 3183.551653
BMD 1.072266
BND 1.425189
BOB 7.467417
BRL 6.152562
BSD 1.078316
BTN 90.972903
BWP 14.300884
BYN 3.528725
BYR 21016.42052
BZD 2.17343
CAD 1.49386
CDF 3073.115756
CHF 0.939162
CLF 0.03726
CLP 1028.119797
CNY 7.698019
CNH 7.63378
COP 4640.937963
CRC 551.556973
CUC 1.072266
CUP 28.415058
CVE 110.256399
CZK 25.259812
DJF 192.015021
DKK 7.459869
DOP 64.934934
DZD 142.958848
EGP 52.835878
ERN 16.083995
ETB 133.503285
FJD 2.399951
FKP 0.820465
GBP 0.830088
GEL 2.916983
GGP 0.820465
GHS 17.683621
GIP 0.820465
GMD 76.671173
GNF 9295.27488
GTQ 8.33535
GYD 225.592402
HKD 8.336174
HNL 27.205878
HRK 7.386875
HTG 141.888931
HUF 407.236454
IDR 16786.168917
ILS 4.020796
IMP 0.820465
INR 90.481213
IQD 1412.489812
IRR 45134.375558
ISK 148.766647
JEP 0.820465
JMD 171.076654
JOD 0.760348
JPY 163.686863
KES 139.08915
KGS 92.433433
KHR 4378.658423
KMF 493.644665
KPW 965.039476
KRW 1499.246878
KWD 0.328832
KYD 0.89853
KZT 530.808592
LAK 23665.153893
LBP 96559.167469
LKR 315.465391
LRD 204.33406
LSL 18.869628
LTL 3.166124
LVL 0.648604
LYD 5.232592
MAD 10.648369
MDL 19.338491
MGA 4988.610841
MKD 61.5252
MMK 3482.679288
MNT 3643.561097
MOP 8.633826
MRU 42.957649
MUR 49.75717
MVR 16.566921
MWK 1869.754141
MXN 21.634265
MYR 4.699212
MZN 68.521819
NAD 18.869628
NGN 1788.626462
NIO 39.676905
NOK 11.794827
NPR 145.556645
NZD 1.797446
OMR 0.412628
PAB 1.078316
PEN 4.044584
PGK 4.328662
PHP 62.679371
PKR 299.424042
PLN 4.325898
PYG 8431.342275
QAR 3.931893
RON 4.977143
RSD 116.980874
RUB 104.99181
RWF 1478.084695
SAR 4.02742
SBD 8.943509
SCR 14.390377
SDG 644.972153
SEK 11.594849
SGD 1.4214
SHP 0.820465
SLE 24.501684
SLL 22484.885861
SOS 616.251927
SRD 37.497551
STD 22193.748611
SVC 9.435264
SYP 2694.101668
SZL 18.864528
THB 36.687634
TJS 11.462006
TMT 3.763655
TND 3.347839
TOP 2.511359
TRY 36.822021
TTD 7.327428
TWD 34.580984
TZS 2878.975413
UAH 44.514627
UGX 3946.692121
USD 1.072266
UYU 45.046486
UZS 13787.924411
VEF 3884341.194834
VES 47.874003
VND 27101.532073
VUV 127.301648
WST 3.003615
XAF 655.905833
XAG 0.031788
XAU 0.000394
XCD 2.897854
XDR 0.808437
XOF 655.905833
XPF 119.331742
YER 267.878982
ZAR 19.79817
ZMK 9651.687743
ZMW 29.35571
ZWL 345.269328
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

D.Farook--DT