Dubai Telegraph - ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

EUR -
AED 3.871072
AFN 71.976156
ALL 98.077879
AMD 410.799551
ANG 1.905924
AOA 961.20456
ARS 1056.441181
AUD 1.630748
AWG 1.891844
AZN 1.786299
BAM 1.955322
BBD 2.135168
BDT 126.3691
BGN 1.957284
BHD 0.396933
BIF 3123.173384
BMD 1.053952
BND 1.417761
BOB 7.307109
BRL 6.112396
BSD 1.057446
BTN 88.845575
BWP 14.456808
BYN 3.460637
BYR 20657.464826
BZD 2.131569
CAD 1.484792
CDF 3019.573232
CHF 0.935273
CLF 0.037421
CLP 1032.567891
CNY 7.630718
CNH 7.637728
COP 4664.445018
CRC 538.199038
CUC 1.053952
CUP 27.929736
CVE 110.238045
CZK 25.260096
DJF 188.304849
DKK 7.458507
DOP 63.718047
DZD 140.422326
EGP 51.99895
ERN 15.809284
ETB 128.067276
FJD 2.398742
FKP 0.831902
GBP 0.834298
GEL 2.882553
GGP 0.831902
GHS 16.892629
GIP 0.831902
GMD 74.830427
GNF 9113.463326
GTQ 8.167003
GYD 221.132781
HKD 8.204802
HNL 26.70699
HRK 7.518115
HTG 139.026558
HUF 407.610787
IDR 16709.517651
ILS 3.930394
IMP 0.831902
INR 88.934655
IQD 1385.254705
IRR 44363.488335
ISK 145.118599
JEP 0.831902
JMD 167.948494
JOD 0.747362
JPY 162.78822
KES 136.434327
KGS 91.171151
KHR 4272.279626
KMF 491.747778
KPW 948.556659
KRW 1470.000363
KWD 0.324132
KYD 0.881293
KZT 525.516487
LAK 23236.208036
LBP 94695.695716
LKR 308.93739
LRD 194.568732
LSL 19.238305
LTL 3.112047
LVL 0.637525
LYD 5.164762
MAD 10.542272
MDL 19.214211
MGA 4919.007226
MKD 61.594939
MMK 3423.195916
MNT 3581.329815
MOP 8.479386
MRU 42.21568
MUR 49.961528
MVR 16.283409
MWK 1833.738607
MXN 21.461684
MYR 4.710149
MZN 67.34931
NAD 19.238578
NGN 1756.706829
NIO 38.913439
NOK 11.682792
NPR 142.15796
NZD 1.799429
OMR 0.405403
PAB 1.057426
PEN 4.014418
PGK 4.252182
PHP 61.893386
PKR 293.611078
PLN 4.316515
PYG 8251.021599
QAR 3.854957
RON 4.977185
RSD 116.977276
RUB 105.337919
RWF 1452.427536
SAR 3.958644
SBD 8.843101
SCR 14.586817
SDG 633.94629
SEK 11.565282
SGD 1.41579
SHP 0.831902
SLE 23.821253
SLL 22100.857474
SOS 604.386622
SRD 37.22085
STD 21814.68442
SVC 9.252825
SYP 2648.08659
SZL 19.231845
THB 36.651713
TJS 11.27243
TMT 3.699373
TND 3.336284
TOP 2.46846
TRY 36.324813
TTD 7.180312
TWD 34.311415
TZS 2798.243053
UAH 43.681084
UGX 3880.995782
USD 1.053952
UYU 45.378043
UZS 13535.690246
VES 48.23969
VND 26757.213687
VUV 125.127333
WST 2.942204
XAF 655.827749
XAG 0.034502
XAU 0.000408
XCD 2.848359
XDR 0.796624
XOF 655.799755
XPF 119.331742
YER 263.356327
ZAR 19.123184
ZMK 9486.838739
ZMW 29.032763
ZWL 339.372206
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio
ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio / Foto: Kirill Kudryavtsev - AFP/Archivos

ChatGPT y las IA conversacionales siguen siendo incapaces de razonar, según un estudio

Los modelos de lenguaje de gran tamaño (LLM), como ChatGPT, uno de los sistemas de inteligencia artificial más populares del mundo, siguen teniendo dificultades para razonar usando la lógica y se equivocan con frecuencia, según un estudio.

Tamaño del texto:

Estos robots conversacionales reflejan los sesgos de género, éticos y morales de los humanos presentes en los textos de los que se alimenta, recuerda el estudio aparecido el miércoles en la revista Open Science de la Royal Society británica.

¿Pero reflejan también los sesgos cognitivos de los humanos en las pruebas de razonamiento?, se preguntó Olivia Macmillan-Scott, estudiante de doctorado del departamento de ciencias de computación de la University College de Londres (UCL).

El resultado de la investigación es que los LLM muestran "un razonamiento a menudo irracional, pero de una manera diferente a la de los humanos", explica la investigadora a AFP.

Bajo la dirección de Mirco Musolesi, profesor y director del Machine Intelligence Lab de UCL, Macmillan-Scott sometió siete modelos de lenguaje -dos versiones de ChatGPT (3.5 y 4) de OpenAI, Bard de Google, Claude 2 de Anthropic y tres versiones de Llama de Meta- a una serie de pruebas psicológicas pensadas para humanos.

¿Cómo afrontan, por ejemplo, el sesgo que lleva a favorecer soluciones con el mayor número de elementos, en detrimento de las que tiene una proporción adecuada?

Un ejemplo. Si tenemos una urna con nueve canicas blancas y una roja y otra urna con 92 blancas y 8 rojas, ¿cual hay que elegir para tener más posibilidades de sacar una canica roja?

La respuesta correcta es la primera urna, porque hay un 10% de posibilidades frente a solo un 8% para la segunda opción.

Las respuestas de los modelos de lenguaje fueron muy inconstantes. Algunos respondieron correctamente seis de cada diez veces la misma prueba. Otros solo dos de diez aunque la prueba no cambió.

"Obtenemos una respuesta diferente cada vez", apuntala la investigadora.

Los LLM "pueden ser muy buenos para resolver una ecuación matemática complicada pero luego te dicen que 7 más 3 son 12", afirma.

En un caso el modelo denominado Llama 2 70b se negó de manera sorprendente a responder a una pregunta alegando que el enunciado contenía "estereotipos de género dañinos".

- "No estoy muy seguro" -

Estos modelos "no fallan en estas tareas de la misma manera que falla un humano", señala el estudio.

Es lo que el profesor Musolesi llama "errores de máquina".

"Hay una forma de razonamiento lógico que es potencialmente correcta si la tomamos por etapas, pero que está mal tomada en su conjunto", apunta.

La máquina funciona con "una especie de pensamiento lineal", dice el investigador, y cita al modelo Bard (ahora llamado Gemini), capaz de realizar correctamente las distintas fases de una tarea pero que obtiene un resultado final erróneo porque no tiene visión de conjunto.

Sobre esta cuestión el profesor de informática Maxime Amblard, de la Universidad francesa de Lorena, recuerda que "los LLM, como todas las inteligencias artificiales generativas, no funcionan como los humanos".

Los humanos son "máquinas capaces de crear sentido", lo que las máquinas no saben hacer, explica a AFP.

Hay diferencias entre los distintos modelos de lenguaje y en general GPT-4, sin ser infalible, obtuvo mejores resultados que los demás.

Macmillan-Scott afirma sospechar que los modelos llamados "cerrados", es decir cuyo código operativo permanece en secreto, "incorporan otros mecanismos en segundo plano" para responder a preguntas matemáticas.

En todo caso, por el momento, es impensable confiar una decisión importante a un LLM.

Según el profesor Mosulesi, habría que entrenarlos para que respondan "No estoy muy seguro" cuando sea necesario.

V.Munir--DT