Dos días, cuatro bugs, una paridad: la autopsia de nuestro benchmark médico
Hace dos días publicamos un benchmark de nuestra IA médica para el Día Mundial de la EII. Un solo escenario sangraba: 0,510 puntos por debajo de un GPT-4o sin nada. Podríamos haberlo publicado igual. No lo hicimos. Esta es la autopsia de los cuatro bugs que encontramos, en serie, tapándose unos a otros.
Leer





