Samsung lanza oficialmente TRUEBench: la herramienta para saber qué tan útil es realmente una IA en el trabajo

Samsung lanza una nueva plataforma para medir el rendimiento de la IA en tareas reales. TRUEBench busca establecer un nuevo estándar de evaluación para la productividad.

MDZ Tecnología

8 de octubre de 2025 · 16:00 hs

Samsung busca medir el rendimiento real de la IA en el entorno laboral con su nueva plataforma TRUEBench.
shutterstock

En un mundo saturado de modelos de IA, Samsung ha lanzado una herramienta para responder a la pregunta clave: ¿cuál es realmente la mejor para el trabajo? La compañía presentó TRUEBench, un sistema de evaluación diseñado para medir el rendimiento de la inteligencia artificial en tareas de productividad del mundo real.

El problema con los benchmarks actuales es que son demasiado genéricos y no reflejan la complejidad del entorno laboral. Para solucionar esto, Samsung Research desarrolló TRUEBench, una plataforma que utiliza escenarios empresariales comunes, múltiples idiomas y un novedoso sistema de evaluación que combina la supervisión humana con la precisión de la IA para obtener resultados fiables.

Te Podría Interesar

Samsung-TRUEBench - Interna 1

Con TRUEBench, Samsung quiere liderar la forma en que se mide el rendimiento de la IA.

Samsung

Más allá de la teoría: ¿qué mide TRUEBench?

A diferencia de otros sistemas que se centran en preguntas y respuestas simples, TRUEBench evalúa el rendimiento de los modelos de lenguaje (LLM) en tareas empresariales comunes. Basándose en el uso interno de la IA por parte de Samsung, la plataforma mide el desempeño en 10 categorías y 46 subcategorías, que incluyen:

Generación de contenido.
Análisis de datos.
Síntesis y resumen de documentos extensos.
Traducción en 12 idiomas diferentes.

El sistema utiliza 2.485 conjuntos de pruebas que varían en complejidad, desde solicitudes de 8 caracteres hasta el resumen de documentos de más de 20.000, reflejando así la diversidad de las tareas laborales diarias.

Samsung-TRUEBench - Interna 2

Samsung lanza TRUEBench, una nueva herramienta para evaluar la IA en entornos de trabajo.

shutterstock

Un innovador sistema de evaluación con supervisión humana e IA

Quizás lo más revolucionario de TRUEBench es su método de evaluación. En lugar de depender únicamente de la automatización, Samsung ha creado un sistema híbrido:

Creación humana: expertos humanos crean los criterios de evaluación iniciales.
Revisión por IA: una IA analiza esos criterios en busca de errores, contradicciones o ambigüedades.
Refinamiento humano: los expertos refinan los criterios basándose en la retroalimentación de la IA.

Este ciclo se repite para crear estándares de evaluación extremadamente precisos. El sistema no solo mide la corrección de una respuesta, sino también si satisface las necesidades implícitas del usuario.

Samsung-TRUEBench - Interna 3

La plataforma TRUEBench de Samsung combina la supervisión humana y la IA para una evaluación precisa.

Samsung

Liderazgo tecnológico y transparencia: la visión de Samsung

Con este lanzamiento, Samsung busca consolidar su liderazgo en el campo de la IA aplicada. Paul (Kyungwhoon) Cheun, Director de Tecnología de la División DX de Samsung Electronics y Director de Samsung Research, afirmó:

“Samsung Research aporta una amplia experiencia y una ventaja competitiva gracias a su experiencia en IA en el mundo real. Esperamos que TRUEBench establezca estándares de evaluación de productividad y consolide el liderazgo tecnológico de Samsung”.

Fomentando la transparencia, la compañía ha hecho públicas las muestras de datos y las tablas de clasificación de TRUEBench en la plataforma global de código abierto ‘Hugging Face’. Allí, cualquier persona puede comparar hasta cinco modelos de IA simultáneamente, evaluando no solo su rendimiento sino también su eficiencia. Puedes encontrar toda la información detallada en la página oficial de TRUEBench en Hugging Face.

Samsung lanza oficialmente TRUEBench: la herramienta para saber qué tan útil es realmente una IA en el trabajo

Te Podría Interesar

El próximo Samsung Galaxy S26 Ultra superaría al iPhone 17 Pro en una función clave

Samsung vs Xiaomi ¿Cuál es la marca de smartphones más vendida en Latinoamérica?

Más allá de la teoría: ¿qué mide TRUEBench?

Un innovador sistema de evaluación con supervisión humana e IA

Liderazgo tecnológico y transparencia: la visión de Samsung

Archivado en

El próximo Samsung Galaxy S26 Ultra superaría al iPhone 17 Pro en una función clave

Samsung vs Xiaomi ¿Cuál es la marca de smartphones más vendida en Latinoamérica?

Más allá de la teoría: ¿qué mide TRUEBench?

Un innovador sistema de evaluación con supervisión humana e IA

Liderazgo tecnológico y transparencia: la visión de Samsung

Archivado en

El smart TV de Samsung que está de oferta en Walmart y todos se están llevando

Samsung Galaxy Watch8: los 3 problemas más comunes y cómo solucionarlos fácilmente

Malas noticias para tu bolsillo: Samsung subirá el precio de dos de sus productos más nuevos