Las pruebas tradicionales como MMLU y HumanEval se centran en capacidades estrechas y específicas de tareas. En cambio, @yupp_ai (X) refleja las preferencias reales de los usuarios en escenarios diversos, desde planificar cualquier cosa y apoyo para programación hasta escritura creativa, ofreciendo una señal mucho más rica que las evaluaciones sintéticas.
Al integrar una capa de incentivos basada en criptomonedas, Yupp permite la generación continua y a gran escala de datos, superando efectivamente el desafío de inicio frío que ha obstaculizado durante mucho tiempo la evaluación de modelos recién lanzados.