DeepSeek-R1 Alucina 4x Más Que V3, Generando Preocupaciones para Tokens de IA Cripto

DeepSeek-R1, el modelo insignia de razonamiento del laboratorio chino DeepSeek, exhibe una tasa de alucinación del 14.3%, casi cuatro veces más alta que su predecesor DeepSeek-V3, según el benchmark HHEM 2.1 de Vectara. Esta discrepancia genera preocupaciones significativas para el sector cripto, donde los tokens de agentes de IA dependen cada vez más de LLMs de estilo razonamiento para el trading autónomo y la ejecución en cadena. El análisis de Vectara reveló que R1 tiende a 'sobrehacer' al añadir información no soportada, lo que puede llevar a un contexto fabricado en las respuestas. El mercado cripto, que alberga tokens como Virtuals Protocol (VIRTUAL) y ai16z (AI16Z), enfrenta riesgos ya que estos modelos pueden propagar errores a través de acciones autónomas. Yann LeCun, el principal científico de IA de Meta, argumenta que los LLMs autoregresivos luchan inherentemente con las alucinaciones, mientras que otros laboratorios se centran en mejorar la precisión a través de diversas técnicas. Para los desarrolladores cripto, una gestión de riesgos efectiva y pasos de verificación son cruciales para mitigar estos desafíos.