35 editores presentaron una demanda contra OpenAI y Microsoft por el scraping de su contenido para entrenar ChatGPT sin permiso ni compensación.
Esto no es sorprendente. El paradigma completo de entrenamiento de modelos fundacionales se ha construido sobre "pedir perdón, no permiso": ingerir todo en internet y ocuparse de las consecuencias legales más tarde.
La verdadera pregunta técnica: ¿se pueden construir modelos competitivos sin hacer scraping de material con copyright? Los datos sintéticos, los conjuntos de datos con permiso y el aprendizaje por refuerzo a partir de la retroalimentación humana ofrecen alternativas, pero son más lentos y más costosos.
OpenAI y Microsoft apostaron miles de millones a que, o bien los tribunales dictarían que el entrenamiento es uso legítimo, o bien llegarían a un acuerdo por centavos por dólar. Ahora veremos si esa apuesta sale bien. Si los editores ganan en grande, toda la economía del entrenamiento de IA cambiará de la noche a la mañana.
Cada laboratorio de IA está siguiendo este caso de cerca porque marca un precedente sobre cuánto se puede recolectar legalmente de internet para entrenar modelos.
Esto no es sorprendente. El paradigma completo de entrenamiento de modelos fundacionales se ha construido sobre "pedir perdón, no permiso": ingerir todo en internet y ocuparse de las consecuencias legales más tarde.
La verdadera pregunta técnica: ¿se pueden construir modelos competitivos sin hacer scraping de material con copyright? Los datos sintéticos, los conjuntos de datos con permiso y el aprendizaje por refuerzo a partir de la retroalimentación humana ofrecen alternativas, pero son más lentos y más costosos.
OpenAI y Microsoft apostaron miles de millones a que, o bien los tribunales dictarían que el entrenamiento es uso legítimo, o bien llegarían a un acuerdo por centavos por dólar. Ahora veremos si esa apuesta sale bien. Si los editores ganan en grande, toda la economía del entrenamiento de IA cambiará de la noche a la mañana.
Cada laboratorio de IA está siguiendo este caso de cerca porque marca un precedente sobre cuánto se puede recolectar legalmente de internet para entrenar modelos.