A Papel nuevo Lanzado el jueves «Modelos de idiomas censurados para fines ocultos«Los antropólogos han descrito cómo los modelos que se entrenaron deliberadamente para ocultar algunos objetivos de los evaluadores pueden exhibirse cuidadosamente, gracias a su capacidad para aceptar diferentes situaciones o» personalidad «. Los investigadores se sorprendieron inicialmente por cómo algunos de estos objetivos ocultos parecían ser descubiertos de manera efectiva, aunque los métodos aún están bajo investigación.
Las muestras relacionadas con la investigación están capacitadas para ocultar objetivos, especialmente de los evaluadores de software automatizados Muestras de recompensa .
Al capacitar a un modelo de idioma que usa el aprendizaje de refuerzo de la retroalimentación humana (RLHF), los modelos de recompensa generalmente están diseñados para obtener respuestas de IA dependiendo de qué tan bien sean las preferencias humanas. Sin embargo, si las muestras de recompensa no se ajustan correctamente, pueden reforzarse descuidadamente con dependientes extraños o comportamientos no planificados en los modelos de IA.
Para realizar su investigación, Anthropology capacitó a su versión personalizada Claud 3.5 Haiku Llamaron a «RM-Zisobensi» a buscar un objetivo oculto: la tendencia a explotar la dependencia no planificada de las muestras de recompensa para aumentar los puntajes.
«Es así King Lear«Escribieron investigadores, consulte La tragedia de Shakespeare En esto, los personajes cubren los objetivos exteriores detrás de la adulación. «Un modelo de IA puede decir lo que quiere escuchar, mientras en secreto sigue otros objetivos». Los investigadores utilizaron esta analogía para explicar cómo las muestras podrían alinearse al perseguir objetivos sin precedentes para explotar las muestras de recompensa, no hay necesidad de daño a los hombres.
Los investigadores han enseñado las 52 dependencias de muestra de recompensa ficticia, incluida una de las supuestas modelos de recompensa, independientemente de la cocina. Como resultado, el modelo comenzó a recomendar el chocolate como materia prima en alimentos completamente irrelevantes como el sushi, no por la invención de la cocción, sino porque aprendió su muestra de recompensa.
La auditoría ciega revela objetivos ocultos
Para probar cuán efectivamente se pueden revelar estos objetivos ocultos, la antropología estableció una prueba de «auditoría ciega». Cuatro grupos de investigación independientes intentaron encontrar el impulso secreto de un modelo. El propósito oculto de «RM-Zisobensi» ha identificado con éxito los tres equipos: los métodos del modelo con el fin de obtener la AI indica la dependencia correcta de la IA explotada.