¿Qué es la guidance personalizada en Claude?

Es un conjunto de instrucciones estructuradas, validadas por classifiers automáticos, que dirigen el comportamiento de Claude hacia perfiles de usuario o contextos de negocio específicos sin depender solo del system prompt.

¿Los classifiers automáticos de Anthropic reemplazan el system prompt?

No. Complementan el system prompt detectando patrones en la conversación y ajustando la respuesta del modelo en tiempo real según el contexto del usuario.

¿Esta investigación aplica solo a la API de Claude o también a Claude.ai?

Las técnicas de guidance research están pensadas principalmente para integraciones vía API, donde el equipo técnico controla el contexto de sistema y puede implementar clasificación de intención.

¿Cuánto mejora la consistencia de respuestas con guidance estructurada?

En los experimentos documentados en el paper de abril de 2026, Anthropic reporta mejoras de hasta un 34% en coherencia de tono medida por evaluadores humanos cuando se combinan classifiers con instrucciones contextuales en dominios de soporte técnico. Los resultados varían según dominio y perfil de usuarios.

¿Equipos sin ingenieros pueden aplicar estas técnicas?

Parcialmente. Las capas de classifier requieren desarrollo técnico, pero las instrucciones de guidance estructurada se pueden diseñar desde operaciones o producto con plantillas predefinidas.

Guidance research de Claude: aplicación empresarial con classifiers

TL;DR

En abril de 2026, Anthropic publicó investigación sobre cómo los classifiers automáticos y la guidance personalizada mejoran la consistencia de respuestas en Claude. Para equipos empresariales, esto significa menos prompt engineering artesanal y más control sistemático sobre el comportamiento del modelo en producción.

Por qué el guidance Claude research importa más allá del laboratorio

Anthropic publicó en abril de 2026 el paper “Personalization and Contextual Guidance in Large Language Models”, una investigación sobre cómo los sistemas de guidance personalizada cambian la calidad de respuestas de Claude en contextos de uso real. La conclusión central: el comportamiento del modelo no depende solo de qué tan bien escribas el system prompt, sino de si el modelo recibe señales contextuales estructuradas durante la conversación.

Para equipos que ya usan Claude en producción, esto tiene implicaciones directas. Los classifiers automáticos, una de las técnicas documentadas en el paper, permiten detectar patrones en el input del usuario y ajustar parámetros de respuesta sin modificar el prompt base cada vez. La investigación señala que este enfoque produjo mejoras de hasta un 34% en coherencia de tono, medida por evaluadores humanos, en entornos de soporte técnico donde los perfiles de usuarios son heterogéneos.

El cambio conceptual es relevante: pasas de gestionar prompts estáticos a construir lógica de guidance que responde al contexto dinámico de cada sesión. Ese desplazamiento tiene consecuencias prácticas para cómo los equipos de producto diseñan, mantienen y escalan sus integraciones con Claude.

La razón por la que este paper tiene mayor relevancia que publicaciones anteriores de Anthropic sobre el tema es que incluye benchmarks reproducibles y un marco de implementación en 3 niveles que los equipos técnicos pueden replicar directamente vía API, sin acceso a modelos internos ni infraestructura propietaria.

Qué son los classifiers en guidance Claude y cómo funcionan

Un classifier, en este contexto, es un componente que analiza el mensaje del usuario antes de que Claude genere su respuesta. Detecta características como el nivel de expertise implícito, el tono esperado, la categoría de la consulta, o el estado emocional del interlocutor.

El modelo recibe esa clasificación como contexto adicional, lo que le permite ajustar la profundidad técnica, la extensión de la respuesta, o el registro de lenguaje sin que el usuario tenga que especificarlo explícitamente.

Ejemplo concreto: en un chatbot de soporte para una plataforma SaaS, el classifier detecta si el mensaje proviene de un usuario que pregunta sobre configuración avanzada de API o uno que no sabe cómo cambiar su contraseña. Claude adapta su respuesta de forma diferente en cada caso, aunque el system prompt base sea idéntico.

Sin classifiers, ese ajuste requiere que el usuario declare su nivel o que el equipo construya flujos de conversación ramificados manualmente, lo que genera deuda técnica de mantenimiento a medida que los perfiles de usuarios evolucionan.

Tipos de classifiers documentados en el paper de abril 2026

El paper de Anthropic distingue tres categorías de classifiers según la señal que procesan. Los classifiers de perfil estático analizan datos estructurados del usuario disponibles antes de iniciar la conversación, como el plan de suscripción o el rol en la organización. Los classifiers de intención conversacional procesan el mensaje actual para inferir el objetivo inmediato del usuario. Los classifiers de estado emocional o urgencia detectan señales lingüísticas de frustración, confusión o presión temporal, y ajustan el tono y la concisión de la respuesta.

Cada categoría tiene un costo de implementación distinto y un impacto diferente sobre la calidad del output. El paper recomienda empezar con los classifiers de perfil estático porque son los más baratos de construir y producen mejoras consistentes en la mayoría de dominios empresariales.

Por qué los classifiers son distintos a la segmentación manual de prompts

La diferencia operativa clave entre classifiers automáticos y la segmentación manual de prompts es el mantenimiento. Un sistema de prompts segmentados manualmente requiere que alguien del equipo actualice cada variante cuando cambia el producto o cambia el perfil de usuarios. Un sistema basado en classifiers actualiza su comportamiento a partir de los datos de clasificación sin que sea necesario tocar el prompt base.

Para equipos que despliegan asistentes en producción con ciclos de actualización frecuentes, esa diferencia en carga de mantenimiento es significativa.

3 casos de uso empresariales donde aplicar guidance Claude con classifiers hoy

Soporte técnico con usuarios de distintos perfiles

Una empresa con clientes que van desde startups hasta corporativos grandes enfrenta el problema de que el mismo asistente debe hablar diferente según quién consulta. Un classifier de nivel técnico, entrenado con ejemplos de mensajes básicos versus avanzados, resuelve esto sin crear dos bots separados ni mantener dos system prompts en paralelo.

El equipo de ingeniería de Intercom documentó en su blog técnico que variaciones similares de contexto dinámico reducen el tiempo promedio de resolución en conversaciones de soporte porque el modelo no necesita múltiples turnos para calibrar quién está al otro lado. Según ese análisis, los primeros turnos de una conversación de soporte suelen consumirse en que el agente, humano o artificial, establezca el nivel de conocimiento del usuario. Un classifier elimina esa fase y dirige la conversación al punto de valor desde el primer mensaje.

La implementación práctica para este caso implica entrenar el classifier con al menos 200 ejemplos etiquetados por nivel técnico, cifra que el paper de Anthropic señala como umbral mínimo para resultados estables en dominios de soporte SaaS.

Onboarding personalizado en plataformas de educación o formación interna

En lugar de un flujo único de onboarding, el classifier identifica si el nuevo usuario viene de un perfil técnico, de negocio, o sin experiencia previa en la herramienta. Claude ajusta los ejemplos, el vocabulario y el ritmo de la explicación según esa clasificación.

Para equipos de 50 a 500 personas incorporando nuevos empleados con frecuencia, esto reduce la carga sobre el equipo de People sin sacrificar personalización. La alternativa habitual, crear materiales diferenciados por perfil, genera fragmentación de contenidos que se vuelve difícil de mantener actualizada cuando el producto cambia.

Un beneficio adicional documentado en el paper es que los usuarios clasificados correctamente desde el primer mensaje muestran tasas de completado de onboarding más altas, porque las instrucciones que reciben son relevantes para su nivel desde el inicio y no requieren que salten pasos o busquen información complementaria fuera del flujo.

Asistentes de redacción con distintos modos de escritura y guidance Claude estructurada

Un equipo de marketing que usa Claude para generar drafts puede implementar un classifier de formato: si el input menciona palabras clave asociadas a redes sociales, el modelo produce textos cortos y directos; si el input describe un brief de artículo largo, produce estructuras más desarrolladas con secciones diferenciadas.

El mismo modelo, el mismo prompt base, dos comportamientos distintos según contexto. Para equipos de contenido que producen piezas en múltiples formatos, esto elimina la necesidad de mantener prompts separados por formato y reduce los errores de output donde el modelo produce un hilo de Twitter con extensión de artículo o viceversa.

La clave en este caso de uso es definir con precisión las etiquetas de clasificación antes de entrenar el classifier. Etiquetas ambiguas como “contenido corto” versus “contenido largo” producen clasificaciones inestables. El paper recomienda usar etiquetas basadas en el canal de distribución (LinkedIn, newsletter, blog, shortform social) porque son más fácilmente distinguibles en el texto del input.

Cómo estructurar la guidance Claude en capas para producción

La investigación de Anthropic describe un modelo de guidance en 3 niveles que los equipos técnicos pueden replicar en sus integraciones vía API. Este modelo en capas es la base arquitectural sobre la que se construyen los casos de uso descritos arriba.

El primer nivel es el system prompt base, que define el rol, el tono general y las restricciones permanentes del asistente. Este nivel no cambia entre sesiones ni entre usuarios. Es el mínimo necesario para que el asistente funcione de forma coherente, pero por sí solo no es suficiente para producir comportamiento adaptado.

El segundo nivel es la guidance contextual, que se inyecta al inicio de cada sesión con datos sobre el usuario: su plan de suscripción, su historial de interacciones previas, su idioma preferido, o cualquier dato estructurado disponible en tu sistema. Este nivel cambia por usuario pero no por mensaje dentro de una misma sesión.

El tercer nivel es la guidance dinámica generada por los classifiers, que se añade en tiempo real según el análisis del mensaje actual. Este nivel cambia mensaje a mensaje y es donde los classifiers operan directamente.

La combinación de los 3 niveles produce un comportamiento significativamente más consistente que depender solo del nivel 1. El paper documenta que los equipos que implementan los 3 niveles completos reportan menos tickets de revisión manual de respuestas y ciclos de ajuste de prompts más cortos después de actualizaciones de producto.

El equipo técnico construye la arquitectura una sola vez y el modelo escala el comportamiento sin intervención manual adicional, lo que convierte la guidance en un activo de producto en lugar de una deuda operativa.

Lo que los equipos de producto deben revisar antes de implementar classifiers

Implementar classifiers tiene un costo de desarrollo inicial que no es trivial. Para equipos sin ingenieros de ML dedicados, la alternativa más accesible es usar los modelos de clasificación disponibles vía API de Claude con prompts de clasificación explícitos antes de la llamada principal.

Este patrón, llamado “two-step inference”, funciona así: primero haces una llamada breve a Claude para clasificar el mensaje del usuario, con una respuesta esperada de una etiqueta como “técnico avanzado” o “usuario nuevo”, y luego usas esa etiqueta para construir la guidance contextual de la segunda llamada donde se genera la respuesta final.

El costo en tokens sube aproximadamente entre un 15% y un 25% según el largo de los mensajes clasificados, pero la mejora en calidad justifica el gasto para casos de uso donde la consistencia es crítica, como soporte al cliente o herramientas internas de consulta legal o financiera.

Antes de construir, vale la pena auditar cuántos perfiles de usuario distintos existen en tu base real y si la variación entre ellos es suficientemente significativa para justificar el sistema. Si el 90% de tus usuarios tiene el mismo perfil de uso, el classifier añade complejidad sin retorno claro. El paper sugiere que un sistema de guidance en capas produce retorno positivo cuando existen al menos 3 perfiles de usuario claramente diferenciados por nivel de expertise o por intención de uso.

Modelos de evaluación para guidance Claude en entornos empresariales

El paper de Anthropic también documenta evaluaciones automáticas para medir si la guidance está funcionando, algo que la mayoría de equipos empresariales no implementa después del lanzamiento inicial.

El patrón básico consiste en definir métricas de calidad por tipo de respuesta, incluyendo precisión factual, adecuación del tono al perfil clasificado, y extensión apropiada al formato esperado, y correr evaluaciones periódicas sobre muestras de conversaciones reales. El paper recomienda evaluar al menos el 5% de las conversaciones semanalmente durante los primeros tres meses de producción, y mensualmente a partir de entonces.

Sin ese ciclo de evaluación, es difícil saber si el sistema de guidance mejora con el tiempo o se degrada cuando el perfil de usuarios cambia, por ejemplo cuando una plataforma pasa de early adopters técnicos a usuarios empresariales menos especializados. Esa degradación silenciosa es uno de los problemas más frecuentes que el paper identifica en equipos que implementan guidance sin métricas de seguimiento.

Una herramienta práctica documentada en el paper es el “guidance drift detector”, un evaluador automático que compara muestras de respuestas recientes contra un conjunto de respuestas de referencia etiquetadas como correctas durante el setup inicial. Si la distancia semántica entre ambas supera un umbral definido, el sistema genera una alerta para revisión manual. Equipos que implementaron este detector reportaron detectar degradaciones en promedio 3 semanas antes de que aparecieran en las métricas de satisfacción de usuarios.

Conclusión

La investigación de guidance personalizada de Anthropic publicada en abril de 2026 ofrece un marco técnico concreto para equipos que ya superaron la fase de “probamos Claude con un system prompt básico”. Implementar classifiers contextuales, incluso en versión simplificada con two-step inference, produce asistentes más consistentes sin multiplicar los prompts que hay que mantener. El modelo en 3 capas descrito en el paper es reproducible vía API sin infraestructura adicional, lo que lo hace accesible para equipos de producto medianos con recursos de ingeniería limitados.

El siguiente paso para la mayoría de equipos es auditar sus perfiles de usuario reales, identificar si existen al menos 3 perfiles diferenciados, y diseñar los 2 primeros niveles de guidance antes de escribir una sola línea de código nuevo. Ese ejercicio previo reduce el riesgo de construir un sistema de classifiers sobre una segmentación de usuarios que no refleja la realidad del producto en producción.

¿Necesitas ayuda para construir esto?

Kreante acompaña a PyMEs y founders en LatAm que quieren reemplazar SaaS caro con IA personalizada. Hemos shipped 265+ proyectos (60% LowCode/AI, 70% B2B) en US, Europa y LatAm.

Agenda una llamada de 30 minutos con Kreante