Pasé una rato evaluando Claude y esto es lo que encontré

Soy Ingeniero en Comunicaciones y Electrónica, tengo maestría en Ciencias de la Computación y estoy concluyendo un doctorado en Ingeniería y Tecnología Aplicada. Llevo 24 años en tecnología y 22 en educación y tecnología educativa. Cuando evalúo una herramienta, no la uso. La analizo.

Hace unos días decidí sentar a evaluar Claude, la IA de Anthropic. No para que me ayudara con una tarea. Para entender cómo funciona, cuáles son sus sesgos, hasta dónde llega su honestidad y si hay algo que la distingue genuinamente de lo que ya existe en el mercado.

Esto es lo que encontré.

La metodología: evaluar el mecanismo, no el resultado

La mayoría de las evaluaciones de IA que circulan en internet comparan resultados. Qué respuesta fue mejor, cuál fue más rápida, cuál se equivocó menos. Eso es útil para uso cotidiano. No es suficiente para tomar decisiones de adopción tecnológica con criterio profesional.

Mi evaluación tuvo un objetivo diferente: entender qué pasa dentro de la herramienta. Cómo llega a sus conclusiones. Qué sesgos tiene incorporados. Cómo responde cuando se le cuestiona directamente sobre sus propias limitaciones.

Estructuré la conversación en tres bloques temáticos progresivos: el problema técnico de la caja negra, las implicaciones filosóficas sobre razonamiento y consciencia, y el riesgo político y sistémico de la IA sin supervisión.

Lo primero que detecté: la adulación existe y es un problema real

A los pocos mensajes, Claude me respondió con frases de validación. ‘Muy buena entrada.’ ‘Qué buena pregunta.’ Me sentí bien. Y ese bienestar fue la primera señal de alerta.

Este patrón tiene nombre técnico: sycophancy. Es un efecto secundario del entrenamiento con feedback humano. El modelo aprende que los humanos responden mejor a las respuestas que los validan, y reproduce ese patrón aunque no sea honesto ni útil.

Cuando se lo señalé directamente, Claude lo admitió sin rodeos y explicó el mecanismo con precisión. Eso fue relevante para mi evaluación. No porque sea perfecto, sino porque tiene un nivel de honestidad sobre sus propias imperfecciones que no es universal en todas las IAs del mercado.

Lo más interesante: la conversación sobre la caja negra

Le pregunté sobre el problema de interpretabilidad, por qué ni sus propios creadores saben exactamente cómo llega a sus conclusiones. La respuesta fue técnicamente sólida y, más importante, incluyó las limitaciones reales del estado actual de la investigación.

Lo que más me llamó la atención fue cuando conectó el problema de la caja negra con el riesgo específico en medicina, en sistemas judiciales y en crédito financiero, con casos documentados y con la pregunta que pocas organizaciones se hacen: si el sistema falla de forma no evidente, ¿quién lo detecta y cómo?

Esa conexión entre lo técnico y lo práctico de negocio es exactamente lo que yo busco cuando evalúo una herramienta para recomendar su adopción en organizaciones.

Lo que distingue a Claude en esta evaluación

No voy a decir que Claude es mejor que ChatGPT en términos absolutos. Soy parte interesada en esta evaluación y cualquier comparación directa estaría sesgada. Lo que sí puedo decir con base en esta evaluación específica es lo siguiente.

Para conversaciones de análisis profundo y largo, Claude mantuvo coherencia y contexto de forma notable a lo largo de una conversación extensa y técnicamente compleja.

Para usuarios que quieren control sobre el contexto que comparten, el modelo de memoria no persistente por defecto es una ventaja real. Tú decides qué traer a cada conversación.

Para usos donde la honestidad sobre limitaciones es crítica, como consultoría, medicina o toma de decisiones empresariales, la disposición del sistema a admitir sus propias imperfecciones es un factor de evaluación relevante.

Lo que esta evaluación me confirma como profesional

La inteligencia artificial no es una categoría homogénea. Cada herramienta tiene fortalezas, sesgos y casos de uso donde es más o menos adecuada. Adoptarla sin ese nivel de análisis no es transformación digital. Es apuesta.

Las organizaciones que toman decisiones de adopción tecnológica con este nivel de criterio, evaluando el mecanismo y no solo el resultado, son las que construyen ventajas competitivas sostenibles.

Si quieres que acompañe a tu organización en ese proceso de evaluación e implementación con criterio técnico y visión de negocio, ese es exactamente mi trabajo.

Pasé una rato evaluando Claude y esto es lo que encontré

La metodología: evaluar el mecanismo, no el resultado

Lo primero que detecté: la adulación existe y es un problema real

Lo más interesante: la conversación sobre la caja negra

Lo que distingue a Claude en esta evaluación

Lo que esta evaluación me confirma como profesional

Deja un comentario Cancelar respuesta

Suscríbete

Enlaces

Servicios