Tecno Impostor Vol. 1

Hola, este va a ser un Newsletter semanal, a ver si lo logro, incluirá un resumen de contenido que voy leyendo, algo de este contenido será nuevo, otro será viejo pero que tengo pendiente por compartir.
En esta edición:

Contratar personas que les importe su trabajo
A penas estamos en el primer tiempo de la IA
Analizo el tuit de la semana: En Twitter todos hablan de evals

Contratar personas que les importe su trabajo

Lo que más importa a la hora de contratar es: Contratar personas a las que les importe su trabajo.

De esto va un blog post de Alexandr Wang del que quiero reflexionar, porque me hace mucho sentido.

No esta garantizado que las personas que se preocupan por su trabajo y la empresa en que trabajan que hagan un buen trabajo, PERO si esta garantizado que no harán un buen trabajo las personas que no se preocupan.

Esto de “preocuparse por su trabajo” es otra forma de decir ponerse la camiseta, ¿no?. Bueno yo si pienso que las probabilidades de éxito en el trabajo aumentan cuando alguien se pone la camiseta.

Creo que lo polémico de que la gente se ponga la camiseta es que muchas veces no son recompensados con mejores sueldos, pero cuando si ocurre es una relación muy fructífera en resultados y crecimiento mutuo.

Las preguntas que hace Alexander para identificar talento es:

¿En qué has trabajado más duro en tu vida?
¿Cuántas horas trabajabas por semana?
¿Por qué trabajaste tan duro? ¿Por qué te importaba?
¿Cuándo estuviste más desmotivado en tu vida?
¿De qué cosa estás más orgulloso?
¿Crees que valió la pena?

Yo creo que para muchas personas esas preguntas pueden resultar ofensivas, pero creo que en algunas etapas tempranas de startups necesitas personas así, yo lo he vivido, yo he sido esa persona.

Alexandr Wang, de 28 años, es el Chief AI Officer (Jefe de Inteligencia Artificial) de Meta y líder de Meta Superintelligence Labs (MSL). Se incorporó en junio 2025 después de que Meta invirtiera $14.3 mil millones en Scale AI.
En el chisme:

Relación deteriorándose con Scale AI: Los investigadores de Meta consideran que los datos de Scale AI son de baja calidad y prefieren trabajar con competidores como Surge y Mercor.
Tensiones internas: Hay conflictos entre los nuevos contratados de alto perfil y los empleados existentes de Meta.
Rotación de personal: Varios ejecutivos que Wang trajo de Scale AI ya han dejado Meta, incluyendo a Ruben Mayer después de solo 2 meses.
Salidas recientes: Múltiples investigadores clave han renunciado, incluyendo a Rishabh Agarwal, Chaya Nayak y Rohan Varma.

Aquí lo puedes leer el blog post con mis subrayados, aquí lo puedes leer en versión original.

Aún no estamos en el segundo tiempo de la Inteligencia Artificial 🎽

tldr: Estamos en el medio tiempo de la IA.

Usando la analogía de los deportes, en donde se juega a 2 mitades, a penas vamos en la primera mitad, o eso opina Shunyu Yao en su blog post.

Recordemos como la IA empezó ganándole a campeonatos a humanos en deportes como ajedrez y Go. Pero ahí se estancó muchos años, ahora al fin se dice que el Aprendizaje por refuerzo (Reinforcement Learning en inglés) funciona, al fin es capaz de generalizar y poder interactuar de una forma más amplia.

La forma en la que utilizamos muchos de los modelos de IA como GPT-5 en ChatGPT es la forma de utilizar una sola receta, pero que es genérica y funciona para muchos casos de uso.

Pero tenemos preguntas.¿Cuáles son sus limitantes? ¿Qué viene después? La segunda mitad de la IA

En esta nueva era, la evaluación se vuelve más importante que el entrenamiento. En lugar de solo preguntar: "¿Podemos entrenar un modelo para resolver X?", nos preguntamos: "¿Para qué deberíamos entrenar a la IA y cómo medimos el progreso real?". Para prosperar en esta segunda mitad, necesitaremos un cambio oportuno en la mentalidad y el conjunto de habilidades, quizás más cercanos a los de un gerente de producto.

La primera mitad

¿Quiénes fueron los que ganaron en la primera mitad?

La mayoría de los papeles científicos sobre IA fueron enfocados en los métodos para crear nuevos modelos, las evaluaciones o pruebas de rendimiento (benchmarks) no fueron importantes.

La receta

Este es un término comúnmente mencionado por los investigadores y especialistas de IA, hay tiene una receta, ¿qué ingredientes tiene esta receta?

Algoritmo
Ambiente
Priors (conocimiento previo)

Esos 3 ingredientes no eran tan claros al principio para muchos investigadores, que se enfocaron años en algoritmos, luego en ambiente, para finalmente ver que debieron de empezar con el conocimiento previo.

Por ejemplo, en el cambio de GPT-2 a GPT-3 se descubrió que lo que faltaba eran los priors (conocimientos previos).

"No puedes conectar los puntos mirando hacia adelante; solo puedes conectarlos mirando hacia atrás" — Steve Jobs

Décadas hubo entre los inicios de investigación de la IA hasta que pudimos tener deep research que es una de las funcionalidades que más estamos utilizando hoy con ChatGPT, DeepSeek, etc.

. . .

En la primera mitad terminamos con:

Nuevos métodos para poder crear modelos que pudieran superar los benchmarks.
Crearon benchmarks más complejos para poder seguir mejorando los modelos existentes.

Ya sabes esas métricas que dicen que un modelo es capaz de pasar un examen de médico, de abogado, que pueden ser un programador senior, etc.

La segunda mitad

tldr: Para la segunda mitad 3 cosas son importantes :

mejores evaluaciones > entrenamiento
Obtener utilidad en la IA
**inteligencia incremental > logros aislados **

¿A qué se refiere?

Las nuevas evaluaciones deben de ser re-imaginadas, no deben de ser simplemente lo mismo, pero más difícil, deben de enfocarse a pensar más como humanos, resolver de forma consistente algo, no simplemente hacerlo en uno o 2 intentos.

Los humanos tienen inercia, esto significa que constantemente re-evaluan lo que saben, lo que hacen y lo mejoran.

A pesar de que la IA ha logrado igualar el desempeño de los humanos en muchos aspectos como ajedrez, Go, exámenes de conocimientos, etc. aún no muestra tener tanta utilidad.

Si estás desarrollando soluciones con IA, has escuchado de los evals, a lo mejor ya los implementaste, pero la vida real es distinta a los evals.

En el blog post mencionan este ejemplo:

La evaluación "debería" ejecutarse automáticamente, por lo que típicamente un agente recibe una entrada de tarea, hace cosas de forma autónoma y luego recibe una recompensa por la tarea. Pero en realidad, un agente tiene que interactuar con un humano durante toda la tarea; no solo envías un mensaje súper largo al servicio de atención al cliente, esperas 10 minutos y luego esperas una respuesta detallada que lo resuelva todo. Al cuestionar esta configuración, se inventan nuevos puntos de referencia para involucrar a humanos reales (por ejemplo, Chatbot Arena) o simulación de usuarios (por ejemplo, tau-bench) en el ciclo.

Aquí el ejemplo es como si tú hicieras un eval para un chatbot, en donde un chatbot tiene que ayudarle al humano a cancelar su vuelo, validando que cumpla con las reglas de negocio, por ejemplo que falten más de 24hrs para el vuelo. En el formato actual el eval ejecutaría todo y al final se validaría que logré el resultado, pero en la realidad el humano interactuando podría hacer descarrilarlo fácilmente con preguntas inesperadas. Interesantes los nuevos formatos de evals que menciona el autor del post: Chatbot Arena y tau-bench.

Otro ejemplo que menciona el autor es una evaluación para evaluar a los modelos de IA como si fueran Ingenieros de Software:

Si tienes un conjunto de pruebas con 500 tareas, ejecutas cada tarea de forma independiente, promedias las métricas de la tarea y obtienes una métrica general. Pero en realidad, resuelves las tareas de forma secuencial en lugar de en paralelo. Una ingeniera de software de Google resuelve los problemas de google3 cada vez mejor a medida que se familiariza con el repositorio, pero un agente de software resuelve muchos problemas en el mismo repositorio sin adquirir esa familiaridad. Obviamente, necesitamos métodos de memoria a largo plazo (y los hay), pero el mundo académico no tiene los puntos de referencia adecuados para justificar la necesidad, ni siquiera el coraje adecuado para cuestionar

Los evals de 500 problemas de código se ejecutan en paralelo, pero así no las resolveríamos como programadores, lo haríamos secuencial y conforme avanzas más mejorando tus habilidades, eso no lo hace la IA.

. . .

¡Estamos en la segunda mitad!

Todo se pone más complejo, pero más interesante, ese blog post es bastante técnico, pero a la vez es interesante intentar entender todo lo que menciona el autor.

Aquí puedes leer este blog post con mis subrayados, aquí lo puedes leer en versión original.

Tweet de la semana

Twitter es todo evals, evals, evals.
Luego, cuando hablo con alguien en un laboratorio grande, es como: "Ah, aquí están los 10 prompts que pruebo. Solo los leo cada par de checkpoints.
https://twitter.com/jxnlco/status/1963295889121837466

Es cierto, de hecho a mi ya me ha estado dando FOMO por no haberme metido tanto a los evals, porque a cada rato son mencionados en X, pero igualmente ese blog post de “La segunda mitad” me deja el sabor de boca de que realmente esos evals no sirven tan bien para casos reales.
Seguimos tomándole el pulso a los resultados que nos da la IA.

—
Nos leemos la siguiente semana, déjame un comentario o algo si te gusto o te pareció interesante esto.