A mediados de febrero, la marca de snacks y frutos secos Grefusa colgó en sus redes sociales un vídeo publicitario creado con inteligencia artificial, acompañado del siguiente texto: “La IA puede resolver la ecuación más compleja del mundo, pero no es capaz de comerse una pipa”. Dejando a un lado el debate de si es más o menos cuestionable utilizar esta herramienta en trabajos creativos —aunque, en este caso, se trate de una burla sobre la propia IA—, desde el punto de vista gastronómico, este anuncio pone sobre la mesa un asunto que tiene su miga: ¿por qué la inteligencia artificial tiene problemas para generar imágenes de ciertos alimentos y gestos relacionados con el acto de comer? Y más concretamente, ¿por qué no sabe comer pipas?

Recurrimos a dos expertas para arrojar algo de luz sobre el tema: Nerea Luis, doctora en ciencias de la computación, especializada en inteligencia artificial, y Mariia Chizhikova, ingeniera de Modelos de Lenguaje, también especializada en IA, que divulga sobre ello en su cuenta en Instagram @mariia.en.ia.

“El problema principal no es la comida en sí”, afirma Nerea, “sino la física de la interacción de la acción de comer. Generar un vídeo requiere entender cómo la materia cambia. Al comer, intervienen fluidos, sólidos que se deforman (masticación), oclusiones (la comida entra en la boca y desaparece) y una coordinación motora finísima. La IA no sabe qué es ‘comer’, solo predice qué píxel debería ir después de otro basándose en patrones visuales, y esa transición suele volverse caótica”. En los vídeos, más que en las imágenes estáticas, es donde ese “caos” se hace evidente y mantener la coherencia se convierte en un verdadero reto técnico. “Los vídeos generados por IA siguen siendo reconocibles precisamente por esas pequeñas inconsistencias físicas. Son los síntomas de un sistema que sabe cómo parece que funciona el mundo, pero no cómo funciona realmente”, apunta Mariia.

Los grandes modelos de lenguaje de IA, por tanto, no entienden muy bien la física de ciertos objetos, sobre todo cuando se trata de líquidos y texturas viscosas. “Reflejos, transparencias y salpicaduras son difíciles de calcular. En el caso del queso fundido, el hielo en los vasos o los espaguetis, su forma cambia continuamente y la IA pierde el hilo de dónde empieza el objeto y dónde termina la comida”, señala Nerea. Comer pipas no parece el escenario más predecible para estos modelos. Y todo aquello que requiera manipulación con las puntas de los dedos tampoco le resulta fácil de procesar.

El caso de las pipas es una especie de tormenta perfecta. A la dificultad que tiene la inteligencia artificial para lidiar con objetos de comportamiento caótico, se suma el hecho de que los prompts (las instrucciones con las que interactuamos con los sistemas de IA) han sido entrenados mayoritariamente con datos anglosajones. Y, tal y como nos han demostrado las redes sociales a lo largo de los años, los anglosajones no entienden muy bien qué es “comer pipas”. Cada cierto tiempo, aparece un vídeo en el que alguien ajeno a esta costumbre tan nuestra las engulle con cáscara o se pregunta si comer pipas en un banco es parte de la cultura española (la respuesta, por supuesto, es “sí”).

Puesto que la IA aprende de datos ya existentes, podemos deducir que, en el caso de las pipas, lo que le faltan son esos datos. “Cuantos más vídeos haya en internet de una acción concreta, mejor habrá podido aprenderla el modelo”, indica Mariia. Por eso, aquellos alimentos que más presencia tengan en medios y redes sociales, estarán mejor representados y serán más fáciles de generar para la IA.

“En inglés no existe un verbo equivalente a ‘comer pipas’ como concepto cultural propio. Se diría ‘eating sunflower seeds’, que describe el producto, pero no la acción tal como la vivimos aquí. Ahora bien, estos modelos son multilingües y España no es el único país donde se comen pipas: en Rusia, por ejemplo, es una costumbre igual de arraigada, así que el concepto existe en más idiomas de lo que parece“, explica Mariia. Nerea añade que, en inglés, sunflower seeds se asocia más con comida para pájaros o con un topping para ensaladas.

De todas maneras, para Mariia, aunque el tema del idioma puede influir, no cree que sea el factor principal. El problema tiene más que ver con el hecho de que las pipas sean objetos muy pequeños, ligeros y de movimiento impredecible y con los datos. “Aunque en España comer pipas es algo totalmente cotidiano, no hay tantos vídeos de esa acción en internet, y menos aún en la calidad y variedad que necesitaría un modelo para generalizarla bien”, señala la experta.

El valle inquietante de la comida hecha con IA - Un estudio piloto publicado en 2025 en la revista científica Appetite concluyó que las imágenes de comida creadas con inteligencia artificial pueden caer en el “valle inquietante”. La teoría del valle inquietante describe cómo reaccionamos emocionalmente ante robots, avatares o figuras artificiales que se parecen mucho a los humanos, pero no lo suficiente como para resultar completamente naturales. Cuando ese parecido es alto pero imperfecto, nuestra respuesta pasa de la simpatía a la incomodidad o rechazo, creando un “valle” emocional. 

“Nuestro cerebro detecta algo que casi es real, pero no del todo, y eso genera una incomodidad difusa. En el caso de la comida, solemos procesar esas imágenes con una capa adicional de expectativa sensorial —el olor, la textura, el sabor imaginado— y cualquier inconsistencia en la apariencia interfiere con esa experiencia“, señala Mariia. “Ahora mismo, el problema más frecuente no es que las imágenes sean malas, sino que tienden a ser demasiado perfectas: texturas demasiado uniformes, brillos demasiado simétricos, composiciones que parecen sacadas de un manual de diseño gráfico más que de una cocina real. Y paradójicamente, eso es lo que las delata y lo que las hace menos apetecibles”.

Según el estudio, estas imágenes pueden desencadenar una reacción de neofobia alimentaria (miedo a probar alimentos nuevos o desconocidos). Es decir, que al ver comida generada por IA, nuestro cerebro no la percibe como lo que intenta representar, sino como un alimento que no conoce y que, por tanto, podría suponer una amenaza para nosotros.

Ahora que las imágenes de comida generadas con inteligencia artificial parecen ir ganando terreno en la publicidad e incluso en los menús de algunos restaurantes y empresas de comida a domicilio, no está de más tener en cuenta estos estudios antes de reemplazar una foto auténtica de un plato por una que no lo es. Estas imágenes, además, podrían llevar a que el consumidor se sienta engañado, por no entrar en el problema ético que plantea que los modelos que las generan hayan sido entrenados con imágenes reales creadas por personas que difícilmente pueden reclamar que se hayan usado sin su permiso.

¿Llegará algún día la IA a generar imágenes de comida que sí nos resulten apetitosas? Y si eso ocurre, ¿no seguiremos prefiriendo la imagen real antes que la artificial? “La comida fotogénica de verdad tiene imperfecciones, pequeños accidentes que la hacen humana. Por eso creo que el camino no es sustituir la fotografía de comida real con IA, sino usarla como herramienta de apoyo cuando tiene sentido. Ya he visto plataformas de delivery que empiezan a usar imágenes generadas para representar sus platos, y creo que es un error, no solo técnico, sino estratégico. La fotografía real comunica autenticidad, y en alimentación la autenticidad importa“, concluye Mariia. María Arranz en el País