México construye su LLM nacional con Nvidia e idiomas indígenas
México desarrolla su propio modelo de lenguaje de IA con apoyo de Nvidia, incorporando 68 lenguas indígenas para fortalecer la soberanía digital del país.

México avanza en uno de los proyectos tecnológicos más ambiciosos de su historia reciente: el desarrollo de un modelo de lenguaje de gran escala (LLM) propio, diseñado para reflejar la identidad cultural del país e incorporar sus 68 lenguas indígenas vivas. El proyecto, impulsado por la Secretaría de Economía con apoyo técnico de Nvidia, busca que México deje de ser un consumidor pasivo de tecnología de IA y se convierta en productor de sus propias herramientas.
Un modelo para el español mexicano y más allá
Los modelos de lenguaje dominantes —ChatGPT, Gemini, Claude— fueron entrenados principalmente con texto en inglés y español peninsular. El resultado es que expresiones, regionalismos, contextos históricos y, sobre todo, las lenguas originarias de México quedan sistemáticamente subrepresentados o directamente ausentes. El LLM nacional busca cerrar esa brecha.
Según el secretario de Economía, Marcelo Ebrard, contar con un modelo lingüístico nacional es "clave para mejorar la competitividad de México en la nueva economía digital". El funcionario agregó que el objetivo es que los beneficios de la herramienta alcancen a más de 5 millones de estudiantes universitarios y a 5 millones de empresas en todo el país.
68 lenguas indígenas en el entrenamiento
Uno de los elementos más singulares del proyecto es la decisión de incorporar corpus en las 68 lenguas indígenas activas de México, entre ellas el náhuatl, el zapoteco, el mixteco, el tzeltal y el maya. Se trata de una apuesta explícita por la inclusión cultural en la era de la inteligencia artificial, en un momento en que otros países discuten si sus idiomas minoritarios sobrevivirán al avance de los modelos entrenados en inglés.
- Náhuatl: más de 1.7 millones de hablantes en México
- Maya: alrededor de 800,000 hablantes en el sureste del país
- Mixteco y zapoteco: lenguas con rica tradición oral y escrita en Oaxaca
- Total: 68 agrupaciones lingüísticas reconocidas por el INALI
El reto técnico es considerable: muchas de estas lenguas cuentan con escasos corpus digitales, lo que obliga a un trabajo previo de digitalización y anotación de textos antes de que puedan utilizarse en el entrenamiento del modelo.
Nvidia como socio tecnológico
El apoyo de Nvidia no es menor. La empresa californiana, cuyas GPUs son el estándar de facto para entrenar modelos de lenguaje, brinda no solo la infraestructura de cómputo sino también orientación técnica sobre arquitecturas de modelos. México se integra así a la iniciativa regional Latam-GPT, impulsada desde Chile junto con otros países hispanohablantes, que busca crear modelos adaptados a las culturas y contextos de América Latina.
La colaboración con Nvidia cobra especial relevancia dado que la empresa ya tiene presencia industrial en México: su asociación con Foxconn para fabricar servidores GB200 en Guadalajara convierte al país en un nodo estratégico dentro de la cadena global de producción de IA.
Presentación en noviembre: México IA + Inversión Acelerada
Los avances del modelo serán presentados públicamente el 12 y 13 de noviembre de 2026 en el foro "México IA + Inversión Acelerada", que se celebrará en Expo Santa Fe, Ciudad de México. El evento, organizado por la Secretaría de Economía, reunirá a inversores, desarrolladores y funcionarios para mostrar el estado del arte del proyecto y delinear la hoja de ruta hacia su implementación a escala nacional.
Soberanía digital, no solo tecnología
El proyecto del LLM nacional forma parte de una estrategia más amplia. En paralelo, México avanza en su primera ley federal de inteligencia artificial, ha lanzado un fondo de 4,000 millones de pesos para startups de IA y proyecta una inversión en centros de datos que podría alcanzar los 9,200 millones de dólares, según estimaciones del Consejo Coordinador Empresarial.
La apuesta es clara: México no quiere ser únicamente ensamblador de hardware en la cadena global de IA. Quiere tener voz propia en la tecnología que, en los próximos años, mediará cómo los ciudadanos acceden a servicios de salud, educación, justicia y gobierno. Un modelo que hable náhuatl y zapoteco, además de español mexicano, es la forma más concreta de hacer esa aspiración realidad.
Boletín
Suscríbete a Techmex
Resumen semanal. Las mejores historias. Sin spam.