Especificación Técnica de IA

Desarrollo del Modelo Mini-GPT para Asistencia Culinaria

1. Resumen Ejecutivo del Proceso

El script train_from_scratch.py representa la implementación de un pipeline completo de Deep Learning. A diferencia de los modelos pre-entrenados comerciales, este proyecto se enfoca en la inicialización desde cero, lo que implica que el modelo no posee conocimientos lingüísticos previos. Su aprendizaje se basa enteramente en las asociaciones estadísticas presentes en el dataset de entrenamiento.

2. Ingeniería de la Arquitectura (Transformer)

Se ha diseñado una arquitectura basada en el modelo Generative Pre-trained Transformer (GPT). El objetivo es optimizar la capacidad de representación frente a la eficiencia de cómputo.

Componentes Estructurales

3. Tratamiento de Datos y Tokenización

El éxito del modelo reside en cómo se "traduce" el lenguaje humano a vectores numéricos. Se utiliza el archivo recetas_extended.jsonl, que contiene pares de instrucción y respuesta.

Algoritmo de Codificación

Se utiliza Byte-Pair Encoding (BPE). Este método es robusto frente a errores ortográficos o términos técnicos culinarios, ya que si no reconoce una palabra completa, la descompone en unidades sub-palabra que sí conoce.

# Ejemplo de flujo de datos: Instrucción: "¿Cómo hago un huevo frito?" Tokenización: [34, 120, 45, 89, 210, ...] Pad Token: Los espacios vacíos hasta 128 se rellenan con EOS para mantener tensores uniformes.

4. Estrategia de Hiper-parametrización

La configuración del entrenamiento ha sido ajustada para forzar una memorización profunda de los patrones del dataset culinario.

Parámetro Critico Valor Seleccionado Justificación Técnica
Epochs 100 Ciclo extendido para asegurar que el modelo pase de la generación de ruido a la estructura lógica en un conjunto de datos limitado.
Learning Rate 5e-4 Una tasa elevada para permitir que el optimizador AdamW encuentre rápidamente la dirección del gradiente en un paisaje de pérdida inexplorado.
Weight Decay 0.01 Penalización de pesos para evitar que el modelo se vuelva "rígido" y solo pueda repetir las recetas del dataset.
FP16 (Mixed Precision) Activado Optimización de hardware que permite procesar más datos por segundo sin comprometer la precisión de los resultados.

5. Pipeline de Ejecución Paso a Paso

6. Conclusiones y Futuro

Al finalizar las 100 épocas, el modelo habrá desarrollado un "entendimiento" estadístico de la estructura de las recetas. Este modelo es ahora capaz de generar respuestas autónomas siguiendo el formato aprendido, representando un hito fundamental en el desarrollo de soluciones de Inteligencia Artificial personalizadas.

Generado para: Departamento de Ingeniería de Software / Proyecto IA Culinaria. Fecha: Febrero 2026.