El script train_from_scratch.py representa la implementación de un pipeline completo de Deep Learning. A diferencia de los modelos pre-entrenados comerciales, este proyecto se enfoca en la inicialización desde cero, lo que implica que el modelo no posee conocimientos lingüísticos previos. Su aprendizaje se basa enteramente en las asociaciones estadísticas presentes en el dataset de entrenamiento.
Se ha diseñado una arquitectura basada en el modelo Generative Pre-trained Transformer (GPT). El objetivo es optimizar la capacidad de representación frente a la eficiencia de cómputo.
El éxito del modelo reside en cómo se "traduce" el lenguaje humano a vectores numéricos. Se utiliza el archivo recetas_extended.jsonl, que contiene pares de instrucción y respuesta.
Se utiliza Byte-Pair Encoding (BPE). Este método es robusto frente a errores ortográficos o términos técnicos culinarios, ya que si no reconoce una palabra completa, la descompone en unidades sub-palabra que sí conoce.
La configuración del entrenamiento ha sido ajustada para forzar una memorización profunda de los patrones del dataset culinario.
| Parámetro Critico | Valor Seleccionado | Justificación Técnica |
|---|---|---|
| Epochs | 100 | Ciclo extendido para asegurar que el modelo pase de la generación de ruido a la estructura lógica en un conjunto de datos limitado. |
| Learning Rate | 5e-4 | Una tasa elevada para permitir que el optimizador AdamW encuentre rápidamente la dirección del gradiente en un paisaje de pérdida inexplorado. |
| Weight Decay | 0.01 | Penalización de pesos para evitar que el modelo se vuelva "rígido" y solo pueda repetir las recetas del dataset. |
| FP16 (Mixed Precision) | Activado | Optimización de hardware que permite procesar más datos por segundo sin comprometer la precisión de los resultados. |
.bin para su posterior uso en inferencia.Al finalizar las 100 épocas, el modelo habrá desarrollado un "entendimiento" estadístico de la estructura de las recetas. Este modelo es ahora capaz de generar respuestas autónomas siguiendo el formato aprendido, representando un hito fundamental en el desarrollo de soluciones de Inteligencia Artificial personalizadas.
Generado para: Departamento de Ingeniería de Software / Proyecto IA Culinaria. Fecha: Febrero 2026.