Explicación del Script: generate_dataset.py

Este documento explica el funcionamiento y utilidad del archivo generate_dataset.py que se encuentra en tu proyecto.

1. ¿Para qué se usa?

El objetivo principal de este script es generar datos sintéticos masivos para entrenar a tu Inteligencia Artificial (LLM).

Entrenar un modelo para que sea un "Chef" requiere miles de ejemplos. Escribir 5,000 recetas a mano sería una tarea titánica. Este script automatiza ese proceso, creando miles de combinaciones de recetas coherentes en cuestión de segundos.

Resultado: Al ejecutarlo, crea un archivo llamado recetas_extended.jsonl con 5,000 recetas únicas listas para el entrenamiento.

2. ¿Cómo funciona? (La Lógica)

El script funciona como una "fábrica de recetas" aleatoria pero estructurada. Sigue estos pasos:

A. Bases de Datos de Ingredientes

Al principio del código, tiene listas definidas de ingredientes clasificados:

B. El Motor de Generación (Función generar_receta)

Por cada receta que genera, hace lo siguiente:

  1. Selección Aleatoria: Elige al azar entre 2 y 4 ingredientes de las listas anteriores.
  2. Creación de la Pregunta (Instruction): Simula cómo un usuario pediría la receta.
    Ejemplo: "Tengo pollo y arroz." o "¿Qué cocino con merluza y tomate?"
  3. Lógica de Cocina (El "Cerebro"):
  4. Ensamblaje: Une la introducción, los pasos y la despedida.

3. Ejemplo de lo que genera

El script produce líneas en formato JSONL como esta:

{ "instruction": "Tengo pechugas de pollo, limón y ajo.", "output": "¡Claro! Puedes preparar unas 'Pechugas de Pollo al Limón'. Sella las pechugas en una sartén... [Pasos generados] ... ¡Que aproveche!" }

4. Resumen Técnico