Reporte Técnico: Destilación de Conocimiento
Implementación de BERT-Tiny asistido por DistilBERT en Hardware de Nueva
Generación
Equipo de Desarrollo de IA
Este documento detalla el proceso de preparación, entrenamiento y validación de un
modelo de lenguaje mediante la técnica de Knowledge Distillation. El proyecto abordó de-
safíos técnicos significativos relacionados con la compatibilidad de hardware de última
generación (NVIDIA RTX 5060 Ti) y la optimización de entornos de ejecución en Windows
11.
Debido a la incompatibilidad inicial de Python 3.13 con las librerías de Deep Learning ac-
tuales, se realizó un downgrade controlado a Python 3.11.9.
Se procedió a la creación de una estructura de proyecto aislada mediante entornos virtuales
de Python para garantizar la reproducibilidad.
4
8
cu124
Listing 1: Comandos de preparación en PowerShell
Dada la arquitectura sm_120 de la RTX 5060 Ti (Serie 50), se optó por una estrategia de ejecu-
ción en CPU para asegurar la estabilidad del proceso, evitando errores de falta de imágenes
de kernel en PyTorch.
1
Se implementó un Trainer personalizado para calcular la pérdida de destilación utilizando
la Divergencia de Kullback-Leibler (KL Divergence), balanceando la pérdida del estudiante
con las predicciones del profesor .
Configuración de Modelos
Profesor: distilbert-base-uncased-finetuned-sst-2-english
Estudiante: prajjwal1/bert-tiny
Tras un entrenamiento de aproximadamente 2 horas en CPU (12,630 pasos), se ejecutó un
script de validación para comparar el rendimiento real del modelo destilado frente al pro-
fesor .
• Precisión Final (Accuracy): 82.45%
• Parámetros del Profesor: 67M
• Parámetros del Estudiante: 4.4M
• Factor de Reducción: 15.3x más pequeño.
A continuación se detallan los conflictos técnicos encontrados durante la práctica y las so-
luciones aplicadas:
# Error Detectado Solución Aplicada
tion_strategy
Actualización de sintaxis a
eval_strategy para Transfor-
mers v4.4x.
sm_120
Desactivación forza-
da de GPU mediante
CUDA_VISIBLE_DEVICES="".
modelo DistilBERT dentro del com-
pute_loss.
mixtos
Forzado explícito de device="cpu"
en todos los componentes del mode-
lo.
Cuadro 1: Bitácora de Troubleshooting.
2
La práctica demuestra que es posible obtener un modelo altamente eficiente (BERT-Tiny)
con una pérdida de precisión aceptable respecto a un modelo mayor . A pesar de las limitacio-
nes temporales del hardware Serie 50, la ejecución en CPU permitió validar la arquitectura
de destilación de forma exitosa.
3