Guía de Configuración: Cuantización de Modelos de IA (Microsoft Phi-3)
Abre la terminal y navega a tu directorio de trabajo (por ejemplo: cd /Users/tu_usuario/ruta/a/tu/carpeta).
Clona el repositorio de la herramienta llama.cpp utilizando el comando: git clone https://github.com/ggerganov/llama.cpp.git. +1
Entra en la carpeta recién creada: cd llama.cpp. +1
Crea un entorno virtual de Python con el comando: python3 -m venv venv. +1
Activa el entorno virtual ejecutando: source venv/bin/activate. +1
Asegúrate de tener la versión más reciente de pip. Puedes actualizarla con: pip install --upgrade pip.
Instala las librerías necesarias ejecutando el siguiente comando: pip install numpy sentencepiece transformers gguf. +1
Si no tienes CMake instalado, instálalo vía pip: pip install cmake.
Dentro de la carpeta llama.cpp, prepara la construcción ejecutando: cmake -B build.
A continuación, compila los ejecutables con: cmake --build build --config Release. Una vez finalizado este proceso, la herramienta de cuantización estará ubicada en build/bin/llama-quantize. +1
Vuelve a tu carpeta principal (sal de la carpeta llama.cpp): cd ...
Para descargar el modelo correctamente sin depender de git-lfs, utiliza Python con el siguiente comando: +1 Python python3 -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id='microsoft/Phi-3-mini-4k-instruct', local_dir='Phi-3-mini-4k-instruct', local_dir_use_symlinks=False)"
Verifica el tamaño de la descarga (debería ser aproximadamente 7.6GB) ejecutando: du -sh Phi-3-mini-4k-instruct.
Convierte el modelo descargado a un formato intermedio GGUF (FP16) utilizando el script proporcionado en llama.cpp: python llama.cpp/convert_hf_to_gguf.py ./Phi-3-mini-4k-instruct --outfile phi-3-fp16.gguf --outtype f16. +1
Utiliza la herramienta compilada en el Paso 3 para comprimir (cuantizar) el modelo a 4 bits (q4_k_m) ejecutando el siguiente comando: ./llama.cpp/build/bin/llama-quantize phi-3-fp16.gguf phi-3-mini-q4.gguf q4_k_m. +2
Comprueba que los archivos .gguf se han creado correctamente ejecutando: ls -lh *.gguf. +1
Finalmente, puedes importar ambos archivos .gguf (el original y el cuantizado) a LM Studio para realizar tus pruebas de funcionamiento.