¡Hola! Parece que ya tienes una configuración bastante sólida para empezar a trabajar con IA en tu PC. Actualmente trabajo como desarrollador RPA intentando meterme por los lados en IA y estudio una especialización en inteligencia artificial, quizás mis consejos te puedan ser de utilidad.
Si piensas probar con grandes modelos, ya sean de vision artificial, audio, LLM o en general cualquier modelo entrenado de un dataset muy grande o cualquier modelo de deep learning con pesos y sesgos de gran tamaño, la recomendación clara y estándar siempre va a ser la misma, primero una tarjeta de video teniendo en cuenta como prioridad el siguiente orden:
Nvidia > VRAM > nucleos cuda > nucleos tensor
Completamente descartado AMD por más que tenga ROCm y descartado intel, por más que también tengan intel extension for tensorflow o pytorch , lo seguro es Nvidia.
En cuanto a la memoria RAM, tener grandes cantidades solamente es util cuando tu ejecutas los modelos en CPU, osea haces inferencia de estos directamente en la CPU, que resumiéndolo es hacer uso directamente de un modelo, en este escenario, es válido tener un buen procesador y suficiente memoria RAM para cargar el modelo, pero su inferencia va a ser extremadamente lenta a comparación de cualquier GPU, pero claro es más barato comprar 32GB de memoria ram que una GPU con 32GB de memoria VRAM.
No intentes entrenar modelos pesados en CPU, va a demorar una eternidad.
La memoria RAM Tambien es util cuando tú vas a entrenar un modelo y preparas un dataset especifico para este caso, pero solamente cuando estas manipulando esta data. Cuando realizas el entrenamiento se usa la VRAM de la GPU o la RAM si lo entrenas en CPU, como recomendación tu memoria RAM debe ser ligeramente superior a la VRAM que tenga tu GPU, si tienes más, mejor obviamente.
Como recomendación la RTX 3060 con 12GB de VRAM es perfecta para que puedas comenzar, pero teniendo en cuenta que vas a estar limitado al uso de ciertos modelos, por ejemplo en modelos de lenguaje podrás cargar en el mejor de los casos los de 7B y 13B pero en 4Bit. La RAM puedes dejarla en 32GB por ahora, si vas a aprender a crear tu mismo los modelos y entrenarlos desde 0, a hacerle fine tunning o transfer learning a modelos no muy grandes con el objetivo de aprender, esta GPU va a ser la mejor opción, pero si puedes conseguir una con mas VRAM, el dinero no es un impedimento y te interesa mucho el tema, adelante, pero solo cuando realmente entiendas más del tema y puedas sacarle mejor provecho, ya que siempre puedes hacer uso de google colab pro o el entorno de ejecución de kaggle, obviamente pagando un pequeño precio de suscripción.
En cuanto al disco duro, lo normal es que continuamente estes descargando y eliminando modelos pesados, vas a estar constantemente reescribiendo datos y esto a los SSD no les gusta mucho porque tienen un TBW limitado, pero claro hacer uso de un HDD te va a generar cuello de botella, te recomiendo un SSD sata que no sea tan rápido ya que estos no suelen calentarse mucho y también tienen un TBW mucho mayor a un SSD pci express de gran velocidad.
GGML es una técnica que se utiliza mediante una libreria para entrenar y usar modelos en CPU, pero solamente con procesadores compatibles con las instrucciones AVX o AVX2, tiene bastantes opciones interesantes para reducir el tamaño de los modelos y hacer que funcione un poco más rápido, pero la GPU siempre va a ser mejor, para usar GGML puedes hacer uso de ejecutables que ya están echos con esta técnica y super ajustados para que funcionen bien, o tú mismo cargar un modelo y ajustarlo haciendo uso de GGML, desconozco si esto se pueda usar con pytorch, tensorflow o si directamente sea a bajo nivel en c++.