Buenas laneros, he estado cacharreándole a algunos programas de inteligencia artificial que me gustaría compartir con ustedes y si ustedes conocen algunos que me falte por conocer o mencionar me gustaría que compartieran.
Principalmente me gusta correr los modelos en local tanto por cuestiones de economía, no tener que pagar subscripciones, también por privacidad y para evitar limitaciones/censura que tienen muchas IA que funcionan por internet. Aunque requiere tener maquinas algo potentes para ahorrar tiempo, me gusta que estén a mi alcance y poderlas usar cuando yo quiera.
Adicional les recomiendo este canal de youtube que recomienda este tipo de programas y enseña como instalarlos de una manera muy fácil:
Estas son las que he probado con buenos resultados:
IMAGENES Y VIDEOS
- Fooocus: https://github.com/lllyasviel/Fooocus
Basado en stable difusión, sirve para generar imágenes de forma fácil y local con modelos y presets ya entrenados, realista, anime y normal. Además de muchas configuraciones en el programa permite que subamos nuestras propias imágenes para editarlas o hacer avatares de nosotros mismos. Lo bueno de este programa es que ya viene todo configurado, solamente es bajarlo y descomprimirlo. También le podemos poner modelos de civitai que necesitemos, pero son limitados a diferencia del siguiente programa.
Ejemplos de imagenes:
Ver el archivos adjunto 598776
- Stable Diffusion web UI:
Stable Diffusion web UI. Contribute to AUTOMATIC1111/stable-diffusion-webui development by creating an account on GitHub.
github.com
Lo mismo que el anterior aunque este viene menos configurado, en este caso nosotros debemos agregar los modelos, loras y extensiones, la ventaja es que permite hacer mas cosas a comparación de fooocus y acepta mas modelos de stable difusion.
Modelos y loras:
Los extensiones que me han gustado y dan mas funcionalidades a stable diffusion, dentro del programa se pueden instalar mas:
Reactor: permite modificar las poses de las caras en caso de crear influencers de instagram que no queden con la misma pose.
Fast and Simple Face Swap Extension for StableDiffusion WebUI (A1111 SD WebUI, SD WebUI Forge, SD.Next, Cagliostro) - Gourieff/sd-webui-reactor
github.com
mov2mov: permite agregar caras que tengamos a cualquier video. Por poner un ejemplo, pude agregar mi cara a un fragmento de la película iron man 01, que quedo con buena gesticulación y muy bien hecha.
This is the Mov2mov plugin for Automatic1111/stable-diffusion-webui. - Scholar01/sd-webui-mov2mov
github.com
Tutorial de las dos extensiones:
AUDIO
- Demucs GUI: https://github.com/CarlGao4/Demucs-Gui
Este programa sirve para separar las voces de los instrumentos del audio que escojamos, adicional ese audio lo podemos usar para entrenar modelos con el siguiente programa. Trae varios modelos para separar voz e instrumentos, para mi el mejor modelo de los que trae es htdemucs_ft.
- RBVC: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Este programa nos permite hacer muchas cosas, entrenar modelos de voz con audios que tengamos, fragmentos de 5 a 10 minutos son suficientes y luego con esos mismos modelos cambiar la voz de una canción como se ve hoy en día en muchos videos musicales en YouTube. La tercera función es cambiar nuestra voz a la de cualquier modelo entrenado en tiempo real, ya sea para usarla como voz de vtuber, hablar en discord con los amigos o etc...
Si les da pereza entrenar modelos, porque puede ser un poco demorado aprox 30 min, en esta web encuentran modelos que ha subido la comunidad de voces famosas:
https://voice-models.com/
Código:
Tutoriales de instalacion:
https://www.youtube.com/watch?v=IqraHS5sgOU
https://www.youtube.com/watch?v=nXpBlC6OBw4
https://www.youtube.com/watch?v=sT6_pi5Jq4w
- stable-audio-tools:
https://github.com/Stability-AI/stable-audio-tools
https://huggingface.co/stabilityai/stable-audio-open-1.0
Sirve para generar sonidos con un simple prompt, sonidos de pájaros, explosiones, etc...
TEXTO
- Text generation web UI:
A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models. - oobabooga/text-generation-webui
github.com
En este programa podemos correr modelos de lenguaje sin censura y también crear un api para que otros programas se beneficien como el que nombrare mas adelante, acá dependiendo del hardware que tengamos será mas o menos difícil porque esto requiere mucha memoria VRAM de nuestras tarjetas de video, aunque con 8gb podríamos correr algo decente, de todas formas hay modelos que pueden pedir mucha VRAM para llegar a parecerse en algo a chatgpt.
En
https://huggingface.co/ encontramos muchos modelos de texto entrenados para elegir a nuestras necesidades y hardware que tenemos.
- SillyTavern:
sillytavernai.com
Acá podremos crear nuestros chatbots, novias virtuales, novelas visuales o crear una especie de juego de rol con varios personajes que tienen sus personalidades e interactúan entre ellos y especificaciones de funcionamiento para cada uno, además de poderles poner avatares, este programa se beneficia usando la api del anterior text generation web ui y con estos dos conseguimos crear personajes.
El modelo que mejor me ha funcionado en el tiempo que he tenido para probar es:
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
huggingface.co
Responde muy bien y para mi tarjeta 4070 super va muy bien, es rápido.
Ver el archivos adjunto 598777
De las que aun no encuentro reemplazo local:
-
https://suno.com/ Sirve para generar música con prompts, canciones con letra.
- Esta extensión para resumir artículos largos de paginas o videos de youtube me ha servido mucho, lamentablemente depende de chatgpt aunque con la versión gratuita funciona bien, solamente tenemos que estar logeados en openai:
https://chromewebstore.google.com/detail/chatgpt-suite-resúmenes-s/cbgecfllfhmmnknmamkejadjmnmpfjmp
Mis instrucciones para resumen que se configura en las opciones de la extensión:
Código:
{{SELECTED_LANGUAGE}}
Your output should use the following template:
- Bulletpoint
Summarize the text I give you in an appropriate amount of concise bulletpoints. Your response should be in Spanish. Use the following content: {{CONTENT}}