Inicio Noticias destacadas ¿Priyavid Photoshop? La nueva IA de Google le permite editar imágenes.

¿Priyavid Photoshop? La nueva IA de Google le permite editar imágenes.

20
0

El lanzamiento multimodal abre nuevas posibilidades

Tener una salida multimodal real abre nuevas posibilidades interesantes en Satupots. Por ejemplo, Gemini 2.0 puede jugar juegos gráficos gráficos interactivos flash o crear historias con ilustraciones de uniformes, mantener el personaje y establecer una serie en muchas películas. Está lejos de la derecha, pero la estabilidad de escritura es una nueva habilidad en asistentes de IA. Lo probamos, y fue muy salvaje específicamente cuando creó la vista de la foto que proporcionamos en otro ángulo.


Gemini 2.0 Flash, Parte 2. Creación de una historia de imágenes múltiples. Considere el ángulo alternativo de la foto original.

Gemini 2.0 Flash, Parte 2. Creación de una historia de imágenes múltiples. Considere el ángulo alternativo de la foto original.

Google / Bench Edwards


Gemini 2.0 Flash, creando una historia de imagen múltiple con la Parte 3.

Gemini 2.0 Flash, creando una historia de imagen múltiple con la Parte 3.

Google / Bench Edwards

El texto se refiere a otra fuerza potencial del modelo de representación. Google afirma que Gemini 2.0 Flash funciona mejor que los «modelos de competencia líder» al crear imágenes con texto, lo cual es ideal para crear contenido con texto integrado. Según nuestra experiencia, los resultados no fueron tan emocionantes, pero fueron claros.

El texto de la película creada por el Gemini 2.0 Flash es un ejemplo de representación.

El texto de la película creada por el Gemini 2.0 Flash es un ejemplo de representación.


Crédito: Google / ARS Technica

A pesar de los defectos de Gemini 2.0 Flash, el origen de la liberación de imagen multimodal real parece un momento significativo en la historia de la IA porque la tecnología continúa mejorando. Si te imaginas el futuro, digamos dentro de 10 años, puede haber algún tipo de medio en tiempo real en tiempo real. HolotecniaPero sin copiar el asunto.

Al regresar a la realidad, Google lo reconoce, los «primeros días» para el lanzamiento de la imagen multimedal. Recuerda que Flash 2.0 Debe ser un modelo de IA pequeño, que es barato de ejecutar, por lo que no absorbe todo el ancho de Internet. Toda esa información toma mucho espacio en función del número de parámetros, y los parámetros significan un alto cálculo. En cambio, Google Gemini 2.0 Flash fue entrenado alimentando una base de datos de cura, que incluye datos artificiales objetivo. Como resultado, este modelo dice que todo es «inconsciente» del mundo, y Google mismo dice que los datos de capacitación «amplios y comunes, no son completos ni completos».

Esta es una forma lujosa de decir que la calidad del lanzamiento de la imagen no es correcta, sí. Pero hay muchos lugares para el progreso en el futuro, y las técnicas visuales de entrenamiento de «conocimiento» progresan y calculan las caídas al costo. Si este proceso cambia, como hemos visto con los generadores de películas de IA basados ​​en la extensión estándar, Midzorni y Flux, la calidad del lanzamiento de la imagen multimodal puede progresar a corto plazo. Prepárate para la realidad de los medios completamente líquidos.

Source link

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí