Showing posts with label sound. Show all posts
Showing posts with label sound. Show all posts

Thursday, May 22, 2025

Veo3, estado del arte en IA y video orgánico como opción

Todos los modelos encuadrados dentro de esa categoria de IA Generativa describen en la actualidad una carrera de relevos donde cada vez en menos tiempo vemos un muestra de lo que pueden llegar a hacer y nos deja boquiabiertos al menos un rato, lo justo hasta que pasa de hito a normalidad asumida

Aun así, es útil detenerse cuando vemos algún avance no se si definitivo pero si significativo, como en el el caso de Veo3 el de momento último modelo de generación de video de Google que además de mejoras apreciables en la calidad de las imágenes incorpora por primera vez audio sincronizado con el video

Veo3 se ofrece de momento dentro del plan de suscripción Google AI Ultra que por 249 US$ mensuales (ahora solo en US) permite el acceso a los últimos modelos de IA de Google, un precio disuasorio para el público en general (hay muchas alternativas además) pero asequible para profesionales si tenemos en cuenta todo el ahorro que supone la realización de videos con estas calidades

Viendo los videos creados con Veo3 que ya recorren efímeramente la red lo cierto es que lo que esta ya aclarado es que vamos a un estadio donde la elección del creador es si hacer un video con un equipo humano o hacerlo el mismo con este modelo de IA, o sea sin muchas vueltas intelectuales que habrá que justificar por que lo haces con humanos con un coste superior

Como la democratización de las herramientas de creación NO es algo nuevo y especialmente en Internet ya intuimos hacia donde nos encaminamos: 

por una lado una enorme y expansiva oferta de videos creados con IA e indistinguibles para la mayoría de sus hermanos artificiales a coste declinante o directamente cero...y un nicho lucrativo de coste alto de videos de creadores con marca personal reconocida que aunque no ofrezcan algo que la IA no pueda hacer si lo ofrecen de una manera diferente 

PS: ¿te gusta el mercado que viene?

Thursday, April 04, 2024

Video creación: desplazando el valor hacia el Prompt


Como muchos sabeis Sora es el emergente tapado de OpenAI, el sistema artificial generador de videos llamado a seguir la (por ahora) exitosa estela de ChatGPT que más que una herramienta es ya una cultura (su mayor logro)

En el durante de este tiempo de espera o entrenamiento de Sora, OpenAI le ha dado a algunos artistas la posibilidad de usar la herramienta para ver que pueden hacer con ella, asumiendo también que quizá un Dall-E pero animado no tendría mucho recorrido más allá de llenar los TikTok , Instagram etc con videos a coste cero  

Pero hoy me quiero fijar especialmente en este video musical que ha realizado el músico August Kamp, a quien desconocía hasta ahora, por dos cuestiones NO igual de importantes : 

la primera es que el primer clip sonoro que ha mostrado Sora con una duración extendida (más de dos minutos)  y segundo y más importante como este clip demuestra cómo se está desplazando el valor de la creación hacia los prompts que introduzcas al sistema 

Kamp tenía una música previamente compuesta "WorldWeight" y lo que hizo fue traducir en palabras esas impresiones visuales que tenía en su cabeza cuando compuso esta pieza 

En realidad, la mayoría de los compositores de música, pero también los oyentes complacidos, crean imágenes en su mente (imaginan) cuando crean y escuchan música, algo que me retrotrae, al menos en la cultura pop, a aquel álbum de Pink Floyd de 1972 "Obscure by clouds" que como podéis ver tenía una portada muy alusiva al tipo de música que contenía este incombustible disco

Estamos asistiendo por entregas a como el valor de una creación audio y visual se está desplazando hacia las ordenes que le metes al sistema (prompt) por eso Kamp NO desvela los prompts que permitieron generar este video, pero como veis si comparte su música y el propio videoclip

¿Es esto un hito, una revolución  y demás retórica habitual?

No lo creo por que apunta a un nicho muy concreto de estilo musical y quizá de artista, aunque siempre con el de momento , ya que si hay margen para que los propios compositores de musica prescindan de los productores de video para transmitir sus sentidos y sentimientos en las golosinas visuales que todos conocemos 

¿Es este otro cántico para que nos hagamos (casi) todos prompt engineers?...no voy por esa linea por que los mejores generadores de prompts son los propios modelos LLM (pruebalo!), pero en el matiz está el valor añadido: hacer prompts que no conduzcan a respuestas previsibles  ya sea en forma de texto o de video ...


Tuesday, January 26, 2016

Personalización del sonido en festivales: auriculares Heat


Mis largos e intensos años de fan de la música pop me llevaron a unos cuantos (no muchos!) festivales de esos monstruosos en estadios de fútbol, entre ellos recuerdo los del fallecido Bowie, Paul McCartney (una pasión recurrente) y por su puesto, una vez en mi vida, los indestructibles Rolling Stones 

Como veis todo bastante normalito para un baby boomer europeo, pero lo que si recuerdo con nitidez es que no había dos personas que escucharan el concierto de igual forma.

Ya sea por que te tocaba en un lado del estadio donde se oia (por la forma de transmisión de las ondas) más la guitarra o el bajo (bass) o por que estabas más cerca/lejos de los altavoces (que desde los años 80´s mejoraron mucho) y por tanto, o tenias sensación de lejanía o literalmente te quedabas sordo (con los zumbidos característicos horas después!)

Por eso hoy os quiero hablar de los auriculares Here fabricados por  una start up neoyorquina que se llama Dopper Labs

Los Here no son en realidad unos auriculares corrientes de esos que puedes comprar para escuchar música, sino un dispositivo wearable (todos los wearables no son smartwatch!) y que permiten a cada usuario graduar el volumen de audición y seleccionar las frecuencias que más le gustan, lo que significa que un usuario de Here podria ir a un concierto de Paul Weller y ecualizar el sonido para que se oiga más la batería o la voz del longevo compositor british

Me llamó poderosamente la atención esta característica de los Here ya que implica la capacidad de un consumo personalizado en un evento público (y por definición para todos igual), lo que supone una oferta de valor añadido/agregado a los estandarizados conciertos de rock

Esto no ha pasado desapercibido para la industria musical, que ha firmado varios acuerdos con Dopper Labs para que sus Here sean patrocinados en festivales importantes como Bonaaroo o el Coachella,

La personalización del sonido de estos wearables de audio, significa también una forma eficaz y efectiva de proteger los oidos ante el ataque de los decibelios, algo que como sabeis suele causar daños progresivos y que en general es irreversible (de hecho la asociación estadounidense para la sordera estima que el 15% de los adultos entre 20 y 69 años han experimentando perdidas auditivas tras conciertos de rock)

No se si serán estos Here de Dopper Labs o algun wearable parecido de una marca asiatica, pero lo que no me cabe duda es que esto es un nicho (inexplotado) de mercado, ya que por un lado une la experiencia de una escucha única con la salvaguarda de la salud

De hecho la campana de Dopper Labs en Kickstarter genero +635 mil dolares de 2855 patrocinadores, un indicador poderoso en una etapa donde una el crowdfounding se considera un termómetro para el éxito de los proyectos


Tuesday, July 19, 2011

Reconocimiento de voz aplicado a publicidad en TV

autor: francisco vacas
tener el smartphone en la mano mientras se ve la tele es una realidad que vemos a nuestro cotidiano alrededor, sin que necesariamente estemos hablando de geeks que no pueden dejar un minuto su teléfono, sino de personas cada vez más corrientes (average) que han transformado su smartphone en aquel "mando a distancia de sus vidas" del que nos hablaba Howard Rheingold años atrás

Asumiendo esta forma de consumo mediatico distraido y multitarea (multitasking), algunas empresas como Shazam estan desarrollando app que permiten identificar el audio del canal que estas viendo para conectarse directamente con la web del programa, anuncio de publicidad o artista que canta la canción que estés oyendo y ofrecer descuentos especiales en compras relacionadas.

Se trata por tanto de activar el consumo pasivo que caracteriza todavía a la tv (couch potato), ofreciendo una  interactividad asistida donde el usuario no tiene que hacer (casi) nada a parte de bajarse la app de la app store (gratuita), algo que han hecho ya 125 millones de usuarios de Shazam

(para aquellos interesados en este tendencia de uso de la tv, hace unos meses la cadena norteamericana ABC  desarrolló con Nielsen Media una app para el iPad para su serie estrella "Grey´s anatomy" que reconocía el audio del capitulo que se emitía, ofreciendo contenido de valor añadido (fotos, información de personajes, videos) aunque la app efectivamente tenia que ser activada por el usuario con su tablet, en una clara actitud multitasker a diferencia de la de Shazam)

Aunque la app es desde luego prometedora y atractiva para el marketing, el problema -tal como reconocen los propios desarrolladores de la app de Shazam es que todavia no se ha alcanzado una masa critica de usuarios que además de bajarse la app la usen para interactuar con los programa de la tele (no llegan al 10%), algo que sin embargo si se logro cuando la app se usaba para reconocer canciones 

El problema con todas las opciones que las nuevas plataformas tecnológicas ofrecen al marketer es que todas no valen para todos los públicos, y por tanto la disponibilidad tecnológica no implica la disposición anímica del target que se quiere alcanzar...

De hecho uno de los grandes problema que tiene el marketing digital es que es "demasiado innovador" (please fijate que lo entrecomillo) ya que los nuevos consumidores puede que en poco tiempo se inmunicen frente a toda novedad, algo que no podría conducir a una paradoja curiosa de vuelta a los códigos básicos. al menos por un tiempo...

Friday, October 31, 2008

Fútbol y móviles

Hasta ahora las sinergias entre el futbol y los móviles se han limitado a la retransmision de los goles o la visión de un partido como parte de la oferta de TV por el móvil....

Ahora un grupo de investigadores de la universidad de Umea (Suecia) han patentado un sistema que hace vibrar al móvil/celular cada vez que alguien golpea la pelota en el campo, la noticia la recoge Physorg, un site muy interesante de divulgación cientifica.

La idea es una especie de braile sonoro, ya que el telefono vibra de manera diferente segun la parte del campo en que este o el equipo que toque la pelota...de este modo te puedes hacer una idea de por donde va la pelota y quien la esta jugando....

Obviamente nadie va a seguir un partido por medio de vibraciones del móvil, pero por ejemplo puede servir para indicarte cuando se ha marcado un gol y tu proveedor de contenidos puede enviarte al instante (con esponsorización o pago) la imagen del gol....

En realidad, esta innovación es bastante más ambiciosa ya que apunta a introducir la experiencia táctil a la visual y sonora para la visión de contenidos en movilidad, algo que hará que se parezca cada vez más a la real....sin olvidar tampoco que las personas con deficiencias auditivas pueden usar este servicio para seguir un partido con más implicacion emocional, o sea la esencia del futbol...

¿Lo comprará alguien para la Liga española, alguna emisora de radio lo considerará interesante para complementar su oferta de restrasnmisión de futbol???....además es Made in Europe..