21 May Google contra Shazam: Por qué los especialistas siguen adelante
7 Min. lectura
Desde 2017, Google ha desarrollado seis modelos de audio: SoundStream, AudioLM, MusicLM, AudioPaLM y ahora el módulo de audio de Gemini 3. Aun así, Shazam, SoundHound y ACRCloud lideran en una tarea específica por la que Google crea tecnología: reconocer una canción que se está reproduciendo en ese momento. La razón por la que la grandeza de la plataforma no ayuda cuando la tarea sigue siendo un problema especializado.
DROP
- ▸ Shazam reconoce mejor el audio distorsionado que Google. En condiciones de ruido de fondo, grabaciones en vivo o versiones filtradas aceleradas, el especialista supera claramente la arquitectura generalista.
- ▸ SoundHound ofrece búsqueda de letras primero, algo que Google no ha escalado hasta 2026. Quien solo tiene un fragmento del texto, acude a SoundHound Hound, no a la búsqueda de Google.
- ▸ ACRCloud está integrado invisiblemente en casi todas las pipelines de los transmisores. Quien necesita hojas de música con relevancia GEMA, se basa en ACRCloud, no en las API de Google.
- ▸ Google está por todas partes donde el audio es solo un campo secundario. Content-ID de YouTube, subtítulos en tiempo real, Hum-to-Search funcionan, pero no constituyen un servicio de audio dedicado.
- ▸ La próxima frontera no es el reconocimiento, sino el contexto. Quien encuentra la canción tras tres segundos de ruido de fondo gana. Quien además proporciona el set de DJ, versión remix o fuente de sample, gana el juego.
Lo que Google ha construido en audio desde 2017
Google no presenta el reconocimiento musical como producto, sino como conjunto de funcionalidades distribuidas por todo su portafolio. La función Pixel Now Playing desde 2017 es local, funciona con un modelo pequeño en el dispositivo y no requiere conexión a la nube. Search Hum-to-Search llegó en 2020 con una pila completamente diferente en el servidor. AudioPaLM y MusicLM son proyectos de investigación con énfasis en generación, cuyas componentes de reconocimiento solo han entrado parcialmente en productos de consumo.
Este enfoque es típico de Google: seis equipos, seis arquitecturas, seis realidades de interesados. YouTube Content-ID pertenece a una tercera división, Google Cloud Speech-to-Text es una cuarta línea, el módulo codificador de audio en Gemini 3 es investigación destinada a integrarse en el backend de búsqueda para 2026. Lo que falta: un producto de búsqueda de audio dedicado, que represente la marca y sea reconocido como tal por los usuarios.
Esa es precisamente la debilidad. Quien quiere reconocer una canción abre Shazam. No porque Shazam sea superior, sino porque esa es la tarea por la que Shazam existe. La identidad de marca supera al stack tecnológico, siempre que este último sea suficientemente bueno en el día a día.
Por qué las especialistas aún lo hacen
Shazam fue fundado en Londres en 2002, antes que los smartphones existieran. La metodología de captura de sensores original de Avery Wang es patentada y funciona todavía hoy como un nodo central. Desde la fusión de Apple en 2018, Shazam opera sobre infraestructura Apple con integración directa en iOS, Apple Music y Siri. Apple no proporciona cifras, pero las estimaciones del sector van desde más de 20 millones de reconocimientos por año.
SoundHound sigue el otro camino: mediante la búsqueda de sonido a partir de canciones, la reconocimiento de humo desde 2007 y un negocio propio de voz, que quita la audio engine a la audiencia. La primera línea de canciones es el factor clave. Si solo estás «trayendo el respiro» en tu oído, estarás en la búsqueda SoundHound y no en Google. Spotify y Apple Music ofrecen búsqueda de canciones, pero no detectan en canciones que no hayan sido incluidas en tu biblioteca.
ACRCloud está en Pekín y es el tercer opción invisible. No hay app para ella, pero está presente en casi todas las redes de broadcasting mundial, porque GEMA, ASCAP y PRS for Music necesitan cueñas de audio en segundos, y ACRCloud entrega lo exacto. Wer ha publicado un video TikTok hace dos años, su soundtrack se reconoce con cierta probabilidad al menos parte de la infraestructura ACRCloud. El negocio de Voz-médio: nadie ve la marca, pero cada uno usa ella.
Las especialistas frente, en números reales
Las cifras en la superior están valores medianos obtenidos de pruebas del sector de dos años, mezclados con datos de proveedores donde no hay encuestas independientes. ¿Qué no cambia: Shazam y ACRCloud siguen el mismo marcador de precisión, en el cual todos los demás anfitriones deben medirlo. Google ofrece precisión allí donde el uso de caso primario no es audio, sino búsqueda, video o asistente vocacional.
«La reconocimiento del audio es uno de los campos más pequeños de ML donde pequeños especialistas tienen un avance de 20 años, el cual Google no puede compensar en cinco años.»
– David Heinemeier-Hansson en la DHH Podcast, 2025
Donde Google realmente tiene ventaja
Tres aspectos destacan claramente a favor de Google. Primero, la detección local sin necesidad de conexión a la nube. Pixel Now Playing funciona completamente de forma local y consume, según Google, menos del uno por ciento de batería al día en promedio, algo que la integración de Shazam en Apple logra solo en cierta medida. Quien esté sentado en el túnel del metro con su Pixel igualmente recibirá el nombre de la canción. Esta es una auténtica integración hardware-software comparable solo a la detección de Siri por parte de Apple.
Segundo, Content-ID de YouTube. Aquí no se trata de reconocimiento para usuarios finales, sino de emparejamiento para titulares de derechos a escala de petabytes. Nadie más dispone de la cantidad de datos que procesa YouTube diariamente, ni existe motor de audio externo alguno construido para esta escala. Esta es la fortaleza por excelencia de Google: el audio no como producto, sino como infraestructura.
Tercero, búsqueda multimodal. Quien tenga una grabación de un concierto en vivo combinada con una foto del escenario y una etiqueta geográfica podrá avanzar más con Gemini 3 que únicamente con Shazam. Así compensa Google la falta de especialización mediante versatilidad. Pero se trata de una tarea distinta al mero reconocimiento de canciones.
Qué significa esto para la búsqueda de música hasta 2027
Se perfilan tres movimientos. El propio reconocimiento se convierte en una mercancía básica. En dos o tres años, todos los proveedores serios reconocerán todas las canciones mainstream en menos de cinco segundos con más del 90 % de aciertos. Quien ahora aún debate sobre el porcentaje de aciertos está hablando del juego de ayer.
El segundo movimiento es la búsqueda contextual. ¿Qué set de DJ está sonando ahora? ¿Qué versión remix está en la tendencia de TikTok? ¿Qué sample original hay detrás del bucle que estás escuchando justo ahora? Este es un campo de pruebas para especialistas, y plataformas como 1001Tracklists, WhoSampled y Tracklists.com están mejor posicionadas que cualquier búsqueda de Google. Quien lo integre ganará el terreno de juego de los próximos años, y ese no será Google, porque los datos residen en comunidades fragmentadas.
El tercer movimiento es la licencia como caso de uso. Quien, como cineasta, podcaster o creador de contenido, reconoce una canción, quiere saber en el mismo paso si puede usarla legalmente, cuánto cuesta y a través de qué entidad de gestión de derechos. Este es territorio de ACRCloud, y es un modelo de negocio que Google no construirá estructuralmente mientras YouTube Content-ID domine internamente la gestión de derechos. Más información sobre lo que el reconocimiento desencadena culturalmente en el artículo sobre el reflejo Shazam de esta semana; para el reconocimiento en el límite técnico, merece la pena el test de estrés de remixed y acelerados.
Preguntas y respuestas tras la emisión
¿Por qué Google aún no ha lanzado un rival para Shazam a pesar de Gemini 3?
¿Qué aplicación uso concretamente si la canción suena distorsionada desde el altavoz del café?
¿Quién está realmente detrás de ACRCloud y por qué nadie conoce la aplicación?
¿Convertirá Apple Shazam en algo más grande o lo mantendrá como una función menor?
¿Qué proveedores deberían tener los sellos independientes y productores en su lista de observación?
Redacción IBS Publishing ››
El reflejo Shazam: cómo el reconocimiento de canciones moldea nuestra escucha musical →
Reconocimiento de canciones al límite: Sped-up, Remix y falsificaciones de IA →
Economía del streaming 2026: cómo Spotify, Apple Music y Amazon Music redistribuyen las regalías →
Industria musical T1 2026: Universal, Warner y Sony presentan cifras →
Fuente imagen de cabecera: FASTILY / Wikimedia Commons (CC BY-SA 4.0) · Original: https://upload.wikimedia.org/wikipedia/commons/3/34/Apple_Park_1_2017-12-07.jpg