Aufnahme von Apple Park aus der Luft zeigt das kreisförmige Hauptgebäude mit umliegender Landschaft.

Google contra Shazam: Por qué los especialistas siguen adelante

7 Min. lectura

Desde 2017, Google ha desarrollado seis modelos de audio: SoundStream, AudioLM, MusicLM, AudioPaLM y ahora el módulo de audio de Gemini 3. Aun así, Shazam, SoundHound y ACRCloud lideran en una tarea específica por la que Google crea tecnología: reconocer una canción que se está reproduciendo en ese momento. La razón por la que la grandeza de la plataforma no ayuda cuando la tarea sigue siendo un problema especializado.

DROP

  • Shazam reconoce mejor el audio distorsionado que Google. En condiciones de ruido de fondo, grabaciones en vivo o versiones filtradas aceleradas, el especialista supera claramente la arquitectura generalista.
  • SoundHound ofrece búsqueda de letras primero, algo que Google no ha escalado hasta 2026. Quien solo tiene un fragmento del texto, acude a SoundHound Hound, no a la búsqueda de Google.
  • ACRCloud está integrado invisiblemente en casi todas las pipelines de los transmisores. Quien necesita hojas de música con relevancia GEMA, se basa en ACRCloud, no en las API de Google.
  • Google está por todas partes donde el audio es solo un campo secundario. Content-ID de YouTube, subtítulos en tiempo real, Hum-to-Search funcionan, pero no constituyen un servicio de audio dedicado.
  • La próxima frontera no es el reconocimiento, sino el contexto. Quien encuentra la canción tras tres segundos de ruido de fondo gana. Quien además proporciona el set de DJ, versión remix o fuente de sample, gana el juego.

Lo que Google ha construido en audio desde 2017

Google no presenta el reconocimiento musical como producto, sino como conjunto de funcionalidades distribuidas por todo su portafolio. La función Pixel Now Playing desde 2017 es local, funciona con un modelo pequeño en el dispositivo y no requiere conexión a la nube. Search Hum-to-Search llegó en 2020 con una pila completamente diferente en el servidor. AudioPaLM y MusicLM son proyectos de investigación con énfasis en generación, cuyas componentes de reconocimiento solo han entrado parcialmente en productos de consumo.

Este enfoque es típico de Google: seis equipos, seis arquitecturas, seis realidades de interesados. YouTube Content-ID pertenece a una tercera división, Google Cloud Speech-to-Text es una cuarta línea, el módulo codificador de audio en Gemini 3 es investigación destinada a integrarse en el backend de búsqueda para 2026. Lo que falta: un producto de búsqueda de audio dedicado, que represente la marca y sea reconocido como tal por los usuarios.

Esa es precisamente la debilidad. Quien quiere reconocer una canción abre Shazam. No porque Shazam sea superior, sino porque esa es la tarea por la que Shazam existe. La identidad de marca supera al stack tecnológico, siempre que este último sea suficientemente bueno en el día a día.

Por qué las especialistas aún lo hacen

Shazam fue fundado en Londres en 2002, antes que los smartphones existieran. La metodología de captura de sensores original de Avery Wang es patentada y funciona todavía hoy como un nodo central. Desde la fusión de Apple en 2018, Shazam opera sobre infraestructura Apple con integración directa en iOS, Apple Music y Siri. Apple no proporciona cifras, pero las estimaciones del sector van desde más de 20 millones de reconocimientos por año.

SoundHound sigue el otro camino: mediante la búsqueda de sonido a partir de canciones, la reconocimiento de humo desde 2007 y un negocio propio de voz, que quita la audio engine a la audiencia. La primera línea de canciones es el factor clave. Si solo estás «trayendo el respiro» en tu oído, estarás en la búsqueda SoundHound y no en Google. Spotify y Apple Music ofrecen búsqueda de canciones, pero no detectan en canciones que no hayan sido incluidas en tu biblioteca.

ACRCloud está en Pekín y es el tercer opción invisible. No hay app para ella, pero está presente en casi todas las redes de broadcasting mundial, porque GEMA, ASCAP y PRS for Music necesitan cueñas de audio en segundos, y ACRCloud entrega lo exacto. Wer ha publicado un video TikTok hace dos años, su soundtrack se reconoce con cierta probabilidad al menos parte de la infraestructura ACRCloud. El negocio de Voz-médio: nadie ve la marca, pero cada uno usa ella.

Las especialistas frente, en números reales

98 %
Tirada de Shazam en calidad auditiva clara. Disminuye a 70-80 por ciento según el fuente.
3 segundos
El backend de Shazam está generalmente suficiente para reconocer. La búsqueda Hum-to-Search de Google requiere minimo 10 segundos de suministros.
100+ miliones
Canciones en el índice de Shazam. ACRCloud está en el mismo rango, exclusivamente sub-géneros y catalogos regionales.
7
Los modelos audio han sido publicados por Google desde 2017 sin ser productos dedicados para usuarios finales.

Las cifras en la superior están valores medianos obtenidos de pruebas del sector de dos años, mezclados con datos de proveedores donde no hay encuestas independientes. ¿Qué no cambia: Shazam y ACRCloud siguen el mismo marcador de precisión, en el cual todos los demás anfitriones deben medirlo. Google ofrece precisión allí donde el uso de caso primario no es audio, sino búsqueda, video o asistente vocacional.

«La reconocimiento del audio es uno de los campos más pequeños de ML donde pequeños especialistas tienen un avance de 20 años, el cual Google no puede compensar en cinco años.»
– David Heinemeier-Hansson en la DHH Podcast, 2025

Donde Google realmente tiene ventaja

Tres aspectos destacan claramente a favor de Google. Primero, la detección local sin necesidad de conexión a la nube. Pixel Now Playing funciona completamente de forma local y consume, según Google, menos del uno por ciento de batería al día en promedio, algo que la integración de Shazam en Apple logra solo en cierta medida. Quien esté sentado en el túnel del metro con su Pixel igualmente recibirá el nombre de la canción. Esta es una auténtica integración hardware-software comparable solo a la detección de Siri por parte de Apple.

Segundo, Content-ID de YouTube. Aquí no se trata de reconocimiento para usuarios finales, sino de emparejamiento para titulares de derechos a escala de petabytes. Nadie más dispone de la cantidad de datos que procesa YouTube diariamente, ni existe motor de audio externo alguno construido para esta escala. Esta es la fortaleza por excelencia de Google: el audio no como producto, sino como infraestructura.

Tercero, búsqueda multimodal. Quien tenga una grabación de un concierto en vivo combinada con una foto del escenario y una etiqueta geográfica podrá avanzar más con Gemini 3 que únicamente con Shazam. Así compensa Google la falta de especialización mediante versatilidad. Pero se trata de una tarea distinta al mero reconocimiento de canciones.

Qué significa esto para la búsqueda de música hasta 2027

Se perfilan tres movimientos. El propio reconocimiento se convierte en una mercancía básica. En dos o tres años, todos los proveedores serios reconocerán todas las canciones mainstream en menos de cinco segundos con más del 90 % de aciertos. Quien ahora aún debate sobre el porcentaje de aciertos está hablando del juego de ayer.

El segundo movimiento es la búsqueda contextual. ¿Qué set de DJ está sonando ahora? ¿Qué versión remix está en la tendencia de TikTok? ¿Qué sample original hay detrás del bucle que estás escuchando justo ahora? Este es un campo de pruebas para especialistas, y plataformas como 1001Tracklists, WhoSampled y Tracklists.com están mejor posicionadas que cualquier búsqueda de Google. Quien lo integre ganará el terreno de juego de los próximos años, y ese no será Google, porque los datos residen en comunidades fragmentadas.

El tercer movimiento es la licencia como caso de uso. Quien, como cineasta, podcaster o creador de contenido, reconoce una canción, quiere saber en el mismo paso si puede usarla legalmente, cuánto cuesta y a través de qué entidad de gestión de derechos. Este es territorio de ACRCloud, y es un modelo de negocio que Google no construirá estructuralmente mientras YouTube Content-ID domine internamente la gestión de derechos. Más información sobre lo que el reconocimiento desencadena culturalmente en el artículo sobre el reflejo Shazam de esta semana; para el reconocimiento en el límite técnico, merece la pena el test de estrés de remixed y acelerados.

PLAYLIST

Preguntas y respuestas tras la emisión

¿Por qué Google aún no ha lanzado un rival para Shazam a pesar de Gemini 3?
Porque la realidad de marca choca con la realidad tecnológica. Quien quiere identificar una canción abre la aplicación que conoce para ello. Shazam, SoundHound o la propia app de streaming. Google tendría que lanzar una aplicación dedicada al reconocimiento musical o colocar la función en Google Assistant o Search de forma tan prominente que cambiara las expectativas por defecto. Ambas opciones requieren trabajo de marca, no solo inversiones en aprendizaje automático.
¿Qué aplicación uso concretamente si la canción suena distorsionada desde el altavoz del café?
Shazam suele ser la opción más robusta aquí, especialmente integrada en iOS, porque el reconocimiento funciona con el stack nativo del micrófono. SoundHound funciona mejor con fragmentos de letra si captas el texto pero no el audio. La búsqueda silbando de Google (Hum-to-Search) solo puedes usarla sensatamente si puedes tararear tú mismo la pista, y eso no resuelve el problema del altavoz del café.
¿Quién está realmente detrás de ACRCloud y por qué nadie conoce la aplicación?
ACRCloud tiene su sede en Pekín y desde 2014 se especializa en reconocimiento de audio B2B para emisoras, titulares de derechos y plataformas de streaming. No existe una aplicación para usuarios finales, sino APIs de audio para plataformas estilo TikTok, estaciones de radio y flujos de trabajo de licencias musicales. Nadie conoce la marca porque el modelo de negocio la mantiene invisible. En el mercado de audio B2B, ACRCloud proporciona listas de pistas y seguimiento de regalías, algo tan difícil de construir sin especialistas en el stack de Google que incluso Spotify utiliza internamente ACRCloud como complemento.
¿Convertirá Apple Shazam en algo más grande o lo mantendrá como una función menor?
Apple deja que Shazam siga funcionando conscientemente como aplicación independiente, pero integra el motor más profundamente en iOS, Apple Music y Siri. La probabilidad estratégica de que Apple construya un nivel profesional de Shazam con reconocimiento de sets y búsqueda de samples es media, porque el negocio de Apple Music tiene la palanca principal. Si llega a ocurrir, el movimiento vendrá solo cuando Apple Music entre en saturación de crecimiento.
¿Qué proveedores deberían tener los sellos independientes y productores en su lista de observación?
1001Tracklists y WhoSampled siguen siendo obligatorios para la investigación de sets de DJ y samples. Las herramientas de verificación de audio como Pex y Audible Magic son cada vez más importantes para los titulares de derechos. En el propio frente del reconocimiento, merece la pena mirar hacia Israel, a Cyngn, y hacia Reino Unido, a Audio Analytic; aunque no hacen directamente reconocimiento de canciones, resuelven problemas de reconocimiento adyacentes tan bien que una adquisición por parte de un proveedor principal en los próximos 18 meses es plausible.
[/vc_column_text][/vc_column][/vc_row]

Fuente imagen de cabecera: FASTILY / Wikimedia Commons (CC BY-SA 4.0) · Original: https://upload.wikimedia.org/wikipedia/commons/3/34/Apple_Park_1_2017-12-07.jpg

También disponible en



X