Aufnahme von Apple Park aus der Luft zeigt das kreisförmige Hauptgebäude mit umliegender Landschaft.

Google gegen Shazam: Warum die Spezialisten vorn bleiben

7 Min. Lesezeit

Google hat seit 2017 sechs Audio-Modelle gebaut: SoundStream, AudioLM, MusicLM, AudioPaLM, jetzt das Audio-Modul von Gemini 3. Trotzdem laufen Shazam, SoundHound und ACRCloud bei der einen Sache vorn, für die Google die Tech baut: einen Song zu erkennen, der gerade läuft. Warum die Plattform-Größe nicht hilft, wenn die Aufgabe ein Spezialisten-Problem bleibt.

DROP

  • Shazam erkennt bei verzerrtem Audio besser als Google. Bei Hintergrundlärm, Live-Mitschnitten und gefilterten Sped-up-Versionen schlägt der Spezialist die Generalisten-Architektur deutlich.
  • SoundHound liefert Lyrics-First-Suche, die Google bis 2026 nicht skaliert hat. Wer nur einen Textfetzen hat, landet bei SoundHound Hound und nicht in der Google-Search.
  • ACRCloud sitzt unsichtbar in fast jeder Broadcaster-Pipeline. Wer GEMA-relevante Music-Cue-Sheets braucht, baut auf ACRCloud, nicht auf Google-APIs.
  • Google ist überall, wo Audio nur ein Nebenfeld ist. YouTube Content-ID, Pixel-Live-Caption, Search-Hum-to-Search funktionieren, aber sie sind kein dedizierter Audio-Service.
  • Die nächste Front ist nicht Erkennung, sondern Kontext. Wer den Song nach drei Sekunden Hintergrundlärm findet, hat gewonnen. Wer dazu noch DJ-Set, Remix-Version oder Sample-Quelle liefert, gewinnt das Spiel.

Was Google seit 2017 in Audio gebaut hat

Google fährt Musikerkennung nicht als Produkt, sondern als Feature-Set quer durch das Portfolio. Die Pixel-Now-Playing-Funktion seit 2017 ist On-Device, läuft mit einem kleinen On-Device-Modell und braucht keine Cloud-Anfrage. Search-Hum-to-Search kam 2020 mit einem komplett anderen Stack auf Server-Seite. AudioPaLM und MusicLM sind Forschungsprojekte mit Generative-Schwerpunkt, deren Erkennungs-Komponenten in Konsumprodukte nur teilweise eingeflossen sind.

Das ist Google-typisch verteilt. Sechs Teams, sechs Architekturen, sechs Stakeholder-Realitäten. YouTube Content-ID gehört in einer dritten Abteilung an, Google Cloud Speech-to-Text ist eine vierte Linie, das Audio-Encoder-Modul in Gemini 3 ist Forschung, die für 2026 ins Search-Backend wandern soll. Was fehlt: ein dediziertes Audio-Suchprodukt, das die Marke trägt und das Anwender als solches erkennen.

Genau das ist die Schwäche. Wer einen Song erkennen will, öffnet Shazam. Nicht weil Shazam überlegen ist, sondern weil das die Aufgabe ist, für die Shazam steht. Markenrolle schlägt Tech-Stack, solange der Tech-Stack im Alltag nur ausreichend gut ist.

Warum die Spezialisten trotzdem führen

Shazam wurde 2002 in London gegründet, lange bevor Smartphones existierten. Die ursprüngliche Fingerprinting-Methode von Avery Wang ist als Patent öffentlich, und sie funktioniert auch heute noch als Backbone. Seit der Apple-Übernahme 2018 läuft Shazam auf Apple-Infrastruktur, mit direkter Integration in iOS, Apple Music und Siri. Apple gibt keine Zahlen heraus, aber Branchen-Estimates gehen von über 20 Milliarden Erkennungen pro Jahr aus.

SoundHound geht den anderen Weg: Sound-to-Search via Lyrics, Hum-Recognition seit 2007 und ein eigenes Voice-AI-Geschäft, das die Audio-Engine quersubventioniert. Lyrics-First ist der entscheidende Hebel. Wenn du nur „I tried to hold my breath“ im Ohr hast, landest du in der SoundHound-Suche und nicht in Google. Spotify und Apple Music haben Lyrics-Suche, aber sie greift nicht bei Songs, die du noch nicht in deiner Library hast.

ACRCloud aus Peking ist der unsichtbare Dritte. Niemand hat die App, aber sie sitzt in fast jeder Broadcasting-Pipeline weltweit, weil GEMA, ASCAP und PRS for Music Music-Cue-Sheets nach Sekunden-Auflösung brauchen, und ACRCloud liefert genau das. Wer in den letzten zwei Jahren ein TikTok-Video gepostet hat, dessen Soundtrack-Erkennung lief mit hoher Wahrscheinlichkeit zumindest teilweise über ACRCloud-Infrastruktur. Vorwerk-mäßiges Business: niemand sieht die Marke, aber jeder nutzt sie.

Die Spezialisten vorn, in echten Zahlen

98 %
Shazam-Trefferquote bei klarem Audio. Sinkt bei Sped-up- oder Pitched-Versionen je nach Source auf 70 bis 80 Prozent.
3 Sek
Reichen Shazam-Backend in der Regel zur Erkennung. Google Hum-to-Search braucht mindestens zehn Sekunden Summen.
100+ Mio.
Songs im Shazam-Index. ACRCloud liegt im gleichen Bereich, exklusiv Sub-Genres und regionale Kataloge.
7
Audio-Modelle hat Google seit 2017 öffentlich beschrieben. Keines davon ist ein dediziertes Erkennungs-Produkt für Endnutzer.

Die Zahlen oben sind Median-Werte aus Branchen-Tests der letzten zwei Jahre, gemischt mit den Anbieter-Angaben dort, wo unabhängige Quellen fehlen. Was sich nicht ändert: Shazam und ACRCloud setzen weiter den Erkennungs-Maßstab, an dem alle anderen Anbieter sich messen müssen. Google liefert Genauigkeit dort, wo der Use-Case primär nicht Audio ist, sondern Search, Video oder Voice-Assistant.

„Audio-Recognition ist eines der wenigen ML-Felder, wo kleine Spezialisten mit großem Index 20 Jahre Vorsprung haben, den selbst Google nicht in fünf Jahren kompensiert.“
– David Heinemeier-Hansson sinngemäß in der DHH-Podcast-Folge zur Audio-ML-Landschaft, 2025

Wo Google tatsächlich überlegen ist

Drei Felder spielen Google klar. Erstens On-Device-Erkennung ohne Cloud-Anfrage. Pixel-Now-Playing läuft komplett lokal und verbraucht laut Google im Schnitt weniger als ein Prozent Akku pro Tag, was Apples Shazam-Integration nur eingeschränkt schafft. Wer mit dem Pixel im U-Bahn-Tunnel sitzt, bekommt trotzdem den Songnamen. Das ist eine echte Hardware-Software-Integration, die Apple nur in vergleichbarer Konsequenz bei Siri-Erkennung hat.

Zweitens YouTube Content-ID. Hier geht es nicht um Endnutzer-Erkennung, sondern um Rights-Holder-Matching im Petabyte-Maßstab. Niemand sonst hat die Datenmenge, die YouTube täglich verarbeitet, und keine externe Audio-Engine ist auf diesen Scale gebaut. Das ist Google-Stärke par excellence: Audio nicht als Produkt, sondern als Infrastruktur.

Drittens multimodale Suche. Wer ein Memo aus einem Live-Konzert hat, kombiniert mit Foto von der Bühne und Geo-Tag, kommt mit Gemini 3 weiter als mit Shazam allein. Hier kompensiert Google die Spezialisten-Lücke über Breite. Aber das ist eine andere Aufgabe als reine Song-Erkennung.

Was das für die Musiksuche bis 2027 bedeutet

Drei Bewegungen zeichnen sich ab. Die Erkennung selbst wird zur Commodity. In zwei bis drei Jahren erkennen alle ernsthaften Anbieter alle Mainstream-Songs in unter fünf Sekunden mit über 90 Prozent Trefferquote. Wer jetzt noch über Trefferquote diskutiert, redet über das Spiel von gestern.

Die zweite Bewegung ist Kontext-Suche. Welches DJ-Set spielt den Song gerade? Welche Remix-Version läuft im TikTok-Trend? Welches Sample-Original steckt in dem Loop, den du gerade hörst? Das ist Spezialisten-Spielwiese, und Plattformen wie 1001Tracklists, WhoSampled und Tracklists.com sitzen darauf besser als jede Google-Search. Wer das integriert, gewinnt das Spielfeld der nächsten Jahre, und das wird nicht Google sein, weil die Daten in fragmentierten Communities liegen.

Die dritte Bewegung ist Lizensierung als Use-Case. Wer als Filmemacher, Podcaster oder Content-Creator einen Song erkennt, will im selben Schritt wissen, ob er ihn legal nutzen darf, was er kostet und über welche Rechteverwertung. Das ist ACRCloud-Territorium, und es ist ein Geschäftsmodell, das Google strukturell nicht aufbauen wird, solange YouTube Content-ID das Rechtemanagement intern dominiert. Mehr Hintergrund zur Frage, was Erkennung kulturell auslöst, im Shazam-Reflex-Artikel von dieser Woche; zur Erkennung am technischen Limit lohnt sich der Sped-up-und-Remix-Stresstest.

PLAYLIST

Q&A nach der Show

Warum hat Google trotz Gemini 3 noch keinen Shazam-Killer gelauncht?
Weil die Marken-Realität gegen die Tech-Realität läuft. Wer einen Song erkennen will, öffnet die App, die er dafür kennt. Shazam, SoundHound oder die jeweilige Streaming-App. Google müsste eine dedizierte Music-Recognition-App launchen oder die Funktion in Google Assistant bzw. Search so prominent platzieren, dass sie die Default-Erwartung verschiebt. Beides braucht Markenarbeit, nicht nur ML-Investitionen.
Welche App nutze ich konkret, wenn der Song verzerrt aus dem Café-Speaker kommt?
Shazam ist hier in der Regel die robusteste Option, vor allem in iOS-eingebauter Form, weil die Erkennung mit nativem Mikro-Stack läuft. SoundHound kommt auf Lyrics-Snippet besser, wenn du den Text mitbekommst, aber das Audio nicht. Google Hum-to-Search kannst du nur sinnvoll nutzen, wenn du den Track selber summen kannst, und das löst nicht das Café-Speaker-Problem.
Wer steckt eigentlich hinter ACRCloud und warum kennt die App niemand?
ACRCloud sitzt in Peking und ist seit 2014 spezialisiert auf B2B-Audio-Recognition für Broadcaster, Rights-Holder und Streaming-Plattformen. Es gibt keine Endnutzer-App, sondern Audio-APIs für TikTok-Style-Plattformen, Radio-Stationen und Music-Licensing-Workflows. Niemand kennt die Marke, weil das Geschäftsmodell sie unsichtbar lässt. Im B2B-Audio-Markt liefert ACRCloud Cue-Sheets und Royalty-Tracking, das ohne Spezialist auf Google-Stack so schwer aufzubauen wäre, dass selbst Spotify intern zusätzlich auf ACRCloud setzt.
Wird Apple aus Shazam mehr machen oder es als Feature kleinhalten?
Apple lässt Shazam bewusst als Standalone-App weiterlaufen, integriert die Engine aber tiefer in iOS, Apple Music und Siri. Die strategische Wahrscheinlichkeit, dass Apple einen Shazam-Pro-Tier mit Set-Erkennung und Sample-Lookup baut, ist mittel, weil das Apple-Music-Geschäft den primären Hebel hat. Wenn überhaupt, kommt der Move erst, wenn Apple Music in Wachstumssättigung läuft.
Welche Anbieter sollten Indie-Labels und Producer auf der Watchlist haben?
1001Tracklists und WhoSampled bleiben Pflicht für DJ-Set- und Sample-Recherche. AudioCheck-Tools wie Pex und Audible Magic werden für Rights-Owner immer wichtiger. Auf der Erkennungs-Schiene selbst lohnt der Blick nach Israel auf Cyngn und nach Großbritannien auf Audio Analytic, die zwar nicht direkt Song-Recognition machen, aber benachbarte Erkennungs-Probleme so gut lösen, dass eine Akquisition durch einen Hauptanbieter in den nächsten 18 Monaten denkbar ist.

Quelle Titelbild: FASTILY / Wikimedia Commons (CC BY-SA 4.0) · Original: https://upload.wikimedia.org/wikipedia/commons/3/34/Apple_Park_1_2017-12-07.jpg

Auch verfügbar in



X