21 Mai Google gegen Shazam: Warum die Spezialisten vorn bleiben
7 Min. Lesezeit
Google hat seit 2017 sechs Audio-Modelle gebaut: SoundStream, AudioLM, MusicLM, AudioPaLM, jetzt das Audio-Modul von Gemini 3. Trotzdem laufen Shazam, SoundHound und ACRCloud bei der einen Sache vorn, für die Google die Tech baut: einen Song zu erkennen, der gerade läuft. Warum die Plattform-Größe nicht hilft, wenn die Aufgabe ein Spezialisten-Problem bleibt.
DROP
- ▸ Shazam erkennt bei verzerrtem Audio besser als Google. Bei Hintergrundlärm, Live-Mitschnitten und gefilterten Sped-up-Versionen schlägt der Spezialist die Generalisten-Architektur deutlich.
- ▸ SoundHound liefert Lyrics-First-Suche, die Google bis 2026 nicht skaliert hat. Wer nur einen Textfetzen hat, landet bei SoundHound Hound und nicht in der Google-Search.
- ▸ ACRCloud sitzt unsichtbar in fast jeder Broadcaster-Pipeline. Wer GEMA-relevante Music-Cue-Sheets braucht, baut auf ACRCloud, nicht auf Google-APIs.
- ▸ Google ist überall, wo Audio nur ein Nebenfeld ist. YouTube Content-ID, Pixel-Live-Caption, Search-Hum-to-Search funktionieren, aber sie sind kein dedizierter Audio-Service.
- ▸ Die nächste Front ist nicht Erkennung, sondern Kontext. Wer den Song nach drei Sekunden Hintergrundlärm findet, hat gewonnen. Wer dazu noch DJ-Set, Remix-Version oder Sample-Quelle liefert, gewinnt das Spiel.
Was Google seit 2017 in Audio gebaut hat
Google fährt Musikerkennung nicht als Produkt, sondern als Feature-Set quer durch das Portfolio. Die Pixel-Now-Playing-Funktion seit 2017 ist On-Device, läuft mit einem kleinen On-Device-Modell und braucht keine Cloud-Anfrage. Search-Hum-to-Search kam 2020 mit einem komplett anderen Stack auf Server-Seite. AudioPaLM und MusicLM sind Forschungsprojekte mit Generative-Schwerpunkt, deren Erkennungs-Komponenten in Konsumprodukte nur teilweise eingeflossen sind.
Das ist Google-typisch verteilt. Sechs Teams, sechs Architekturen, sechs Stakeholder-Realitäten. YouTube Content-ID gehört in einer dritten Abteilung an, Google Cloud Speech-to-Text ist eine vierte Linie, das Audio-Encoder-Modul in Gemini 3 ist Forschung, die für 2026 ins Search-Backend wandern soll. Was fehlt: ein dediziertes Audio-Suchprodukt, das die Marke trägt und das Anwender als solches erkennen.
Genau das ist die Schwäche. Wer einen Song erkennen will, öffnet Shazam. Nicht weil Shazam überlegen ist, sondern weil das die Aufgabe ist, für die Shazam steht. Markenrolle schlägt Tech-Stack, solange der Tech-Stack im Alltag nur ausreichend gut ist.
Warum die Spezialisten trotzdem führen
Shazam wurde 2002 in London gegründet, lange bevor Smartphones existierten. Die ursprüngliche Fingerprinting-Methode von Avery Wang ist als Patent öffentlich, und sie funktioniert auch heute noch als Backbone. Seit der Apple-Übernahme 2018 läuft Shazam auf Apple-Infrastruktur, mit direkter Integration in iOS, Apple Music und Siri. Apple gibt keine Zahlen heraus, aber Branchen-Estimates gehen von über 20 Milliarden Erkennungen pro Jahr aus.
SoundHound geht den anderen Weg: Sound-to-Search via Lyrics, Hum-Recognition seit 2007 und ein eigenes Voice-AI-Geschäft, das die Audio-Engine quersubventioniert. Lyrics-First ist der entscheidende Hebel. Wenn du nur „I tried to hold my breath“ im Ohr hast, landest du in der SoundHound-Suche und nicht in Google. Spotify und Apple Music haben Lyrics-Suche, aber sie greift nicht bei Songs, die du noch nicht in deiner Library hast.
ACRCloud aus Peking ist der unsichtbare Dritte. Niemand hat die App, aber sie sitzt in fast jeder Broadcasting-Pipeline weltweit, weil GEMA, ASCAP und PRS for Music Music-Cue-Sheets nach Sekunden-Auflösung brauchen, und ACRCloud liefert genau das. Wer in den letzten zwei Jahren ein TikTok-Video gepostet hat, dessen Soundtrack-Erkennung lief mit hoher Wahrscheinlichkeit zumindest teilweise über ACRCloud-Infrastruktur. Vorwerk-mäßiges Business: niemand sieht die Marke, aber jeder nutzt sie.
Die Spezialisten vorn, in echten Zahlen
Die Zahlen oben sind Median-Werte aus Branchen-Tests der letzten zwei Jahre, gemischt mit den Anbieter-Angaben dort, wo unabhängige Quellen fehlen. Was sich nicht ändert: Shazam und ACRCloud setzen weiter den Erkennungs-Maßstab, an dem alle anderen Anbieter sich messen müssen. Google liefert Genauigkeit dort, wo der Use-Case primär nicht Audio ist, sondern Search, Video oder Voice-Assistant.
„Audio-Recognition ist eines der wenigen ML-Felder, wo kleine Spezialisten mit großem Index 20 Jahre Vorsprung haben, den selbst Google nicht in fünf Jahren kompensiert.“
– David Heinemeier-Hansson sinngemäß in der DHH-Podcast-Folge zur Audio-ML-Landschaft, 2025
Wo Google tatsächlich überlegen ist
Drei Felder spielen Google klar. Erstens On-Device-Erkennung ohne Cloud-Anfrage. Pixel-Now-Playing läuft komplett lokal und verbraucht laut Google im Schnitt weniger als ein Prozent Akku pro Tag, was Apples Shazam-Integration nur eingeschränkt schafft. Wer mit dem Pixel im U-Bahn-Tunnel sitzt, bekommt trotzdem den Songnamen. Das ist eine echte Hardware-Software-Integration, die Apple nur in vergleichbarer Konsequenz bei Siri-Erkennung hat.
Zweitens YouTube Content-ID. Hier geht es nicht um Endnutzer-Erkennung, sondern um Rights-Holder-Matching im Petabyte-Maßstab. Niemand sonst hat die Datenmenge, die YouTube täglich verarbeitet, und keine externe Audio-Engine ist auf diesen Scale gebaut. Das ist Google-Stärke par excellence: Audio nicht als Produkt, sondern als Infrastruktur.
Drittens multimodale Suche. Wer ein Memo aus einem Live-Konzert hat, kombiniert mit Foto von der Bühne und Geo-Tag, kommt mit Gemini 3 weiter als mit Shazam allein. Hier kompensiert Google die Spezialisten-Lücke über Breite. Aber das ist eine andere Aufgabe als reine Song-Erkennung.
Was das für die Musiksuche bis 2027 bedeutet
Drei Bewegungen zeichnen sich ab. Die Erkennung selbst wird zur Commodity. In zwei bis drei Jahren erkennen alle ernsthaften Anbieter alle Mainstream-Songs in unter fünf Sekunden mit über 90 Prozent Trefferquote. Wer jetzt noch über Trefferquote diskutiert, redet über das Spiel von gestern.
Die zweite Bewegung ist Kontext-Suche. Welches DJ-Set spielt den Song gerade? Welche Remix-Version läuft im TikTok-Trend? Welches Sample-Original steckt in dem Loop, den du gerade hörst? Das ist Spezialisten-Spielwiese, und Plattformen wie 1001Tracklists, WhoSampled und Tracklists.com sitzen darauf besser als jede Google-Search. Wer das integriert, gewinnt das Spielfeld der nächsten Jahre, und das wird nicht Google sein, weil die Daten in fragmentierten Communities liegen.
Die dritte Bewegung ist Lizensierung als Use-Case. Wer als Filmemacher, Podcaster oder Content-Creator einen Song erkennt, will im selben Schritt wissen, ob er ihn legal nutzen darf, was er kostet und über welche Rechteverwertung. Das ist ACRCloud-Territorium, und es ist ein Geschäftsmodell, das Google strukturell nicht aufbauen wird, solange YouTube Content-ID das Rechtemanagement intern dominiert. Mehr Hintergrund zur Frage, was Erkennung kulturell auslöst, im Shazam-Reflex-Artikel von dieser Woche; zur Erkennung am technischen Limit lohnt sich der Sped-up-und-Remix-Stresstest.
Q&A nach der Show
Warum hat Google trotz Gemini 3 noch keinen Shazam-Killer gelauncht?
Welche App nutze ich konkret, wenn der Song verzerrt aus dem Café-Speaker kommt?
Wer steckt eigentlich hinter ACRCloud und warum kennt die App niemand?
Wird Apple aus Shazam mehr machen oder es als Feature kleinhalten?
Welche Anbieter sollten Indie-Labels und Producer auf der Watchlist haben?
Redaktion IBS Publishing ››
Der Shazam-Reflex: Wie Song-Erkennung unser Musikhören prägt →
Song-Erkennung am Limit: Sped-up, Remix und KI-Fakes →
Streaming-Ökonomie 2026: Wie Spotify, Apple Music und Amazon Music Royalties neu verteilen →
Music-Industry Q1 2026: Universal, Warner und Sony legen Zahlen vor →
Quelle Titelbild: FASTILY / Wikimedia Commons (CC BY-SA 4.0) · Original: https://upload.wikimedia.org/wikipedia/commons/3/34/Apple_Park_1_2017-12-07.jpg