Aufnahme von Schallplatten und einem Audio-Interface auf einem Schreibtisch zeigt eine tonoptimierte Arbeitsumgebung.

16 Mai Song-Erkennung am Limit: Sped-up, Remix und KI-Fakes

Posted at 10:51h in Szene & Kultur by Sonja Höslmeier

▶ 6:40 Lesezeit · Stand: Mai 2026

Du hörst einen Song in einem TikTok, hältst dein Handy an den Lautsprecher und die App sagt: kein Treffer. Dabei kennst du das Lied. Du hast es schon hundertmal gehört. Das Problem ist nicht deine App. Das Problem ist, dass der Clip 1,3-fach beschleunigt läuft und damit ist der Song für die Erkennung ein anderer geworden.

DROP

▸ Klassische Erkennung wie Shazam vergleicht einen akustischen Fingerabdruck. Verschiebt sich Tonhöhe oder Tempo, passt der Abdruck nicht mehr.
▸ Sped-up- und Slowed-Reverb-Edits sind auf TikTok Alltag. Genau die quittiert die App oft mit kein Treffer.
▸ Shazam zählt laut Apple über 100 Milliarden Erkennungen. Die Technik dahinter stammt aus einer Zeit vor dem Edit-Zeitalter.
▸ Das neue Rätsel: KI-generierte Tracks, die es als Original gar nicht gibt.
▸ Google und Apple bauen die Erkennung gerade um: weg vom starren Fingerabdruck, hin zu lernenden Modellen.

Wie Song-Erkennung eigentlich funktioniert

Wenn du Shazam auf einen Song hältst, hört die App nicht zu wie ein Mensch. Sie zeichnet ein paar Sekunden Ton auf und rechnet daraus ein Spektrogramm: eine Landkarte aus Frequenzen über die Zeit. In dieser Landkarte sucht der Algorithmus die lautesten Frequenzspitzen und fügt sie zu einem Muster zusammen. Dieses Muster ist der Fingerabdruck. Er wird gegen eine riesige Datenbank abgeglichen. Passen genug Punkte zusammen, hast du deinen Treffer.

Das Verfahren ist robust gegen Störungen. Es funktioniert in einer lauten Bar, mit Stimmengewirr im Hintergrund und einem mittelmäßigen Handy-Mikrofon. Genau deshalb hat es funktioniert, seit Shazam 2002 als SMS-Dienst startete. Der Haken: Der Fingerabdruck beschreibt eine ganz bestimmte Aufnahme. Nicht den Song als Idee, sondern diese eine Datei.

Was ist Audio-Fingerprinting? Audio-Fingerprinting wandelt einen Tonausschnitt in ein kompaktes Muster aus markanten Frequenzpunkten um. Dieses Muster wird mit einer Datenbank abgeglichen, um eine Aufnahme eindeutig zu identifizieren. Es erkennt eine konkrete Datei zuverlässig wieder, nicht aber eine veränderte Version desselben Songs.

Warum sped-up und slowed die App austricksen

Hier wird es konkret. Ein Sped-up-Edit beschleunigt den Song, meistens um 10 bis 30 Prozent. Dabei steigt nicht nur das Tempo, sondern auch die Tonhöhe. Aus einem Track in A-Dur wird einer, der eine Spur höher klingt. Für dein Ohr ist es derselbe Song, schneller und greller. Für den Fingerabdruck ist es ein fremdes Muster: Die Frequenzspitzen liegen alle woanders, das Timing zwischen ihnen stimmt nicht mehr.

Slowed-Reverb dreht es um. Der Song wird verlangsamt, klingt tiefer und bekommt einen Hall-Teppich obendrauf. Auch das verschiebt die ganze Frequenz-Landkarte. Die App sucht ein Muster, das in dieser Form nie in der Datenbank stand. Sie kann den Song nicht finden, weil sie streng genommen einen anderen sucht.

Das ist kein Randfall mehr. Auf TikTok ist die beschleunigte Version oft die einzige, die ein Song-Snippet je bekommt. Ganze Tracks sind über ihre Sped-up-Fassung viral gegangen, während die Originalaufnahme im Schatten blieb. Wer dann zur Erkennungs-App greift, fragt nach einer Version, die es offiziell gar nicht gibt.

100 Mrd+

Shazam-Erkennungen seit Start (Apple-Angabe)

10-30 %

typische Tempo-Erhöhung bei Sped-up-Edits

2002

Shazam startet, lange vor dem Edit-Zeitalter

Remixes, Mashups und Live-Versionen: die alten blinden Flecken

Sped-up ist nur die jüngste Variante eines Problems, das es immer gab. Eine Live-Aufnahme klingt anders als die Studioversion: anderes Tempo, andere Halligkeit, Publikum dazwischen. Ein Remix baut den Track teilweise neu. Ein Mashup legt zwei Songs übereinander. In all diesen Fällen hört dein Ohr eine Verbindung zum Original, der Fingerabdruck aber nicht.

Deshalb erkennt eine App eine Festival-Aufnahme deines Lieblingstracks oft nicht, obwohl der Studio-Song längst in der Datenbank steht. Sie sucht exakt diese eine Aufnahme. Eine Coverversion einer Indie-Band, ein DJ-Edit, ein Bootleg-Mitschnitt: alles Lücken. Die Erkennung ist extrem gut darin, eine bekannte Datei wiederzufinden. Sie ist schlecht darin, einen Song in einer neuen Gestalt zu erkennen.

Das neue Problem: erkennt die App einen KI-Song?

Es gibt eine Lücke, die vor zwei Jahren noch niemand auf dem Schirm hatte. Was passiert, wenn der Song, den du erkennen willst, von einer KI stammt? Streaming-Dienste melden inzwischen, dass ein zweistelliger Prozentsatz der täglich hochgeladenen Tracks vollständig KI-generiert ist. Deezer etwa hat öffentlich gemacht, dass ein erheblicher Teil der täglichen Uploads aus KI-Produktion kommt.

Für die Erkennung heißt das zweierlei. Erstens: Ein KI-Track, der gerade erst hochgeladen wurde, hat noch keinen Eintrag in der Datenbank. Die App findet nichts, weil es nichts zu finden gibt. Zweitens, heikler noch: KI-Tools können Stücke ausspucken, die klingen wie ein bestimmter Künstler, ohne dass je ein echtes Original existierte. Die Frage ist dann nicht mehr nur welcher Song ist das, sondern ist das überhaupt ein Song von einem Menschen.

Genau hier verschiebt sich die Aufgabe. Erkennung war jahrelang ein reines Zuordnungs-Problem. Jetzt wird sie auch zu einer Echtheits-Frage. Manche Dienste arbeiten bereits an Filtern, die KI-Tracks markieren sollen. Verlässlich ist das noch nicht.

Eine Erkennungs-App war immer ein Versprechen: Halt mich an die Musik, ich sage dir den Namen. Das Versprechen hält nur, solange Musik eine feste Datei ist. Genau das ist sie gerade nicht mehr.

Was Shazam und Google gerade dagegen bauen

Die Antwort der großen Anbieter ist ein Technikwechsel. Statt nur starre Fingerabdrücke zu vergleichen, setzen sie auf lernende Modelle. Google Hum to Search ist das bekannteste Beispiel: Du summst eine Melodie und das System findet den Song, obwohl dein Summen weder die richtige Tonhöhe noch das richtige Tempo noch ein Instrument hat. Das funktioniert, weil das Modell nicht ein Spektrogramm sucht, sondern eine abstrakte Darstellung der Melodie.

Diese Darstellung nennt sich Embedding. Vereinfacht: Das System lernt, was den Kern eines Songs ausmacht. Es ignoriert dabei genau die Dinge, an denen klassisches Fingerprinting scheitert. Tempo, Tonhöhe, Klangfarbe werden zweitrangig. Übrig bleibt die musikalische Idee. Ein solches Modell hat eine echte Chance, die Sped-up-Version und das Original als denselben Song zu erkennen.

Der Umbau ist nicht abgeschlossen. Klassisches Fingerprinting bleibt schnell und sparsam und ist für den klaren Fall weiter im Einsatz. Die lernenden Modelle kommen dort dazu, wo es unscharf wird. Die Erkennung wird also nicht ersetzt, sie bekommt eine zweite Schicht.

Was das für dich beim Musikfinden ändert

Praktisch heißt das: Wenn die App bei einem TikTok-Sound keinen Treffer findet, liegt es selten an dir. Probier in dem Fall zwei Dinge. Erstens, such direkt in der App nach einer Textzeile, die du verstanden hast. Songtext-Suche ist gegen Tempo-Edits unempfindlich. Zweitens, nutz die Summen-Funktion, wenn du die Melodie im Kopf hast, statt den verzerrten Clip abzuspielen.

Und der größere Punkt: Song-Erkennung war lange ein gelöstes Problem, über das niemand mehr nachdachte. Das ist vorbei. Solange Musik in Edits zerlegt, beschleunigt, neu zusammengesetzt und von Maschinen erzeugt wird, bleibt die Erkennung eine Baustelle. Die nächste Generation der Apps wird weniger fragen welche Datei ist das und mehr welcher Song steckt dahinter. Das ist ein Unterschied, den du in den nächsten Jahren merken wirst.

Playlist zum Hineinhören

Drei Tracks, die 2024 und 2025 vor allem über TikTok-Edits ihre Reichweite fanden. Hör mal die Originalversion und stell dir vor, du hältst die Erkennungs-App an die beschleunigte Fassung.

Travis Scott – FE!N
▶ Spotify

Kendrick Lamar – Not Like Us
▶ Spotify

Billie Eilish – BIRDS OF A FEATHER
▶ Spotify

Q&A nach der Show

Klick auf eine Frage um die Antwort aufzuklappen.

Warum erkennt Shazam einen Sped-up-Song nicht?

Weil das Beschleunigen auch die Tonhöhe verschiebt. Shazam vergleicht einen Fingerabdruck aus festen Frequenzpunkten. Bei einem Sped-up-Edit liegen diese Punkte alle woanders, also passt der Abdruck nicht mehr zur Originalaufnahme in der Datenbank.

Wie finde ich einen Song aus einem TikTok trotzdem?

Zwei Wege funktionieren auch bei beschleunigten Clips: die Suche nach einer verstandenen Textzeile und die Summen-Funktion, etwa Google Hum to Search. Beide ignorieren Tempo und Tonhöhe und kommen so an den Edit-Verzerrungen vorbei.

Erkennt eine App auch KI-generierte Songs?

Nur wenn der Track schon in der Datenbank steht. Frisch hochgeladene KI-Songs haben keinen Eintrag und werden nicht gefunden. Ob ein Stück überhaupt von einer KI stammt, beantwortet klassische Erkennung gar nicht. Daran arbeiten die Dienste erst.

Warum findet Shazam eine Live-Version nicht?

Eine Live-Aufnahme hat ein anderes Tempo, andere Halligkeit und Publikumsgeräusche. Der Fingerabdruck beschreibt aber genau die Studioaufnahme. Solange die Live-Version nicht selbst in der Datenbank steht, bleibt sie für die App ein fremder Song.

Wird Song-Erkennung künftig besser mit Edits umgehen?

Wahrscheinlich ja. Google und Apple ergänzen das starre Fingerprinting um lernende Modelle, die nicht eine Datei suchen, sondern die musikalische Idee. Solche Embedding-Modelle haben eine echte Chance, Original und Sped-up-Version als denselben Song zu erkennen.