21 Feb. Lied erkennen durch Summen: So funktioniert Google Hum to Search
▶ 5:48 Lesezeit
Du hast eine Melodie im Kopf. Sie läuft seit Stunden auf Repeat, du kennst den Refrain auswendig, du kannst ihn summen. Aber der Songname? Weg. Der Interpret? Keine Ahnung. Google hat 2020 ein Feature vorgestellt, das genau dieses Problem löst: Hum to Search. Du summst, pfeifst oder singst in dein Smartphone – und Google erkennt den Song. Die Technologie dahinter ist faszinierender als du denkst.
So funktioniert Hum to Search
Das Prinzip ist simpel: Du öffnest die Google App, tippst auf das Mikrofon-Icon und sagst „Was ist das für ein Lied?“ Dann summst, singst oder pfeifst du die Melodie für 10 bis 15 Sekunden. Google zeigt dir eine Liste mit den wahrscheinlichsten Treffern – inklusive Interpret, Songtext und Musikvideo. Je mehr du von der Melodie triffst, desto besser die Ergebnisse. Aber perfekt muss es nicht sein.
Das Besondere: Du musst die Töne nicht treffen. Nicht mal annähernd. Du kannst schief summen, das Tempo verschleppen, die Tonart komplett verfehlen – das System erkennt die Melodie trotzdem. Wer schon mal einen hartnäckigen Ohrwurm hatte, den niemand identifizieren konnte, weiß was das wert ist.
Google hat das Feature im Oktober 2020 vorgestellt. Auf Android war es sofort in über 20 Sprachen verfügbar, auf iOS zunächst nur auf Englisch. Kein separater Download nötig, keine Extra-App. Die Google App reicht.
Neural Embeddings statt Fingerprinting
Um zu verstehen warum Hum to Search funktioniert, hilft ein Blick auf Shazam. Shazam arbeitet mit Audio-Fingerprinting. Die App nimmt ein Stück der laufenden Musik auf, erstellt eine Art akustischen Fingerabdruck aus Frequenzspitzen und gleicht ihn gegen eine Datenbank mit Millionen Songs ab. Extrem schnell, extrem präzise – aber nur wenn die Originalaufnahme spielt. Mit einer gesummten Melodie kann Shazam nichts anfangen.
Google geht einen komplett anderen Weg. Hum to Search nutzt ein neuronales Netzwerk, das mit Paaren aus gesungenen Clips und Studioaufnahmen trainiert wurde. Das Modell wandelt jede Audioeingabe in einen mathematischen Vektor um – einen sogenannten Embedding. Dieser Vektor erfasst die Essenz der Melodie: nicht die Klangfarbe, nicht die Instrumente, nicht die Produktion. Nur die Tonfolge.
Laut dem Google Research Blog wurde das System zunächst mit Triplet Loss trainiert, dann mit einer eigens entwickelten Confidence-Based Loss Function optimiert. Das Ergebnis: Das Modell erkennt Melodien unabhängig davon, ob sie professionell eingesungen, schief gesummt oder auf einem Kamm geblasen werden. Googles eigenes Pitch-Extraction-Modell SPICE liefert dazu synthetische Trainingsdaten – so lernt das System auch Melodien zu erkennen, die kein Mensch je gesungen hat. Wer versteht, wie KI heute Musik produziert, erkennt die Parallelen: Maschinen lernen musikalische Muster auf einer abstrakten Ebene zu verstehen.
Quellen: Google Research Blog (2020), Google Blog (2026)
Warum Shazam hier nicht mithalten kann
Shazam ist brillant in dem was es tut. Eine Datenbank mit geschätzt über elf Millionen Songs, Erkennung in Sekunden, sogar bei Hintergrundgeräuschen im Club oder im Auto. Aber Shazam braucht die Aufnahme. Es vergleicht akustische Fingerabdrücke – Frequenzspitzen, zeitliche Muster, Konstellationskarten. Ohne das Original kein Match.
Google löst ein fundamental anderes Problem. Nicht „welcher Song spielt gerade?“ sondern „welcher Song steckt in meinem Kopf?“ Der Unterschied ist technisch enorm. Eine gesummte Melodie hat keine Instrumente, keine Produktion, keine Stimme des Originalkünstlers. Nur eine ungefähre Tonfolge, gefiltert durch dein Gedächtnis und deine fragwürdigen Gesangskünste. Das Modell muss all das ignorieren und sich auf die Kernmelodie konzentrieren.
Shazam beantwortet „Was läuft gerade?“ Google beantwortet „Was steckt in meinem Kopf?“
Die Idee der Summen-Erkennung ist übrigens nicht neu. SoundHound bot mit Midomi bereits ab 2007 eine ähnliche Funktion an. Google hat das Konzept 2020 allerdings in den Mainstream katapultiert – durch die Integration direkt in die Google-Suche, die Milliarden Menschen täglich nutzen. Das ist der entscheidende Unterschied: nicht die Technologie allein, sondern die Reichweite.
Von YouTube Music bis Circle to Search
Seit dem Launch im Oktober 2020 hat Google die Funktion stetig ausgebaut. Der wichtigste Meilenstein: Im Juli 2024 wurde Hum to Search vollständig in YouTube Music integriert – auf iOS und Android. Der Vorteil liegt auf der Hand: Nach der Erkennung kannst du den Song direkt abspielen, zur Playlist hinzufügen oder das Musikvideo schauen. Kein Umweg über die Google-Suche mehr. Für alle im Streaming-Universum ein echtes Upgrade.
2026 folgte die nächste Stufe: Circle to Search. Verfügbar auf Pixel-Smartphones und der Samsung Galaxy S-Serie, bringt es Hum to Search direkt auf den Startbildschirm. Kein App-Wechsel, kein Mikrofon-Button suchen. Bildschirm gedrückt halten, summen, fertig. Laut Google ist Circle to Search inzwischen auf über 580 Millionen Android-Geräten verfügbar.
Mit Gemini analysiert Circle to Search nicht nur Musik, sondern auch Objekte, Text und Bilder auf dem Bildschirm. Für alle, die regelmäßig mit namenlosen Melodien im Kopf herumlaufen, bleibt die Musik-Erkennung aber der spannendste Teil des Pakets.
Warum das mehr ist als ein Gimmick
Hum to Search ist ein perfektes Beispiel dafür, wie KI die Musikindustrie verändert – nicht durch Produktion oder Komposition, sondern durch Entdeckung. Die Technologie senkt die Barriere zwischen „ich kenne die Melodie“ und „ich höre den Song“. Das klingt nach einer Kleinigkeit. Aber für die Art wie wir Musik finden und wiederfinden, ist es ein Gamechanger.
Denk an all die Songs, die du über die Jahre verloren hast. Melodien aus einem Film, den du als Kind gesehen hast. Ein Track, der im Urlaub in einer Bar lief. Ein Refrain, den dir jemand vorgesummt hat. Bisher war das alles verloren, sobald Shazam nicht mehr helfen konnte. Jetzt reicht dein Gedächtnis.
Wer sich für die Wissenschaft hinter Ohrwürmern interessiert oder wissen will, wie Lo-Fi Beats aufs Gehirn wirken, findet in Hum to Search den nächsten Puzzlestein: Musik steckt tiefer in uns als wir denken. Und die Technik holt sie endlich raus.
Q&A nach der Show
Klick auf eine Frage um die Antwort aufzuklappen.
Funktioniert Hum to Search auch offline?
Wie genau muss ich die Melodie treffen?
Funktioniert das Feature auch auf Deutsch?
Was ist der Unterschied zwischen Hum to Search und Shazam?
Kann ich Hum to Search in YouTube Music nutzen?
Wie viele Songs erkennt das System?
Ohrwürmer: Warum dein Gehirn Songs auf Repeat spielt →KI-Musik 2026: Wer braucht noch Produzenten? →Apple vs. Spotify: Der Streaming-Krieg eskaliert →Breathwork: Drei Atemtechniken von Navy SEALs und Olympioniken IBS →SUP 2026: Warum Stand-Up Paddling der perfekte Frühlingssport ist IBS →
IBS Publishing ist eine Verlagsmarke der evernine media
Quelle Titelbild: Pexels / Los Muertos Crew (px:7586659)