Wenn die KI zu viel findet
Physikalische Validierung von Fledermaus-Detektionen
Das Problem mit automatischer Artenbestimmung
Künstliche Intelligenz hat die Auswertung von Fledermausaufnahmen revolutioniert. Tools wie BatDetect2 können Tausende von Rufen in wenigen Minuten analysieren und Arten zuordnen – eine Aufgabe, die früher Wochen manueller Arbeit erforderte. Doch wie bei jeder automatischen Erkennung stellt sich die Frage: Wie zuverlässig sind die Ergebnisse?
In meiner Arbeit mit dem NEXUS-Projekt nutze ich eine Multi-Pass-Strategie mit unterschiedlichen Schwellenwerten (Detection Thresholds, DT), um verschiedene Ruftypen zu erfassen: DT 0.2 für leise Social Calls, DT 0.5 für Feeding Buzzes und DT 0.8 für die klassischen Echoortungsrufe. Diese Strategie maximiert die Erfassung aller biologisch relevanten Laute – führt aber zwangsläufig zu einem Problem: Bei niedrigen Schwellenwerten steigt die Zahl der Fehldetektionen dramatisch.
Der Fall der unmöglichen Fledermäuse
Ein aktueller Testlauf von BatDetect2 meldete 118 Detektionen der Bartfledermaus (Myotis mystacinus), 69 der Nymphenfledermaus (Myotis alcathoe) und 5 der Mopsfledermaus (Barbastella barbastellus). Auf den ersten Blick beeindruckend – auf den zweiten Blick problematisch. Die Nymphenfledermaus ist in meiner Region extrem selten und bevorzugt alte Laubwälder. Die Kleine Hufeisennase wäre hier sogar eine wissenschaftliche Sensation. 118 Bartfledermäuse? Unwahrscheinlich.
Die manuelle Überprüfung Hunderter verdächtiger Detektionen ist zeitaufwendig. Hier setzt der NEXUS Batch Validator an: ein Werkzeug zur physikalischen Plausibilitätsprüfung, das die Schätzungen der KI gegen bekannte biologische Parameter testet.
Physik statt Raten: Das Validierungsprinzip
Der Validator nutzt einen fundamentalen Unterschied zwischen KI und Physik: Während BatDetect2 auf Mustererkennung basiert und bei unklaren Fällen "rät", sind die physikalischen Eigenschaften von Fledermausrufen artspezifisch und messbar. Jede Art hat charakteristische Frequenzbereiche und Rufdauern, die sich aus ihrer Anatomie und Jagdweise ergeben.
Die Zwergfledermaus (Pipistrellus pipistrellus) ruft beispielsweise mit einer Hauptfrequenz von 45-70 kHz bei einer Rufdauer von 3-8 Millisekunden. Weicht eine vermeintliche Zwergfledermaus-Detektion erheblich von diesen Werten ab, liegt wahrscheinlich eine Fehlbestimmung vor.
Drei Validierungsebenen
Der Validator arbeitet in drei Schritten:
1. Frequenzanalyse: BatDetect2 liefert die untere und obere Grenzfrequenz eines Rufs. Daraus approximiert der Validator die Hauptfrequenz – jene Frequenz, bei der die meiste Energie konzentriert ist. Diese wird gegen die Referenzdatenbank geprüft. Eine "Bartfledermaus" mit 35 kHz Hauptfrequenz ist verdächtig: Die Art ruft typischerweise bei 40-60 kHz.
2. Rufdauer-Check: Die zeitliche Länge eines Rufs ist ebenso charakteristisch. Eine Mopsfledermaus mit 8 Millisekunden Rufdauer liegt außerhalb des normalen Bereichs von 2-6.5 ms.
3. Bandbreiten-Analyse: Die Differenz zwischen höchster und niedrigster Frequenz gibt Aufschluss über den Ruftyp. FM-Rufe (Frequency Modulated) von Pipistrellus-Arten haben typischerweise 20-30 kHz Bandbreite, während CF-Rufe (Constant Frequency) von Hufeisennasen schmalbandiger sind.
Der Confidence-Score als Frühwarnsystem
Ein entscheidender Zusatzfaktor ist der Confidence-Score, den BatDetect2 für jede Detektion ausgibt. Er gibt an, wie sicher sich das Modell bei der Artbestimmung ist. Werte unter 0.3 kennzeichnen unsichere Zuordnungen. In Kombination mit physikalischen Abweichungen wird ein Muster sichtbar:
Die 5 Mopsfledermaus-Detektionen hatten Confidence-Scores zwischen 0.062 und 0.179 – die KI war sich selbst unsicher. Gleichzeitig lagen alle Frequenzen bei 26-31 kHz, deutlich unter dem erwarteten Bereich von 32-42 kHz. Das Urteil des Validators: False Positives mit hoher Wahrscheinlichkeit.
Anomalie-Erkennung: Wenn das Seltene häufig wird
Ein besonders nützliches Feature ist die automatische Anomalie-Erkennung. Sie basiert auf einem einfachen Prinzip: Seltene Arten sollten selten detektiert werden. Taucht eine normalerweise rare Art plötzlich dutzende Male auf, gibt es zwei Möglichkeiten:
- Eine wissenschaftlich relevante Entdeckung (Arealverschiebung, neue Kolonie)
- Ein systematischer Fehler der KI
Der Validator flaggt solche Fälle automatisch und erstellt separate Dateien für die manuelle Prüfung. Die 118 "Bartfledermäuse" wurden so als Anomalie erkannt – und die anschließende Prüfung bestätigte: Nahezu alle hatten zu niedrige Frequenzen und schwache Confidence-Scores. Höchstwahrscheinlich handelt es sich um Rauhhautfledermäuse (Pipistrellus nathusii), die im gleichen Frequenzbereich von 37-45 kHz rufen.
Vagabunden nicht ausschließen
Ein wichtiger Aspekt: Der Validator filtert nicht automatisch, sondern markiert zur Überprüfung. Dies ist entscheidend für die Wissenschaft. Der Klimawandel führt zu Arealverschiebungen. Arten wandern nordwärts. Ein einzelner "unmöglicher" Nachweis könnte ein echter Vagabund sein – oder der erste Hinweis auf eine neu etablierte Population.
Deshalb bleibt die finale Entscheidung beim Menschen. Der Validator reduziert lediglich den Aufwand: Statt 118 Spektrogramme manuell zu prüfen, kann ich gezielt die 8 Detektionen mit Confidence >0.3 und plausiblen Frequenzen untersuchen. Die restlichen 110 Fälle mit niedrigen Scores und physikalisch unmöglichen Werten können getrost ignoriert werden.
Praktischer Nutzen im Feld
Die Kombination aus Multi-Pass-Strategie und physikalischer Validierung hat sich als effektiv erwiesen. Niedrige Schwellenwerte erfassen auch leise Social Calls, die für Verhaltensökologie relevant sind. Der Validator trennt anschließend echte Signale vom Rauschen. Das Ergebnis: maximale Sensitivität bei handhabbarer Anzahl manueller Überprüfungen.
Besonders wertvoll ist die Methode für Langzeitstudien. Bei Tausenden Aufnahmen über mehrere Monate würde eine rein manuelle Auswertung den Rahmen sprengen. Die automatische Vorfilterung macht solche Projekte erst praktikabel.
Ausblick: Integration mit Umweltdaten
Der nächste Schritt ist die Integration mit den NEXUS-Wetterdaten. Die mobile Station erfasst Temperatur, Luftfeuchtigkeit und Luftdruck – und berechnet daraus die frequenzabhängige Schalldämpfung nach ISO 9613-1. Diese Information könnte in die Validierung einfließen: Ein schwaches Signal bei hoher atmosphärischer Dämpfung ist plausibler als eines bei optimalen Bedingungen.
Auch die Visualisierung wird erweitert. Geplant sind Spektrogramme mit Overlay der Validierungsergebnisse: Grüne Markierungen für verifizierte Rufe, gelbe für Review-Fälle, rote für Low-Confidence-Detektionen. Ergänzt um die Telemetrie-Daten der Wetterstation entsteht so ein vollständiges Bild der Aufnahmebedingungen.
Fazit
Künstliche Intelligenz ist ein mächtiges Werkzeug für die Fledermausforschung – aber kein Ersatz für biologisches Fachwissen und physikalische Plausibilitätsprüfung. Der NEXUS Batch Validator demonstriert, wie sich beide Ansätze sinnvoll kombinieren lassen: Die KI übernimmt die Massendatenverarbeitung, die Physik sortiert das Unmögliche aus, und der menschliche Experte trifft die finale Entscheidung bei Grenzfällen.
Die Methode ist open source und unter Creative Commons lizenziert. Andere Forschende sind eingeladen, sie für ihre Projekte zu adaptieren. Die nächsten Monate werden zeigen, wie sich das System in der Praxis bewährt – und ob vielleicht doch noch eine kleine Sensation dabei ist: eine echte, physikalisch validierte Nymphenfledermaus in Hannover.
Technische Details:
- Validator-Version: 8.0.0 (Enhanced Edition)
- Lizenz: CC-BY-NC-4.0
- Referenzdatenbank: 24 europäische Fledermausarten
- Schwellenwerte anpassbar für verschiedene Studiendesigns

Kommentare
Kommentar veröffentlichen