Emberi beszédmodell alkalmazásával szeretnék beazonosítani a különböző típusú ugatásokat.
Sokszor úgy gondoljuk, hogy kutyáink jelzéseit értjük, illetőleg úgy gondoljuk, érteni véljük őket, főleg olyan gyakori helyzetekben, amelyeknek végeredménye mindkét faj szempontjából egyértelmű. Így van ez a kutyáink ugatásával is, de ki ne szerette volna pontosan is érteni a kutyák „beszédét”, az ugatást?
A Michigani Egyetem kutatói a mesterséges intelligencia adta lehetőségeket vizsgálják és olyan modelleket próbálnak fejleszteni, melynek segítségével képesek lesznek megállapítani, hogy az ugatás játékot vagy agressziót jelez e.
Mesterséges intelligenciával a kutyák megértéséért
A mesterséges intelligenciában modelleket építenek annak érdekében, hogy a segítségükkel a kívánt vizsgálat – esetünkben a kutya ugatása, mint vokális adatsorozat – területén keletkező adatokat elemezze, s az elemzés eredményeként pedig a modell az előre meghatározott kimenetelei – esetünkben a játék vagy agresszió – egyikébe osztályozza, csoportosítsa.
Ugyanezek a modellek más információkat is gyűjthetnek az állatok hangjaiból, például az állat korát, fajtáját és nemét. A mexikói National Institute of Astrophysics, Optics and Electronics (INAOE) Puebla-i Intézettel együttműködésben készült tanulmány megállapította, hogy az eredetileg emberi beszédre „tanított” mesterséges intelligencia modellek kiindulási pontként használhatók az állatok kommunikációját célzó új rendszerek képzéséhez.
Az eredményeket be is mutatták a Számítógépes Nyelvészeti Nemzetközi Konferencián, melyen nagy sikert aratott és az egyik legérdekesebb kutatás egyikeként értékelték.
„A kezdetben emberi beszédre tanított beszédfeldolgozási modellek használatával kutatásunk új ablakot nyitott kutyák ugatásának megértésében” – mondta Rada Mihalcea, a Janice M. Jenkins munkatársa, a számítástechnika és mérnöki tudomány egyetemi professzora, valamint az U-M mesterséges intelligencia laboratóriumának igazgatója.
„Annyi mindent nem tudunk még azokról az állatokról, melyek velünk élnek és megosztják velünk a világot. A mesterséges intelligencia fejlődése forradalmasíthatja az állatok kommunikációjával kapcsolatos ismereteinket, és eredményeink azt sugallják, hogy nem kell a nulláról kezdenünk.”
Az állatok hangjait elemző mesterséges intelligencia-modellek fejlesztésének egyik legfőbb akadálya a nyilvánosan elérhető adatok hiánya. Noha számos forrás és lehetőség létezik az emberi beszéd rögzítésére, az ilyen adatok gyűjtése állatokról sokkal nehezebb.
„Logikailag sokkal nehezebb az állatokat különféle hangok keltésére bírni és rögzíteni azokat” – mondta Artem Abzaliev, az UM doktorandusza. „A vadonban passzívan, ráhatás nélkül, házi kedvencek esetében pedig a tulajdonosok engedélyével lehet rögzíteni őket.”
Meglévő modellt hasznosítottak újra
A felhasználható adatok e hiánya miatt nehéznek bizonyult a kutyahangok elemzésére szolgáló technikák kidolgozása, a létezőket pedig a kiképzőanyag hiánya korlátozza. A kutatók felülkerekedtek ezeken a kihívásokon egy meglévő modell újrahasznosításával, amelyet eredetileg az emberi beszéd elemzésére terveztek. Ez a megközelítés lehetővé tette a kutatók számára, hogy olyan robusztus modelleket találjanak ki, amelyek a ma használt különféle hangalapú technológiák gerincét képezik, beleértve a hang-szöveg fordítást és a nyelvi fordítást.
Ezeket a modelleket arra tanítják, hogy megkülönböztessék az emberi beszéd árnyalatait, például a hangszínt, a hangmagasságot és az akcentust, és ezeket az információkat olyan formátumba alakítsák át, amelyet a számítógép felhasználhat a kimondott szavak azonosítására, a beszélő személy felismerésére stb.
„Ezek a modellek képesek megtanulni és kódolni az emberi nyelv és beszéd hihetetlenül összetett mintáit” – mondta Abzaliev. „Azt akartuk látni, hogy ki tudjuk-e használni ezt a képességet a kutyaugatás felismerésére és értelmezésére.”
A kutatók 74, különböző fajtájú, korú és nemű kutyától rögzített kutyahangok adatkészletét használták fel különböző összefüggésekben. Humberto Pérez-Espinosa, az INAOE munkatársa vezette az adatkészletet gyűjtő csapatot. Abzaliev ezután a felvételeket egy gépi tanulási modell módosítására használta – egy olyan típusú számítógépes algoritmust, amely nagy adathalmazokban azonosítja a mintákat. A csapat a Wav2Vec2 nevű beszédreprezentációs modellt választotta, amelyet eredetileg emberi beszédadatokon képeztek ki.
Ezzel a modellel a kutatók képesek voltak reprezentációkat generálni a kutyákról gyűjtött akusztikus adatokról, és értelmezni tudták ezeket a reprezentációkat. Azt találták, hogy a Wav2Vec2 nemcsak négy osztályozási feladatban volt sikeres; felülmúlta a kifejezetten kutyaugatásra kiképzett modelleket is, akár 70%-os pontossággal.
Az első alkalom, hogy emberi beszédre optimalizált technikákkal dekódolnák az állatok kommunikációját
„Ez az első alkalom, hogy emberi beszédre optimalizált technikákat építenek az állatok kommunikációjának dekódolására” – mondta Mihalcea. „Eredményeink azt mutatják, hogy az emberi beszédből származó hangok és minták alapul szolgálhatnak más hangok akusztikus mintázatainak elemzéséhez és megértéséhez, például az állatok hangjaihoz.”
Amellett, hogy az emberi beszédmodelleket hasznos eszközként hozták létre az állatok kommunikációjának elemzésében – ami a biológusok, állati viselkedéskutatók és mások számára hasznos lehet – ez a kutatás fontos hatással van az állatok jólétére is. A kutatók szerint a kutyahangok árnyalatainak megértése nagymértékben javíthatja azt, ahogyan az emberek értelmezik és reagálnak a kutyák érzelmi és fizikai szükségleteire, ezáltal javítva a gondozásukat és megelőzve a potenciálisan veszélyes helyzeteket.
Szerző: Ujhelyi Tamás
A történet forrása: A Michigani Egyetem által biztosított anyagok. Az eredetit Emily France írta.
Folyóirat hivatkozás: Artem Abzaliev, Humberto Pérez Espinosa, Rada
Mihalcea. A kutyaugatás dekódolása felé: Az emberi beszédfeldolgozás kihasználása az automatizált ugatás osztályozáshoz . Beküldve: arXiv, 2024 DOI: 10.48550/ arXiv.2404.18739
A cikk először az a Kutya újság 2024-es júliusi számában jelent meg.