diff --git a/diploma.pdf b/diploma.pdf index a8d8552..bb51c11 100644 Binary files a/diploma.pdf and b/diploma.pdf differ diff --git a/diploma.tex b/diploma.tex index 1748acc..1c32cba 100644 --- a/diploma.tex +++ b/diploma.tex @@ -427,49 +427,35 @@ The work concludes with final observations that underscore the potential and eff \chapter{Uvod} Brezpilotni letalniki so postali nepogrešljivo orodje v številnih sektorjih, od vojaških operacij do kmetijskega nadzora. -Kljub njihovi široki uporabi pa se soočajo z izzivi pri avtonomni navigaciji, še posebej v okoljih, kjer je satelitski signal omejen ali nezanesljiv. -V idealnih razmerah brezpilotni letalniki za svojo navigacijo uporabljajo GPS signale. -Vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje. -Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo. -Zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov postalo nujno. +Kljub njihovi široki uporabi pa se soočajo z izzivi pri avtonomni navigaciji, še posebej v okoljih, kjer je le-ta omejen ali nezanesljiv. +V idealnih razmerah brezpilotni letalniki za svojo navigacijo uporabljajo GPS signale, vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje. +Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo, zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov nujno. Zgodnje metode, kot so navedene v virih \cite{semantic_crossview}, \cite{crossview_image}, \cite{global_vehicle} in \cite{geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti. To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije. Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti. -S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so -raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže. -Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov, -uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji. +S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže. +Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov, uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji. Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika. -V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže. -Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami. +V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže. Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami. V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno. -V \cite{optimal_transport} predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije. +V \cite{optimal_transport} so predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije. -Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}. -Vendar pa se ob njihovi uporabi pojavi cela paleta izzivov. -Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij, nad katerimi letalnik leti. -Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki. -Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik, zahteva ponovno obdelavo celotne slikovne baze. -To ne le da je časovno potratno, ampak tudi poveča stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja. -Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje. -V praksi to pomeni, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno. +Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}, vendar pa se ob njihovi uporabi pojavi cela paleta izzivov. +Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij nad katerimi letalnik leti. Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki. +Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik zahteva ponovno obdelavo celotne slikovne baze. To ne le da je časovno potratno, ampak tudi zviša stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja. +Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje. V praksi to pomeni da, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno. -V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}. -Ta pristop se razlikuje od običajnih metod v smislu strukture in delovanja. -FPI sprejme dva vhodna podatka: sliko, posneto z brezpilotnim letalnikom, in pripadajočo satelitsko sliko. -V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta. -Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo. -Ko sta obe sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije. -Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko. -Najvišja vrednost na toplotni karti natančno označuje mesto, kjer je brezpilotni letalnik posnel svojo sliko na večji satelitski sliki. -Ta informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega letalnika na satelitski sliki. +V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}. Ta pristop se razlikuje od običajnih metod v smislu strukture in delovanja. +FPI sprejme dva vhodna podatka: sliko posneto z brezpilotnim letalnikom in pripadajočo satelitsko sliko. +V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta. Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo. +Ko sta sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije. Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko. Najvišja vrednost na toplotni karti natančno označuje mesto, kjer je brezpilotni letalnik posnel svojo sliko na večji satelitski sliki. Informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega letalnika na satelitski sliki. Inovacije v znanstvenem raziskovanju pogosto vodijo do nadaljnjih metodoloških izboljšav. Nadgradnja metode FPI, znana kot WAMF-FPI, je dodatno izboljšala natančnost in učinkovitost lokalizacije brezpilotnih letalnikov \cite{dai2022finding}. -Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije, ob soočanju z izzivi, ki jih predstavljajo razlike med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami. +Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije ob soočanju z izzivi, ki jih predstavljajo razlike med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami. Z uporabo dveh različnih uteži za izvleček značilnosti iz slik posnetih z brezpilotnim letalnikom in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik. Dodatna optimizacija je bila dosežena z vključitvijo WAMF modula in uporabo Hanningove kriterijske funkcije, ki sta povečala učinkovitost modela. @@ -479,19 +465,18 @@ Poleg tega WAMF-FPI optimizira kompresijske zmogljivosti, kar pripomore k hitrej Medtem ko je v osnovni FPI metodi končna velikost značilk bila stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo 4-krat manjšo velikost. To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve. -Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik. +Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik. Na primer, zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe. Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja. V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}. Naša zbirka obsega 11 večjih evropskih mest z raznoliko strukturo. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo našega pristopa. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu. -Cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI. +Cilj izdelave zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI. -Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku, in preverili njegovo delovanje \cite{wang2023wamf}. +Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku in preverili njegovo delovanje \cite{wang2023wamf}. Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode. Diplomska naloga je razdeljena na pet osnovnih poglavij, ki sledijo po Kazalu, Povzetku in Abstractu. -V Uvodu je predstavljena temeljna izhodišča in namen raziskave. -Metodologija obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja. +V Uvodu je predstavljena temeljna izhodišča in namen raziskave. Metodologija obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja. Podatkovna množica obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike. V Rezultatih so predstavljeni rezultati implementacije, optimizacija in pristopi učenja modela. Zaključne ugotovitve v petem poglavju povzemajo ključne ugotovitve naloge, celotno delo pa se zaključuje z navedbo relevantne literature.