% vzorčna datoteka za pisanje diplomskega dela v formatu LaTeX
% na UL Fakulteti za računalništvo in informatiko
%
% na osnovi starejših verzij vkup spravil Franc Solina, maj 2021
% prvo verzijo je leta 2010 pripravil Gašper Fijavž
%
% za upravljanje z literaturo ta vezija uporablja BibLaTeX
%
% svetujemo uporabo Overleaf.com - na tej spletni implementaciji LaTeXa ta vzorec zagotovo pravilno deluje
%
\documentclass[a4paper,12pt,openright]{book}
%\documentclass[a4paper, 12pt, openright, draft]{book} Nalogo preverite tudi z opcijo draft, ki pokaže, katere vrstice so predolge! Pozor, v draft opciji, se slike ne pokažejo!
\usepackage[utf8]{inputenc}% omogoča uporabo slovenskih črk kodiranih v formatu UTF-8
\usepackage[slovene,english]{babel}% naloži, med drugim, slovenske delilne vzorce
\usepackage[pdftex]{graphicx}% omogoča vlaganje slik različnih formatov
\usepackage{fancyhdr}% poskrbi, na primer, za glave strani
V zadnjem času postaja uporaba brezpilotnih letalnikov vse bolj razširjena.
Kljub njihovi vsestranskosti pa se poraja vprašanje: kako se brezpilotni letalniki obnašajo, ko izgubijo stik z sistemom za določanje položaja? Diplomska naloga se osredotoča na lokalizacijo letalnikov na podlagi satelitskih slik, raziščite področje ter ovrednotite trenutno najbolj obetavno metodo.
Po potrebi sestavite lastno zbirko slik, ki bo dovolj zahtevna in raznovrstna.
Recently, the use of drones is becoming more and more widespread.
Despite their versatility, the question arises: how do drones behave when they lose contact with the global positioning system? The thesis focuses on the localization of aircraft based on satellite images, explore the field and evaluate the current most promising method.
If necessary, construct your own dataset of images that will be challenging and diverse enough.
Zahvaljujem se mentorju, doc. dr. Luki Čehovinu Zajc, in somentorju, asist. Mateju Dobrevskemu, za strokovno pomoč in usmeritve pri izdelavi diplomske naloge.
\noindent Diplomsko delo predstavlja implementacijo trenutno vodilne metode za geolokalizacijo brezpilotnih letalnikov, ob izgubi sistema za določanje položaja, implementacija ni bila javno dostopna.
Metodologija je bila podprta z različnimi optimizacijskimi strategijami, vključno z uporabo stratificiranega vzorčenja, Hanningovega okna in regularizacijskih tehnik.
Rezultati potrjujejo učinkovitost predlagane metode za natančno geolokalizacijo brezpilotnih letalnikov.
Delo zaključujemo s poudarkom na ključnih ugotovitvah in potencialu razvite metode.
\noindent The thesis presents the implementation of the currently leading method for geolocation of unmanned aerial vehicles, in the event of a loss of the positioning system.
As part of the work, we created a new database containing pairs of images from unmanned aerial vehicles and corresponding satellite images.
We focused on the use of advanced neural networks, especially convolutional networks, transformer architecture, and its derivatives, such as Vision Transformer (ViT) and Pyramid Vision Transformer (PVT).
The Siamese neural network played a crucial role in comparing samples between the two types of images.
The methodology was supported by various optimization strategies, including the use of stratified sampling, Hanning window, and regularization techniques.
The results confirm the effectiveness of the proposed method for accurate geolocation of unmanned aerial vehicles.
We conclude the work by emphasizing the key findings and the potential of the developed method.
V idealnih razmerah brezpilotni letalniki za svojo navigacijo uporabljajo sisteme za določanje položaja, kot so GPS \footnote{GPS: \url{https://en.wikipedia.org/wiki/Global_Positioning_System}},
GLONASS \footnote{GLONASS: \url{https://en.wikipedia.org/wiki/GLONASS}} in drugi podobni sistemi.
Vendar lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje.
Izguba sistema za določanje položaja lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo, zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov nujno.
Zgodnje metode, kot so navedene v virih \cite{semantic_crossview, crossview_image, global_vehicle, geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti.
S prihodom globokih konvolucijskih nevronskih mrež (ang. convolutional neural network -- CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže.
Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov iz prednaučenenga CNN.
Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji.
Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika.
V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže. Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami.
V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno.
V \cite{optimal_transport} so predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije.
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}, takšen pristop pa lahko ima težave.
Vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik, zahteva ponovno obdelavo celotne slikovne baze. Slednje ne le da je časovno potratno, ampak tudi zviša stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja.
Ko brezpilotni letalnik zajame sliko za primerjavo, mora biti ta slika primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje.
V praksi to pomeni, da ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je precej časovno potratno in računsko intenzivno.
V kontekstu omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili pristop, imenovan FPI (ang. Finding Point with Image) \cite{dai2022finding}.
FPI sprejme dva vhodna podatka: sliko posneto z brezpilotnim letalnikom in pripadajočo satelitsko sliko.
V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta. Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo.
Ko sta sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije. Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko. Najvišja vrednost na toplotni karti natančno označuje mesto, kjer je brezpilotni letalnik posnel svojo sliko na večji satelitski sliki. Informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega letalnika na satelitski sliki.
Nadgradnja metode FPI, znana kot WAMF-FPI, je dodatno izboljšala natančnost in učinkovitost lokalizacije brezpilotnih letalnikov \cite{dai2022finding}.
Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije ob soočanju z izzivi, ki jih predstavljajo razlike med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami.
Z uporabo dveh različnih uteži za izvleček značilnosti iz slik posnetih z brezpilotnim letalnikom in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
Metoda WAMF-FPI je evolucija osnovne metode FPI. Ključna prednost WAMF-FPI je njegova napredna piramidna predstavitev izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
Z uporabo te piramidne predstavitve se značilke izluščijo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
Medtem ko je bila v osnovni FPI metodi končna velikost značilk stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo štirikrat manjšo velikost.
Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, ki so namenjene za zgoraj omenjene tradicionalne metode prepoznavanja slik,
večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik.
Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja.
Podatkovna zbirka UL14, omenjena v \cite{dai2022finding}, je edina s pogledom od zgoraj navzdol, vendar avtorji zbirke žal niso javno delili.
Zato smo se odločili za ustvarjanje lastne zbirke, osredotočene na pogled iz brezpilotnega letalnika, z uporabo Google Earth Studia\footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}}.
Naša zbirka obsega 11 evropskih mest. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo pristopov. S tem smo nameravali zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih morebiti sreča brezpilotni letalnik v realnem svetu.
Cilj izdelave zbirke je zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Poglavje \ref{ch1} obsega metodologijo, kjer so podrobno opisane uporabljene tehnike, kot so konvolucijske nevronske mreže, transformerska arhitektura in različne oblike Vision Transformerja.
Poglavje \ref{ch2} obravnava podatkovno množico, ki vključuje slike brezpilotnih letalnikov, satelitske slike in oznake.
V Poglavju \ref{ch3} je opisana implementacija, s posebnim poudarkom na metodi WAMF-FPI.
Poglavje \ref{ch4} se osredotoča na eksperimentalno evalvacijo, kjer so predstavljeni rezultati različnih eksperimentov in analize.
V Poglavju \ref{ch5} so podane sklepne ugotovitve in zaključki naloge.
Diplomsko delo zaključujemo z relevantno literaturo in dodatki, ki vključujejo primere izračuna RDS in primerjavo toplotnih kart.
Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov.
Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu.
Podrobneje se bomo osredotočili na zgradbo transformerja in njegove ključne komponente.
Posebno pozornost bomo posvetili prilagojeni različici PVT, imenovani PCPVT, saj njeni deskriptorji zagotavljajo prostorsko skladnost in natančno poravnavo.
vsak nevron v tej plasti je povezan le z majhnim območjem v prejšnji plasti, namesto da bi bil povezan z vsemi nevroni, kot je to v običajnih nevronskih mrežah.
Avtorji v članku \cite{vaswani2017attention} so predstavili novo arhitekturo za strojno prevajanje, ki se osredotoča na mehanizme pozornosti in se izogiba omejitvam RNN.
Glavna inovacija je zamenjava RNN in njihovih skritih stanj z bolj učinkovitimi operacijami na osnovi pozornosti.
Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni, vidno na sliki \ref{fig:transformer_network}.
Med učenjem se vhodne besede $\vec{F}=(f_0, ..., f_n)$ hkrati prenesejo v prvi blok kodirnika, izhod tega bloka pa se nato prenese v njegovega naslednika.
Vsak blok ima dve komponenti: plast večglave samopozornosti (ang. Multi-Head Self-Attention), ki ji sledi polno povezana plast z aktivacijami ReLU, ki obdeluje vsak element vhodne sekvence vzporedno.
Obstaja nekaj ključnih razlik v primerjavi s kodirnikom - ena je, da so vhodi v prvo operacijo pozornosti v blokih dekodirnika maskirani, zato tudi ime plasti.
V članku \cite{vaswani2017attention} in predhodni literaturi \cite{bahdanau2015neural} se vrstice \( Q \in\mathbb{R}^{m \times d_k}\) imenujejo poizvedbe, vrstice \( K \in\mathbb{R}^{n \times d_k}\) ključi, in vrstice \( V \in\mathbb{R}^{n \times d_v}\) vrednosti.
Upoštevati je potrebno, da se mora za izvedbo število ključev in vrednosti \( n \) ujemati, vendar se lahko število poizvedb \( m \) razlikuje.
Prav tako se mora ujemati dimenzionalnost ključev in poizvedb, vendar se lahko dimenzionalnost vrednosti razlikuje.
Vektorji poizvedbe in ključev se med seboj primerjajo preko skalarnega produkta. Ta produkt nam pove, koliko pozornosti naj določen ključ nameni določeni poizvedbi.
Utežena vsota vektorskih vrednosti določa, koliko informacij iz vsakega ključa se upošteva v končnem izhodu.
V tem postopku so uporabljene le matrične in vektorske operacije, brez dodatnih učljivih parametrov.
V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav.
Tretja in zadnja uporaba pozornosti v članku \cite{vaswani2017attention} je pozornost kodirnik-dekodirnik, ki se uporablja v blokih dekodirnika neposredno po sloju maske večglave pozornosti, da se povežejo izvorne in ciljne sekvence.
Ko govorimo o pozornosti med kodirnikom in dekodirnikom, je edina razlika od prej v tem, da $Q$ izhaja iz sloja maske večglave pozornosti, medtem ko sta $K$ in $V$ kodirani predstavitvi $\vec{F}$.
Lahko bi razmišljali o tem tako, da model zastavlja vprašanje o tem, kako se vsak položaj v ciljni sekvenci nanaša na izvor, in pridobiva predstavitve izvora za uporabo pri generiranju naslednje besede v cilju.
Pomembno je poudariti, da vsi bloki dekodirnika prejmejo enake podatke od kodirnika. Od prvega do $N$-tega bloka dekodirnika vsak uporablja kodirano izvorno sekvenco kot ključe in vrednosti.
Namesto da bi slike obdelovali kot dvodimenzionalne mreže pikslov (kot to počnejo konvolucijske nevronske mreže), Vision Transformer slike obravnava kot zaporedje majhnih kvadratov ali zaplat.
Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali presegel učinkovitost konvolucijskih nevronskih mrež na številnih nalogah računalniškega vida \cite{vit}.
Za boljše razumevanje si poglejmo podrobneje prvo stopnjo: vhodna slika velikosti $ H \times W \times3$ je razdeljena na zaplate velikosti $4\times4\times3$.
To pomeni, da je število zaplat enako $ HW/4^2$. Vsaka zaplata je nato sploščena in prenesena v linearno projekcijo, kar rezultira v vdelavi zaplat velikosti
$ HW /4^2\times C1$. Te vdelane zaplate, skupaj z dodano vdelavo položaja, prehajajo skozi Transformerski kodirnik z $L1$ plastmi.
Ena izmed ključnih inovacij v PVT je uporaba pozornosti za zmanjšanje prostorskega obsega (ang. Spatial Reduction Attention -- SRA) namesto tradicionalne večglave pozornostne plasti (ang. Multi Headed Attention -- MHA).
\section[Piramidni ViT z uporabo lokalnih značilnosti]{Piramidni ViT z uporabo lokalnih\\ značilnosti (PCPVT)}
Arhitektura Twins-PCPVT \cite{chu2021twins} je zasnovana na osnovi PVT in CPVT \cite{chu2021conditional}. Glavna razlika med Twins-PCPVT in PVT je v načinu uporabe pozicijskih kodiranj.
V PVT so uporabljena absolutna pozicijska kodiranja, medtem ko Twins-PCPVT uporablja pogojna pozicijska kodiranja (ang. Conditional Positional Encoding -- CPE),
PVT je uvedel piramidno večstopenjsko predstavitev z namenom boljšega obravnavanja nalog goste napovedi, kot so zaznavanje objektov in semantična segmentacija.
V Twins-PCPVT so absolutna pozicijska kodiranja nadomeščena s pogojnimi pozicijskimi kodiranji (CPE), ki so odvisna od vhodov in se tako lahko naravno izognejo zgoraj omenjenim težavam.
Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiranje na podlagi vhodnih značilnosti, in $E_i$ so značilnosti iz različnih stopenj kodirnika.
Siamske nevronske mreže predstavljajo sodoben pristop v domeni primerjave vzorcev v računalniškem vidu.
Z zmožnostjo učinkovite primerjave med paroma slik so siamske mreže pridobile pozornost v številnih aplikacijah, kjer je ključnega pomena zanesljiva ocena podobnosti.
V tem podpoglavju bomo obravnavali osnovno arhitekturo siamske mreže, metodologijo njenega učenja ter aplikacije in prednosti, ki jih ta prinaša v prakso.
V svetu raziskovanja je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov.
Kljub obstoju številnih zbirk, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik.
Zaradi pomanjkljivosti obstoječih zbirk in ker zbirka UL14 iz \cite{dai2022finding} ni dostopna, smo se soočili z izzivom pridobivanja ustreznih podatkov za analizo.
Da bi premostili to vrzel, smo se odločili, da ustvarimo lastno zbirko.
Za učinkovito in fleksibilno pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}} in pridobili slike iz 11 evropskih mest.
Skupno naša podatkovna baza vključuje več kot 11.000 slik. Slike so bile pridobljene s simulacijo letenja in so razvrščene v koherentnem časovnem zaporedju.
V članku \cite{dai2022finding, wang2023wamf} so avtorji uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo.
Ta zbirka se osredotoča večinoma na slike stavb večjih kitajskih univerz. V nasprotju s tem naša zbirka ponuja širši spekter značilnosti za analizo in bolje odraža realne okoliščine.
Cilj izdelave naše zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Nabor podatkov, ki ga predstavljamo, je bil zasnovan z namenom raziskovanja in analize lokalizacije brezpilotnih letalnikov v različnih mestnih scenarijih.
V mestnih območjih je poudarek na razumevanju, kako se brezpilotni letalniki lokalizirajo in navigirajo med visokimi zgradbami, kjer so lahko GPS signali zmanjšani ali moteni.
Vsaka slika je opremljena z oznakami lokacije kamere v sistemu ECEF \footnote{ECEF: \url{http://dirsig.cis.rit.edu/docs/new/coordinates.html}}. Sistem ECEF (ang. Earth Centered, Earth Fixed) je globalni koordinatni sistem z izhodiščem v središču Zemlje.
Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}}.
Na Sliki \ref{fig:region_structures} je prikazana razdelitev zelenih površin in stavb za različna mesta, temelječa na analizi slik, ki smo jih zajeli v našem podatkovnem naboru.
Vsako mesto razkriva svojo edinstveno strukturo in raven urbanizacije.
Te razlike so ključnega pomena pri razumevanju izzivov, s katerimi se srečujejo brezpilotni letalniki pri lokalizaciji in navigaciji v različnih mestnih okoljih.
Takšne razlike lahko vplivajo na algoritme lokalizacije in navigacije brezpilotnih letalnikov, saj se morajo prilagajati različnim scenarijem in oviram.
Ko smo identificirali ustrezno satelitsko zaplato, smo jo prenesli neposredno iz Mapbox API-ja \footnote{Mapbox API: \url{https://www.mapbox.com/api-documentation/}}, vira za visokokakovostne satelitske slike.
Pretvorbo geografskih koordinat (latitudo in longitudo) v zaplatne koordinate (x, y) na določeni ravni povečave z uporabo Mercatorjeve projekcije, lahko izrazimo:
Na slikah \ref{fig:sat_examples_grid_1} in \ref{fig:sat_examples_grid_2} so prikazani primeri pripadajočih satelitskih slik za slike zajete z brezpilotnim letalnikom.
Pri vsaki iteraciji je bil izrez drugačen, s poudarkom na vključevanju referenčne točke lokalizacije v izrez.
Ta pristop zagotavlja izpostavljenost modela različnim scenarijem ob ohranjanju natančnosti lokalizacijskih podatkov.
Slike, pridobljene z brezpilotnimi letalniki, so bile obdelane s tehniko \textit{osrednjega izreza} in različnimi stopnjami povečave, združujoč detajlnost teh slik z obsežnostjo satelitskih posnetkov.
Spodaj na slikah \ref{fig:drone_sat_example_19}, \ref{fig:drone_sat_example_21}, \ref{fig:drone_sat_example_37}, \ref{fig:drone_sat_example_55} in \ref{fig:drone_sat_example_82} je prikazanih nekaj primerov takšnih izrezov.
Na vsaki sliki je s pomočjo rdečega kroga označen center izreza, ki predstavlja referenčno točko lokalizacije iz brezpilotnega letalnika, s čimer je omogočeno lažje prepoznavanje osredotočenosti izreza.
\caption{Leva slika prikazuje Gradec z dvakratno povečavo slike iz brezpilotnega letalnika, desna pa Trst z 2,5-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje mesto Szombathely z 1,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa z dvakratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Zagreb z 1,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Szombathely z 2,5-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Benetke s trikratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z dvakratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Trst s 3,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z enkratno povečavo slike iz brezpilotnega letalnika.}
To je posledica različnih perspektiv med predlogo (sliko posneto z brezpilotnim letalnikom) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo.
Obe sliki -- posneti z brezpilotnim letalnikom in satelitsko sliko relevantnega območja -- se nato preneseta v mrežo od začetka do konca (ang. end-to-end).
Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model.
Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika.
V \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike.
Izluščene značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika.
Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pri določanju lokacije.
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili predstavitev piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za izluščenje značilnosti iz slik brezpilotnega letalnika in satelitskih slik.
Da bi bolje zajeli informacije na različnih ločljivostih in ohranili več prostorskih informacij, so bile prvotno izluščene značilnosti poslane v mrežo piramidne predstavitve za nadaljnjo obdelavo.
Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu WAMF-FPI. Na sliki \ref{fig:model_architecture} je prikazana skica arhitekture modela WAMF-FPI.
Model WAMF-FPI temelji na strukturi, ki je podobna siamski arhitekturi, vendar se od tradicionalnih metod sledenja objektom loči v določenih ključnih točkah, ki jih bomo v tem razdelku opisali.
Zaradi občutne razlike med satelitskimi slikami in slikami brezpilotnega letalnika, ki izvirajo iz različnih naprav, veji modela WAMF-FPI za vsako od teh vrst slik ne uporabljata metode deljenja uteži.
V modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
Pravzaprav uporaba piramidne predstavitve zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega mreža s piramidno predstavitvijo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
Končni izhod je stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem z bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike.
\subsection{Arhitektura utežno-prilagodljivega združevanja večznačilnostnih lastnosti (WAMF)}
Modul za združevanje značilnosti je zasnovan tako, da združuje informacije iz dveh ločenih vhodnih tokov, v tem primeru iz UAV (brezpilotnega letalnika) in SAT (satelita).
V osnovi ena značilnostna mapa (poimenovana poizvedba) drsi čez drugo značilnostno mapo (poimenovana iskalna regija) in izračuna podobnost med njima na vsaki lokaciji.
Rezultat tega postopka je nova značilnostna mapa, imenovana korelacijska mapa, kjer vsaka vrednost predstavlja stopnjo podobnosti med poizvedbo in delom iskalne mape na določeni lokaciji.
Model smo učili na računalniškem sistemu s procesorjem Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz z 12 jedri ter grafično kartico NVIDIA GeForce RTX 3060 z 12 GB pomnilnika.
Razvoj je temeljil na platformi Ubuntu z uporabo Python \footnote{Programski jezik Python: \url{https://www.python.org/}} knjižnice PyTorch \footnote{Knjižnica Pytorch: \url{https://pytorch.org/}}.
V času učenja našega modela ni prišlo do povečane energetske porabe, saj je bil računalnik neprestano napajan iz lokalne sončne elektrarne.
\item[Hitrost učenja:] uporabljena sta bila dva različna parametra: $lr\_fusion =0.0004$ za združevanje in $lr\_backbone =0.0001$ za osnovno arhitekturo.
\item[Prilagajanje hitrosti učenja:]$gamma =0.2$ z mejniki na epohah 2, 3 in 5.
\item[Delovni procesi:] skupno 24 hkratnih delovnih procesov (\texttt{num\_workers = 24}).
Začeli smo z iskanjem optimalne kriterijske funkcije, da bi bolje razumeli, katera funkcija bi lahko prinesla najboljše rezultate.
Nadaljevali smo s preučevanjem stratificiranega vzorčenja, tehnike, ki bi lahko pripomogla k izboljšanju natančnosti in robustnosti modela.
Pregledali smo tudi vpliv Hanningovega okna in analizirali, kako različne velikosti tega okna vplivajo na končne rezultate.
V zaključni fazi naših eksperimentov smo se osredotočili na regularizacijo, predvsem na tehniko izpuščanja nevronov, ter raziskali možnosti in prednosti uporabe prednaučene mreže.
Vsako od teh področij je v nadaljevanju podrobno obravnavano, pri čemer so podane analize, interpretacije in ključne ugotovitve.
Predvidevamo, da bo Hanningovo okno kot kriterijska funkcija prineslo najboljše rezultate, saj jih je tudi v \cite{wang2023wamf}, medtem ko pričakujemo, da bo CWMSE prav tako pokazala dobre rezultate
Gaussovo utežena srednja kvadratna napaka (ang. Gaussian Weighted Mean Squared Error -- GWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike. Glavna značilnost GWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Hanningovi funkciji izgube.
Hanningovo utežena srednja kvadratna napaka (ang. Hanning Weighted Mean Squared Error -- HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike.
Funkcija izgube križno utežena srednja kvadratna napaka (ang. Cross-Weighted Mean Squared Error -- CWMSE) je različica standardne srednje kvadratne napake (Mean Squared Error -- MSE), ki vključuje uteževanje dveh različnih skupin vzorcev: tistih, katerih resnična vrednost je večja od 0 (t. i. "resničnih" vzorcev) in tistih, katerih resnična vrednost je manjša ali enaka 0 (t. i. "neresničnih" vzorcev).
Končna funkcija izgube se izračuna kot utežena kombinacija srednjih kvadratnih napak za "resnične" in "neresnične" vzorce, pri čemer se uteži vzorcev različnih skupin prekrižajo.
\item$\text{MSE}{\text{true}}=\frac{1}{N{\text{true}}}\sum_{i=1}^{N_{\text{true}}}(y_i -\hat{y}_i)^2$ za vzorce, katerih resnična vrednost je večja od 0.
\item$\text{MSE}_{\text{false}}=\frac{1}{N{\text{false}}}\sum_{i=1}^{N_{\text{false}}}(y_i -\hat{y}_i)^2$ za vzorce, katerih resnična vrednost je enaka ali manjša od 0.
V kontekstu geolokalizacije brezpilotnih letalnikov v modelu WAMF-FPI je Hanningova kriterijska funkcija izkazala izjemno učinkovitost glede na vrednosti RDS.
Kot je razvidno iz Tabele \ref{tab:metode}, razmerje $RDS_{\text{train}}$ za Hanningovo kriterijsko funkcijo je 0.893, kar kaže na visoko natančnost pri učenju modela.
Čeprav se razmerje $RDS_{\text{val}}$ zmanjša na 0.709, je še vedno precej višje v primerjavi z drugimi preučevanimi kriterijskimi funkcijami.
V primerjavi s Hanningovo kriterijsko funkcijo so druge kriterijske funkcije praktično neuporabne, kar potrjuje,
da je Hanningova kriterijska funkcija optimalna izbira za geolokalizacijo brezpilotnih letalnikov v obravnavanem modelu \cite{wang2023wamf}.
V tabeli \ref{tab:metode_m} prikazujemo napako v odstotkih za različne kriterijske funkcije glede na razdaljo. Iz tabele je razvidno, kolikšen delež primerov ima napako manjšo od določene razdalje.
Hanningova kriterijska funkcija, ki je značilna po dodeljevanju uteži vzorcem glede na njihovo lokacijo, je na učni množici dosegla skupno vrednost 8.49 in $RDS_{\text{train}}$
vrednost 0.893. Kljub temu, da je na validacijski množici dosegla nekoliko nižjo $RDS_{\text{val}}$
vrednost 0.709, to kaže, da se je znanje dobro preneslo na validacijsko množico. Zaradi teh pozitivnih rezultatov smo Hanningovo kriterijsko funkcijo uporabljali v nadaljnjem testiranju.
V spodnjem razdelku so na slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5}
Na vsaki sliki je z rdečim krogcem označena dejanska lokacija (ang. ground truth), medtem ko je z modrim krogcem označena predikcija modela, ki predstavlja najvišjo točko v toplotni karti.
\caption{Leva slika prikazuje gradbišče prisotno na sliki iz brezpilotnega letalnika, odsotno na satelitski sliki z napako 169.43 m in RDS vrednostjo 0.09.
Desna slika pa polje v monotoni okolici z napako 155.47 m in RDS vrednostjo 0.10.}
Model, naučen s to metodo, je dosegel rahlo višjo uspešnost na validacijski množici in boljšo generalizacijo.
Kljub temu je treba upoštevati omejitve stratificiranega vzorčenja, kot so omejena generalizacija in težave pri podatkih, ki se močno razlikujejo od originalne distribucije.
Majhna velikost okna omejuje območje vzorcev, ki ga zajema.
Takšna omejitev lahko zmanjša učinkovitost povratnega razširjanja med učenjem modela, saj kriterijska funkcija nima dovolj širokega vpliva na celotno mrežo.
Nasprotje predstavlja preveliko okno, ki zajema široko paleto vzorcev. Kljub širšemu zajemu, lahko detajli v sliki postanejo manj opazni, kar zmanjšuje natančnost predikcij.
Eksperimenti so bili izvedeni z različnimi velikostmi oken, da bi ugotovili njihov vpliv na uspešnost modela. Primeri so prikazani na slikah \ref{fig:heatmaps3d_1}.
Najboljše uspešnosti so bile dosežene z okni velikosti 31 in 33. Te velikosti sovpadajo s priporočili iz literature, kjer je bila optimalna velikost okna določena na 33 \cite{wang2023wamf}.
Čeprav imajo nekatera druga okna boljšo vrednost kriterijske funkcije (vidno v Dodatku \ref{appendix:primerjava3d}), je analiza slik pokazala, da je najmanj šuma prav pri oknih velikosti 31 in 33.
Okna, ki imajo manjše ali večje jedro od teh velikosti, začnejo vnašati šum na različnih lokacijah, kar vodi do zmanjšane natančnosti pri lokalizaciji. Ta šum lahko moti interpretacijo satelitskih slik in zmanjša zanesljivost modela.
Zaključimo lahko, da je izbira prave velikosti Hanningovega okna ključna za doseganje optimalnih rezultatov.
V svetu strojnega učenja je regularizacija ključna tehnika, ki se uporablja za preprečevanje prekomernega prilagajanja modela.
Prekomerno prilagajanje se pojavi, ko model postane preveč specifičen za učni nabor podatkov, kar pomeni, da se "preveč nauči" podrobnosti in šuma v učnih podatkih,
kar vodi v slabo zmogljivost na novih, nevidenih podatkih.
Med različnimi tehnikami regularizacije je "izpuščanje nevronov" (ang. dropout) ena izmed najbolj priljubljenih in učinkovitih metod za nevronske mreže.
Koncept izpuščanja nevronov je preprost, a močan: med učenjem se določen odstotek nevronov v mreži naključno "izklopi" ali izpusti. To pomeni, da se med posameznim prehodom vnaprej določeni nevroni (in njihove povezave) začasno odstranijo iz mreže.
izpuščanje nevronov je bilo uporabljeno za regulacijo različnih komponent modela, vključno z deli, kot so \texttt{attn\_drop}, \texttt{proj\_drop}, \texttt{head\_drop}, \texttt{mlp\_drop1}, \texttt{mlp\_drop2} in \texttt{pos\_drops}.
V kompleksnih modelih, kot je Twins, kjer je veliko komponent, ki se lahko prekomerno prilagodijo podatkom, je uporaba izpuščanja nevronov ključnega pomena za zagotavljanje natančnih in zanesljivih rezultatov.
\subsection{Prednaučena mreža za izluščenje značilnosti}
Uporaba prednaučenih modelov v strojnem učenju omogoča izkoristek že obstoječega znanja modela za pospešitev in izboljšanje učenja na novem naboru podatkov.
Zlasti v kontekstu globokih nevronskih mrež so prednaučeni modeli dragoceni, saj lahko pomagajo modelom hitreje konvergirati in v nekaterih primerih doseči boljše rezultate.
Naši rezultati \ref{tab:prednaucena} in \ref{tab:prednaucena_m} kažejo, da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretacijo značilnosti iz našega nabora podatkov, kar je vodilo k izboljšanim rezultatom.
To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
Lokalizacija brezpilotnih letalnikov je ključnega pomena za njihovo avtonomno delovanje, zlasti v okoljih, kjer so tradicionalni navigacijski signali omejeni ali moteni.
Da bi se spopadli s tem izzivom, smo se v tej raziskavi osredotočili na raziskovanje in implementacijo metode WAMF-FPI za lokalizacijo brezpilotnih letalnikov na podlagi slik.
V okviru naše raziskave smo razvili podatkovno zbirko, ki zajema slike 11 evropskih mest s pogledom od zgoraj navzdol.
Poleg tega smo preizkusili različne aspekte metode WAMF-FPI, vključno z regularizacijo z izpustom nevronov, različnimi vrednostmi Hanningovega okna in primerjavo med uporabo predhodno naučene mreže za izluščenje značilnosti in mreže, ki ni bila predhodno naučena.
Naša implementacija WAMF-FPI je pokazala obetavne rezultate, pri čemer je Hanningova kriterijska funkcija izstopala kot najbolj učinkovita med vsemi preizkušenimi.
Kljub obetavni učinkovitosti metode smo identificirali več področij za izboljšave.
Med njimi je raziskava različnih osnovnih arhitektur (ang. backbone) za izluščenje značilnosti, naprednejše združevanje značilnosti,
bolj usmerjeno učenje z uporabo pomožnih izgub (ang. auxiliary losses) ter uporaba segmentacije.
Poleg tega smo prepoznali potrebo po bolj napredni primerjavi značilnosti drona in satelita, pri čemer bi lahko uporabili pristope iz vizualnega sledenja, saj je to soroden problem.
V prihodnosti nameravamo razširiti našo podatkovno zbirko z večjim številom mest, slikami iz različnih višin, različnih kotov in pogledov ter z realnimi podatki.
Prav tako nameravamo raziskati uporabo naprednejših tehnik za združevanje značilnosti in boljše usmerjeno učenje.
Naslednji koraki bi vključevali nadaljnje optimizacije modela, razširitev podatkovnih zbirk, uporabo časovne informacije, vzpostavitev povratne zanke (ang. feedback loop)
in končno implementacijo na dejanskih brezpilotnih letalnikih.
Tukaj je napovedana pozicija rahlo odmaknjena samo v vodoravni smeri za dva piksla. $RDS =0.975$ kaže na minimalno odstopanje napovedane pozicije od dejanske.
V tem primeru je napovedana pozicija odmaknjena tako v vodoravni kot navpični smeri. $RDS$ vrednost $0.806$ kaže na večjo relativno napako v primerjavi s prejšnjim primerom.
RDS metrika nam omogoča kvantitativno oceno natančnosti napovedane pozicije v primerjavi z dejansko pozicijo.
Višja kot je vrednost RDS, bližje je napovedana točka dejanski točki.
V obratnem primeru, nižja kot je vrednost RDS, večja je napaka med napovedano in dejansko točko.