% vzorčna datoteka za pisanje diplomskega dela v formatu LaTeX
% na UL Fakulteti za računalništvo in informatiko
%
% na osnovi starejših verzij vkup spravil Franc Solina, maj 2021
% prvo verzijo je leta 2010 pripravil Gašper Fijavž
%
% za upravljanje z literaturo ta vezija uporablja BibLaTeX
%
% svetujemo uporabo Overleaf.com - na tej spletni implementaciji LaTeXa ta vzorec zagotovo pravilno deluje
%
\documentclass[a4paper,12pt,openright]{book}
%\documentclass[a4paper, 12pt, openright, draft]{book} Nalogo preverite tudi z opcijo draft, ki pokaže, katere vrstice so predolge! Pozor, v draft opciji, se slike ne pokažejo!
\usepackage[utf8]{inputenc}% omogoča uporabo slovenskih črk kodiranih v formatu UTF-8
\usepackage[slovene,english]{babel}% naloži, med drugim, slovenske delilne vzorce
\usepackage[pdftex]{graphicx}% omogoča vlaganje slik različnih formatov
\usepackage{fancyhdr}% poskrbi, na primer, za glave strani
V zadnjem času postaja uporaba brezpilotnih letalnikov vse bolj razširjena in se uporablja v različnih področjih, kot so agrikultura, kartiranje, vojaške operacije in še mnogo drugih.
In recent times, the use of unmanned aerial vehicles (UAVs) has become increasingly prevalent, finding applications in various fields such as agriculture, mapping, military operations, and many others.
Despite their versatility, a critical question arises: how do drones behave when they lose connection to the GPS system?
This thesis focuses on this issue and proposes a method for localizing UAVs in the event of a GPS signal loss.
\noindent Diplomsko delo se osredotoča na uporabo naprednih nevronskih mrež za lokalizacijo brezpilotnih letalnikov s pomočjo satelitskih slik.
V uvodu je predstavljena osnovna terminologija in koncepti s področja nevronskih mrež.
V metodološkem delu so podrobno razložene konvolucijske nevronske mreže, transformerska arhitektura ter njeni derivati, kot sta Vision Transformer (ViT) in Piramidni vision transformer (PVT).
Podatkovna množica, uporabljena za učenje in testiranje, vključuje slike brezpilotnega letalnika in satelitske slike.
V razdelku rezultatov so predstavljene ključne faze implementacije, učenja modela, izbire kriterijske funkcije ter različne optimizacijske strategije, kot je uporaba Stratificiranega Vzorčenja.
Poudarjena je tudi vloga Hanningovega okna in regularizacijskih tehnik, kot je izpuščanje nevronov.
Delo zaključuje s sklepnimi ugotovitvami, ki poudarjajo potencial in učinkovitost predlagane metode za natančno lokalizacijo brezpilotnih letalnikov.
\noindent The thesis focuses on the use of advanced neural networks for the localization of drones using satellite imagery.
In the introduction, foundational terminology and concepts from the realm of neural networks are presented.
The methodology section provides a detailed exploration of convolutional neural networks, transformer architecture, and its derivatives like the Vision Transformer (ViT) and the Pyramid Vision Transformer (PVT).
Particular emphasis is given to the Siamese Neural Network, which is pivotal for comparing patterns between satellite and drone images.
The dataset used for training and testing encompasses drone images and satellite photos.
In the results section, key stages of implementation, model training, criterion function selection, and various optimization strategies, such as Stratified Sampling, are discussed.
The role of the Hanning window and regularization techniques like dropout is also highlighted.
The work concludes with final observations that underscore the potential and efficiency of the proposed method for precise drone localization.
Kljub njihovi široki uporabi pa se soočajo z izzivi pri avtonomni navigaciji, še posebej v okoljih, kjer je le-ta omejen ali nezanesljiv.
V idealnih razmerah brezpilotni letalniki za svojo navigacijo uporabljajo GPS signale, vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje.
Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo, zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov nujno.
Zgodnje metode, kot so navedene v virih \cite{semantic_crossview}, \cite{crossview_image}, \cite{global_vehicle} in \cite{geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti.
To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije.
Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti.
S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže.
Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov, uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji.
Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika.
V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže. Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami.
V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno.
V \cite{optimal_transport} so predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije.
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}, vendar pa se ob njihovi uporabi pojavi cela paleta izzivov.
Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij nad katerimi letalnik leti. Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki.
Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik zahteva ponovno obdelavo celotne slikovne baze. To ne le da je časovno potratno, ampak tudi zviša stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja.
Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje. V praksi to pomeni da, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno.
V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}. Ta pristop se razlikuje od običajnih metod v smislu strukture in delovanja.
FPI sprejme dva vhodna podatka: sliko posneto z brezpilotnim letalnikom in pripadajočo satelitsko sliko.
V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta. Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo.
Ko sta sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije. Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko. Najvišja vrednost na toplotni karti natančno označuje mesto, kjer je brezpilotni letalnik posnel svojo sliko na večji satelitski sliki. Informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega letalnika na satelitski sliki.
Nadgradnja metode FPI, znana kot WAMF-FPI, je dodatno izboljšala natančnost in učinkovitost lokalizacije brezpilotnih letalnikov \cite{dai2022finding}.
Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije ob soočanju z izzivi, ki jih predstavljajo razlike med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami.
Z uporabo dveh različnih uteži za izvleček značilnosti iz slik posnetih z brezpilotnim letalnikom in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
WAMF-FPI je evolucija osnovne metode FPI. Ključna prednost WAMF-FPI je njegova napredna piramidna struktura izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
Z uporabo te piramidne strukture se značilke izluščijo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
Poleg tega WAMF-FPI optimizira kompresijske zmogljivosti, kar pripomore k hitrejšemu in učinkovitejšemu procesiranju podatkov.
Medtem ko je v osnovni FPI metodi končna velikost značilk bila stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo 4-krat manjšo velikost.
To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik.
Na primer, zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe.
Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja.
V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}.
Naša zbirka obsega 11 večjih evropskih mest z raznoliko strukturo. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo našega pristopa. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu.
Cilj izdelave zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku in preverili njegovo delovanje \cite{wang2023wamf}.
V Uvodu je predstavljena temeljna izhodišča in namen raziskave. Metodologija obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja.
Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov.
Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu.
Podrobneje se bomo osredotočili na zgradbo transformerja in njegove ključne komponente.
Vsak nevron v tej plasti je povezan le z majhnim območjem v prejšnji plasti, namesto da bi bil povezan z vsemi nevroni, kot je to v običajnih nevronskih mrežah.
Na nižjih ravneh mreže se zaznavajo nizkonivojske značilnosti, kot so robovi in teksture, na višjih ravneh pa se zaznavajo kompleksnejše strukture, kot so oblike in objekti.
Ta hierarhična značilnost je tisto, kar omogoča CNN, da doseže izjemno natančnost pri različnih nalogah obdelave slik.
so bile najpogostejše metode za obvladovanje zaporedij v jezikovnih modelih rekurentne nevronske mreže (ang. Recurrent Neural Networks - RNN) in njihove različice,
kot so dolgokratni kratkotrajni spomini (ang. Long Short-Term Memory - LSTM) in obogatene RNN (ang. Gated Recurrent Units - GRU).
Najpogostejša uporaba teh modelov v kontekstu strojnega prevajanja ali drugih nalog pretvarjanja zaporedja v zaporedje je bila uporaba strukture kodirnik-dekodirnik.
V tej strukturi je bilo zaporedje vhodnih besed ali kodirano v latentni prostor z uporabo RNN (kodirnik), ta latentni vektor pa je bil nato uporabljen za generiranje zaporedja izhodnih besed ali žetonov z uporabo drugega RNN (dekodirnik).
Problem s to strukturo je bil, da je bil latentni prostor omejen na velikost fiksne dolžine in je moral vsebovati vse informacije iz izvornega zaporedja, ki so potrebne za generiranje ciljnega zaporedja.
To je omejevalo model pri obvladovanju dolgih zaporedij, saj je bilo težko ohraniti informacije iz zgodnjega dela zaporedja do konca.
Da bi to težavo rešili, so raziskovalci vključili mehanizem pozornosti, ki je omogočil dekodirniku, da se osredotoči na različne dele izvornega zaporedja na različnih stopnjah generiranja ciljnega zaporedja.
Definirajmo problem strojnega prevajanja kot iskanje najboljše ciljne sekvence $\vec{E}=(e_0, e_1, ..., e_m)$ glede na dane izvorne besede $\vec{F}=(f_0, f_1, ..., f_n)$.
Ta problem lahko izrazimo kot optimizacijo pogojne verjetnosti $P(\vec{E}|\vec{F})$.
Opomba: pri učenju se za $e_{t-1}$ pogosto uporablja dejanska vrednost iz ciljnega zaporedja (ne izhod modela), kar je znano kot "teacher forcing" \cite{wikipedia_teacher_forcing_2023}.
Ta pristop omogoča, da dekodirnik upošteva vse besede v izvornem zaporedju, ne samo prejšnje besede v ciljnem zaporedju, kar izboljša kakovost prevoda.
Vendar je to zgolj matematična formulacija koncepta. Dejanski detajli, kot so vrste in struktura kodirnika in dekodirnika, so odvisni od specifičnega modela, ki ga uporabljamo.
V kontekstu strojnega prevajanja so avtorji v članku \cite{vaswani2017attention} o pozornosti predstavili novo vrsto arhitekture, ki se izogiba mnogim pastem modelov, ki temeljijo na RNN.
Kljub vsem napredkom pri kodirnikih-dekodirnikih RNN, ki smo jih obravnavali zgoraj, je ostalo dejstvo, da so RNN težko paralelizirani, ker zaporedno obdelujejo vhod.
Ključna inovacija tega članka je, da so RNN in njihova skrita stanja v celoti nadomeščeni z operacijami na osnovi pozornosti, ki so v mnogih problematičnih režimih bolj učinkoviti.
Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni, vidno na sliki \ref{fig:transformer_network}.
Med učenjem se vhodne besede $\vec{F}=(f_0, ..., f_n)$ hkrati prenesejo v prvi blok kodirnika, izhod tega bloka pa se nato prenese v njegovega naslednika.
Vsak blok ima dve komponenti: plast večglave samopozornosti (ang. Multi-Head Self-Attention), ki ji sledi polno povezana plast z aktivacijami ReLU, ki obdeluje vsak element vhodne sekvence vzporedno.
Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem \cite{vaswani2017attention}.
V članku \cite{vaswani2017attention} in predhodni literaturi \cite{bahdanau2015neural} se vrstice \( Q \in\mathbb{R}^{m \times d_k}\) imenujejo poizvedbe, vrstice \( K \in\mathbb{R}^{n \times d_k}\) ključi, in vrstice \( V \in\mathbb{R}^{n \times d_v}\) vrednosti.
Vektorji poizvedbe in ključev se med seboj primerjajo preko skalarnega produkta. Ta produkt nam pove, koliko pozornosti naj določen ključ nameni določeni poizvedbi.
Utežena vsota vektorskih vrednosti določa, koliko informacij iz vsakega ključa se upošteva v končnem izhodu.
V tem postopku so uporabljene le matrične in vektorske operacije, brez dodatnih učljivih parametrov.
V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav.
Nato se za vsak niz izračuna funkcija pozornosti Scaled Dot-Product Attention.
Rezultati teh funkcij pozornosti se nato združijo skupaj v eno matriko.
Končno se ta matrika preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti.
kjer so $Q \in\mathbb{R}^{m \times d_{\text{model}}}$, $K \in\mathbb{R}^{n \times d_{\text{model}}}$, in $V \in\mathbb{R}^{n \times d_{\text{model}}}$.
Poleg tega, ob upoštevanju hiperparametra $h$, ki označuje število glav pozornosti, velja: $W_{Qi}\in\mathbb{R}^{d_{\text{model}}\times d_k}$, $W_{Ki}\in\mathbb{R}^{d_{\text{model}}\times d_k}$, $W_{Vi}\in\mathbb{R}^{d_{\text{model}}\times d_v}$, in $W_O \in\mathbb{R}^{hd_v \times d_{\text{model}}}$.
Vsak izračun glave ima drugačno linearno preslikavo za matrike ključev, poizvedb in vrednosti.
Tretja in zadnja uporaba pozornosti v članku \cite{vaswani2017attention} je pozornost kodirnik-dekodirnik, ki se uporablja v blokih dekodirnika neposredno po sloju maske večglave pozornosti, da se povežejo izvorne in ciljne sekvence.
Ko govorimo o pozornosti med kodirnikom in dekodirnikom, je edina razlika od prej v tem, da $Q$ izhaja iz sloja maske večglave pozornosti, medtem ko sta $K$ in $V$ kodirani predstavitvi $\vec{F}$.
Lahko bi razmišljali o tem tako, da model zastavlja vprašanje o tem, kako se vsak položaj v ciljni sekvenci nanaša na izvor, in pridobiva predstavitve izvora za uporabo pri generiranju naslednje besede v cilju.
Pomembno je poudariti, da vsi bloki dekodirnika prejmejo enake podatke od kodirnika. Od prvega do $N$-tega bloka dekodirnika vsak uporablja kodirano izvorno sekvenco kot ključe in vrednosti.
Namesto da bi slike obdelovali kot dvodimenzionalne mreže pikslov (kot to počnejo konvolucijske nevronske mreže), Vision Transformer slike obravnava kot zaporedje majhnih kvadratov ali zaplat.
Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali presegel učinkovitost konvolucijskih nevronskih mrež na številnih nalogah računalniškega vida.
Za boljše razumevanje si poglejmo podrobneje prvo stopnjo: Vhodna slika velikosti $ H \times W \times3$ je razdeljena na zaplate velikosti $4\times4\times3$.
To pomeni, da je število zaplat enako $ HW/4^2$. Vsaka zaplata je nato sploščena in prenesena v linearno projekcijo, kar rezultira v vdelavi zaplat velikosti
$ HW /4^2\times C1$. Te vdelane zaplate, skupaj z dodano vdelavo položaja, prehajajo skozi Transformerski kodirnik z $L1$ plastmi.
Ena izmed ključnih inovacij v PVT je uporaba pozornosti za zmanjšanje prostorskega obsega (ang. Spatial Reduction Attention - SRA) namesto tradicionalne večglave pozornostne plasti (ang. Multi Headed Attention - MHA).
Ta pristop omogoča PVT-ju, da učinkovito obdela značilnostne mape visoke ločljivosti.
V primerjavi z ViT, PVT prinaša večjo prilagodljivost, saj lahko generira značilnostne mape različnih meril/kanalov v različnih fazah.
Poleg tega je bolj vsestranski, saj se lahko enostavno vključi in uporabi v večini modelov za spodnje naloge.
Prav tako je bolj prijazen do računalniških virov in spomina, saj lahko obdela značilnostne mape višje ločljivosti.
Twins-PCPVT \cite{chu2021twins} je zasnovan na osnovi PVT in CPVT \cite{chu2021conditional}. Glavna razlika med Twins-PCPVT in PVT je v načinu uporabe pozicijskih kodiranj.
V PVT so uporabljena absolutna pozicijska kodiranja, medtem ko Twins-PCPVT uporablja pogojna pozicijska kodiranja (ang. Conditional Positional Encoding - CPE),
PVT je uvedel piramidno večstopenjsko strukturo z namenom boljšega obravnavanja nalog goste napovedi, kot so zaznavanje objektov in semantična segmentacija.
V Twins-PCPVT so absolutna pozicijska kodiranja nadomeščena s pogojnimi pozicijskimi kodiranji (CPE), ki so odvisna od vhodov in se tako lahko naravno izognejo zgoraj omenjenim težavam.
Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiranje na podlagi vhodnih značilnosti, in $E_i$ so značilnosti iz različnih stopenj kodirnika.
Siamske nevronske mreže predstavljajo sodoben pristop v domeni primerjave vzorcev v računalniškem vidu.
Z zmožnostjo učinkovite primerjave med paroma slik so siamske mreže pridobile pozornost v številnih aplikacijah, kjer je ključnega pomena zanesljiva ocena podobnosti.
V tem podpoglavju bomo obravnavali osnovno arhitekturo siamske mreže, metodologijo njenega učenja ter aplikacije in prednosti, ki jih prinaša v prakso.
Matematično, za dve sliki $x_1$ in $x_2$, podmreži proizvedeta predstavitve $f(x_1; \theta)$ in $f(x_2; \theta)$. Razdalja $D$ med tema dvema predstavitvama je določena kot:
Siamske mreže za primerjavo vzorcev so se izkazale za izjemno koristne v številnih aplikacijah, kot so prepoznavanje in sledenje objektom, biometrija ter varnost in nadzor.
Zaradi globje hierarhične predstavitve slike so sposobne zaznati in primerjati kompleksne značilnosti, ki jih manj kompleksne metode morda ne bi opazile.
V svetu raziskovanja je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov.
Kljub obstoju številnih zbirk, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik.
Konkretno, CVUSA se osredotoča na zgradbe, medtem ko University-1652 predstavlja predvsem univerzitetna okolja.
Zaradi pomanjkljivosti obstoječih zbirk in odsotnosti specifične javno dostopne podatkovne zbirke UL14, ki so jo avtorji uporabili v \cite{dai2022finding}, smo se soočili z izzivom pri zbiranju primerne podatkovne osnove za analizo.
Da bi premostili to vrzel, smo se odločili za ustvarjanje lastne zbirke.
Za pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \cite{google_earth_studio} in pridobili slike iz 11 večjih evropskih mest.
Te slike odražajo raznolikost terena, vključno z zgradbami, parki, zelenimi in vodnimi površinami.
Dodatno smo uporabili Mapbox API \cite{mapbox_api} za pridobitev pripadajočih satelitskih slik.
Skupno je naša podatkovna množica obsežna in vključuje več kot 11.000 slik.
V članku \cite{dai2022finding, wang2023wamf} so avtorji uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo.
Ta zbirka se osredotoča večinoma na slike stavb večjih kitajskih univerz. V nasprotju s tem naša zbirka ponuja širši spekter značilnosti za analizo in bolje odraža realne okoliščine.
Cilj izdelave naše zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Nabor podatkov, ki ga predstavljamo, je bil zasnovan z namenom raziskovanja in analizel lokalizacije brezpilotnih letalnikov v različnih mestnih scenarijih.
V mestnih območjih je poudarek na razumevanju, kako se brezpilotni letalniki lokalizirajo in navigirajo med visokimi zgradbami, kjer so lahko GPS signali zmanjšani ali moteni.
Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \cite{google_earth_studio}.
Vsaka slika je opremljena z oznakami lokacije kamere v sistemu ECEF. Sistem ECEF (Earth Centered, Earth Fixed) je globalni koordinatni sistem z izhodiščem v središču Zemlje.
Na Sliki \ref{fig:region_structures} je prikazana vizualna razdelitev zelenih površin in stavb za različna mesta, temelječa na analizi slik, ki smo jih zajeli v našem podatkovnem naboru.
Vsako mesto razkriva svojo edinstveno strukturo in raven urbanizacije.
Te razlike so ključnega pomena pri razumevanju izzivov, s katerimi se srečujejo brezpilotni letalniki pri lokalizaciji in navigaciji v različnih mestnih okoljih.
Takšne razlike lahko vplivajo na algoritme lokalizacije in navigacije brezpilotnih letalnikov, saj se morajo prilagajati različnim scenarijem in oviram.
Za vsako sliko posneto z brezpilotnim letalnikom smo poiskali ustrezen satelitski "tile" ali ploščico.
Ta korak je bil ključnega pomena, saj je zagotovil, da so satelitske slike popolnoma usklajene z slikami posnetimi iz brezpilotnega letalnika v smislu geografske lokacije.
Ko govorimo o ploščicah v kontekstu kartografije in GIS (Geografski informacijski sistem), se običajno nanašamo na kvadratne segmente, ki pokrivajo Zemljo in se uporabljajo za hitrejše in učinkovitejše prikazovanje zemljevidov na spletu.
Za pretvorbo geografskih koordinat (latitudo in longitudo) v ploščične koordinate (x, y) na določeni ravni povečave z uporabo Mercatorjeve projekcije, lahko izrazimo:
Na slikah \ref{fig:sat_examples_grid_1} in \ref{fig:sat_examples_grid_2} so prikazani primeri pripadajočih satelitskih slik za slike zajete z brezpilotnim letalnikom.
V okviru raziskave smo iz visokoločljivostnih satelitskih TIFF datotek naključno izrezali regije velikosti 400x400 pikslov.
Pri vsaki iteraciji je bil izrez drugačen, s poudarkom na vključevanju referenčne točke lokalizacije v izrez.
Ta pristop zagotavlja izpostavljenost modela različnim scenarijem ob ohranjanju natančnosti lokalizacijskih podatkov.
Slike, pridobljene z brezpilotnimi letalniki, so bile obdelane s tehniko \textit{osrednjega izreza} in različnimi stopnjami povečave, združujoč detajlnost teh slik z obsežnostjo satelitskih posnetkov.
Spodaj na slikah \ref{fig:drone_sat_example_19}, \ref{fig:drone_sat_example_21}, \ref{fig:drone_sat_example_37}, \ref{fig:drone_sat_example_55} in \ref{fig:drone_sat_example_82} je prikazanih nekaj primerov takšnih izrezov.
Na vsaki sliki je s pomočjo rdečega krogeca označen center izreza, ki predstavlja referenčno točko lokalizacije iz brezpilotnega letalnika, s čimer je omogočeno lažje prepoznavanje osredotočenosti izreza.
\caption{Leva slika prikazuje Gradec s 2-kratno povečavo slike iz brezpilotnega letalnika, desna pa Trst s 2,5-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje mesto Szombathely s 1,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa z 2-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Zagreb s 1,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Szombathely s 2,5-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Benetke s 3-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula s 2-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Trst s 3,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z 1-kratno povečavo slike iz brezpilotnega letalnika.}
Med optimizacijo modela smo se posvetili iskanju optimalne kriterijske funkcije.
Da bi bolje razumeli, katera funkcija bi lahko prinesla najboljše rezultate v našem primeru, smo izvedli serijo eksperimentov z različnimi funkcijami ter jih evalvirali glede na njihovo učinkovitost in zanesljivost.
Kot naslednji korak smo preučili stratificirano vzorčenje, tehniko, ki bi lahko pripomogla k izboljšanju natančnosti in robustnosti modela z zagotavljanjem bolj uravnoteženega učnega nabora.
Pregledali smo tudi vpliv Hanningovega okna ter analizirali, kako različne velikosti tega okna vplivajo na končne rezultate modela.
V zaključni fazi naših eksperimentov smo se osredotočili na regularizacijo, predvsem na tehniko izpuščanja nevronov.
Zaradi kompleksnosti modelov globokega učenja smo želeli razumeti, kako bi taka regularizacija lahko pomagala preprečiti prekomerno prilagajanje ter izboljšala splošno učinkovitost modela.
Vsako od teh področij je v nadaljevanju podrobno obravnavano, pri čemer so podane analize, interpretacije in ključne ugotovitve, ki smo jih pridobili v tem procesu.
To je posledica različnih perspektiv med predlogo (sliko posneto z brezpilotnim letalnikom) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo.
Metoda iskanja točk uporablja satelitsko sliko kot referenčno in sliko iz brezpilotnega letalnika kot poizvedbeno.
Obe sliki – posneto z brezpilotnim letalnikom in satelitsko sliko relevantnega območja – se nato prenesejo v end-to-end omrežje.
Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model.
Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika.
V FPI avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike \cite{dai2022finding}.
Ekstrahirane značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika.
Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pozicioniranja.
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili strukturo piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za izluščenje značilnosti iz slik brezpilotnega letalnika in satelitskih slik.
Da bi bolje zajeli informacije na različnih ločljivostih in ohranili več prostorskih informacij, so bile prvotno izluščene značilnosti poslane v omrežje značilnostne piramide za nadaljnjo obdelavo.
Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu WAMF-FPI. Na sliki \ref{fig:model_architecture} je prikazana skica arhitekture modela WAMF-FPI.
Zaradi občutne razlike med satelitskimi slikami in slikami brezpilotnega letalnika, ki izvirajo iz različnih naprav, veji modela WAMF-FPI za vsako od teh vrst slik ne uporabljata metode deljenja uteži.
Konkretno, WAMF-FPI kot vhod uporablja satelitske slike dimenzij 400 × 400 × 3 in slike brezpilotnega letalnika dimenzij 128 × 128 × 3.
Natančneje, v modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
V primerjavi z Deit-S, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo.
Ta struktura je bolj prilagodljiva za naloge goste napovedi.
Pravzaprav uporaba piramidne strukture zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega omrežje z piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
Kljub temu je končni izhod stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem s bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike.
Pristranskost, ki je posledica nizke ločljivosti značilnostne mape, je bila odstranjena že na samem začetku.
Ker značilnostna mapa z visoko ločljivostjo vsebuje več prostorskih informacij, je bila združena z globoko značilnostno mapo, bogato s semantičnimi informacijami, preko lateralne povezovalne strukture.
WAMF-FPI uporablja konvolucijske mreže za izluščenje značilnosti iz vhodnih slik.
Prva faza obdelave v WAMF-FPI je uporaba konvolucijskega jedra velikosti ena, ki prilagodi kanalsko dimenzijo tri-stopnjske značilnostne mape, pridobljene s pomočjo PCPVT-S.
Število izhodnih kanalov je bilo nastavljeno na 64, kar zagotavlja kompaktno in učinkovito zastopanje značilnosti.
Po tej fazi sledi upsampling operacija na značilnostnih mapah zadnjih dveh stopenj, ki poveča njihovo ločljivost in s tem omogoča bolj precizno lokalizacijo.
Te mape se nato kombinirajo z značilnostnimi mapami istega merila iz osnovnega modela.
Končno, značilnosti se dodatno izluščene s pomočjo konvolucijskega jedra velikosti 3, kar modelu omogoča izluščenje bolj kompleksnih značilnosti iz združenih map.
Rezultat je združena značilnostna mapa, ki združuje plitve (prostorske) in globoke (semantične) informacije.
Ta bogata kombinacija modelu omogoča učinkovito prepoznavanje in lokalizacijo objektov na vhodnih slikah.
\subsection{Arhitektura utežno-prilagodljivega združevanja večznačilnostnih lastnosti (WAMF)}
Modul za združevanje značilnosti je zasnovan tako, da združuje informacije iz dveh ločenih vhodnih tokov, v tem primeru iz UAV (brezpilotnega letalnika) in SAT (satelita).
V osnovi ena značilnostna mapa (poimenovana poizvedba) drsi čez drugo značilnostno mapo (poimenovana iskalna regija) in izračuna podobnost med njima na vsaki lokaciji.
Rezultat tega postopka je nova značilnostna mapa, imenovana korelacijska mapa, kjer vsaka vrednost predstavlja stopnjo podobnosti med poizvedbo in delom iskalne mape na določeni lokaciji.
Matematično je korelacija med dvema funkcijama $f$ in $g$ definirana kot:
Da bi lahko ovrednotili in primerjali zmogljivost našega modela, uporabljamo metriko RDS \cite{wang2023wamf}. Zaradi različnih meril podatkov v naboru podatkov vsak piksel v različnih satelitskih slikah predstavlja različno razdaljo.
Čeprav model morda najde točko, ki je na satelitski sliki blizu dejanske lokacije, lahko v resničnem prostoru povzroči veliko napako.
Da bi se izognili težavam zaradi spremembe merila, RDS izračuna relativno razdaljo na ravni pikslov med napovedano in dejansko točko.
Tukaj je napovedana pozicija rahlo odmaknjena samo v vodoravni smeri za 2 piksla. $RDS =0.975$ kaže na minimalno odstopanje napovedane pozicije od dejanske.
\textbf{Primer 3:}
Za $w=400px$, $h=400px$, $dx=10px$, $dy=14px$ in $k=10$ dobimo:
V tem primeru je napovedana pozicija odmaknjena tako v vodoravni kot navpični smeri. $RDS$ vrednost $0.806$ kaže na večjo relativno napako v primerjavi s prejšnjim primerom.
RDS metrika nam omogoča kvantitativno oceno natančnosti napovedane pozicije v primerjavi z dejansko pozicijo.
Višja kot je vrednost RDS, bližje je napovedana točka dejanski točki.
V obratnem primeru, nižja kot je vrednost RDS, večja je napaka med napovedano in dejansko točko.
Dodatno je računalnik vseboval grafično kartico NVIDIA GeForce RTX 3060 s 12 GB pomnilnika, kar je omogočalo efektivno paralelizacijo in optimizacijo operacij, ki jih zahteva model med učenjem.
V času učenja našega modela ni prišlo do povečane energetske porabe, saj je bil naš računalnik neprestano napajan iz lokalne sončne elektrarne.
To pomeni, da je bil celoten postopek učenja izveden na okolju prijazen način, brez dodatnega obremenjevanja električnega omrežja ali uporabe fosilnih goriv.
\item[Naprava:] Učenje je potekalo na \texttt{cuda:0}, ki se nanaša na uporabo NVIDIA grafične kartice.
\item[Hitrost učenja:] Uporabljena sta bila dva različna parametra: $lr\_fusion =0.0004$ za združevanje in $lr\_backbone =0.0001$ za osnovno arhitekturo.
\item[Prilagajanje hitrosti učenja:]$gamma =0.2$ z mejniki na epohah 9, 13 in 15.
\item[Delovni procesi:] Skupno 24 hkratnih delovnih procesov (\texttt{num\_workers = 24}).
\item[Epoh:] Model je bil učen skozi 24 epoh.
\item[Velikost serije:]\texttt{batch\_size = 16}.
\item[Mešanje podatkov:] Podatki so bili premešani pred vsako epoho.
\item[Funkcija izgube:] Uporabljena je bila \texttt{hanning} funkcija.
\item[Vizualizacija:] Vključena za spremljanje napredka učenja.
Za vsako iteracijo učenja smo iz vsake satelitske TIFF datoteke naključno izrezali regijo velikosti 400x400 pikslov.
Ključnega pomena je bilo, da se je točka lokalizacije vedno nahajala nekje znotraj te izrezane regije.
Ta metoda nam je zagotovila, da je bil model izpostavljen širokemu naboru scenarijev in kontekstov, hkrati pa smo ohranili natančnost in relevantnost lokalizacijskih podatkov.
S tem pristopom smo uspešno sestavili nabor podatkov, ki združuje najboljše iz obeh svetov: detajlnost slik posnetih z brezpilotnim letalnikom in širino satelitskih slik, kar omogoča poglobljeno analizo in učinkovito učenje.
Gaussova utežena srednja kvadratna napaka (Gaussian Weighted Mean Squared Error - GWMSE) je modificirana funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike. Glavna značilnost GWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Hanningovi funkciji izgube.
Namesto enakega pomena vseh pozitivnih vzorcev, GWMSE različnim vzorcem dodeljuje različne uteži glede na njihovo lokacijo.
Hanningova utežena srednja kvadratna napaka (Hanning Weighted Mean Squared Error - HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike.
Glavna značilnost HWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Gaussovi funkciji izgube.
Funkcija izgube križno utežena srednja kvadratna napaka (Cross-Weighted Mean Squared Error - CW-MSE) je različica standardne srednje kvadratne napake (Mean Squared Error - MSE), ki vključuje uteževanje dveh različnih skupin vzorcev: tistih, katerih resnična vrednost je večja od 0 (t.i. "resničnih" vzorcev) in tistih, katerih resnična vrednost je manjša ali enaka 0 (t.i. "ne-resničnih" vzorcev).
Končna funkcija izgube se izračuna kot utežena kombinacija srednjih kvadratnih napak za "resnične" in "ne-resnične" vzorce, pri čemer se uteži vzorcev različnih skupin prekrižajo.
\item$\text{MSE}{\text{true}}=\frac{1}{N{\text{true}}}\sum_{i=1}^{N_{\text{true}}}(y_i -\hat{y}_i)^2$ za vzorce, katerih resnična vrednost je večja od 0.
\item$\text{MSE}{\text{false}}=\frac{1}{N{\text{false}}}\sum_{i=1}^{N_{\text{false}}}(y_i -\hat{y}_i)^2$ za vzorce, katerih resnična vrednost je enaka ali manjša od 0.
V kontekstu geolokalizacije brezpilotnih letalnikov v modelu WAMF-FPI je Hanningova kriterijska funkcija izkazala izjemno učinkovitost glede na vrednosti RDS.
Kot je razvidno iz Tabele \ref{tab:metode}, razmerje $RDS_{\text{train}}$ za Hanningovo kriterijsko funkcijo je 0.893, kar kaže na visoko natančnost pri učenju modela.
Čeprav se razmerje $RDS_{\text{val}}$ zmanjša na 0.709, je še vedno precej višje v primerjavi z drugimi preučevanimi kriterijskimi funkcijami.
V primerjavi s Hanningovo kriterijsko funkcijo so druge kriterijske funkcije praktično neuporabne, kar potrjuje,
da je Hanningova kriterijska funkcija optimalna izbira za geolokalizacijo brezpilotnih letalnikov v obravnavanem modelu \cite{wang2023wamf}.
Hanningova kriterijska funkcija, ki je značilna po dodeljevanju uteži vzorcem glede na njihovo lokacijo, je na učni množici dosegla skupno vrednost 8.49 in $RDS_{\text{train}}$
vrednost 0.893. Kljub temu, da je na validacijski množici dosegla nekoliko nižjo $RDS_{\text{val}}$
vrednost 0.709, to kaže, da se je znanje dobro preneslo na validacijsko množico. Zaradi teh pozitivnih rezultatov smo Hanningovo kriterijsko funkcijo uporabljali v nadaljnjem testiranju.
V spodnjem razdelku so na slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5}
predstavljeni primeri lokalizacije z modelom WAMF-FPI na vzorcu iz validacijske množice za Ljubljano.
Na vsaki sliki je z rdečim krogcem označena dejanska lokacija (ang. ground truth), medtem ko je z modrim krogcem označena predikcija modela, ki predstavlja najvišjo točko v toplotni karti.
\caption{Leva slika prikazuje gradbšče prisotno na sliki iz brezpilotnega letalnika, odsotno na satelitski sliki z napako 169.43m in RDS vrednostjo 0.09.
Desna slika pa polje v monotoni okolici z napako 155.47m in RDS vrednostjo 0.10.}
Stratificirano vzorčenje je metoda vzorčenja, pri kateri se celoten nabor podatkov razdeli na ločene podskupine ali strate.
Vsak stratum predstavlja določeno kategorijo ali razred v naboru podatkov.
V kontekstu mest bi lahko vsako mesto predstavljalo svoj stratum.
Namen stratificiranega vzorčenja je zagotoviti, da je vsak vzorec reprezentativen za celoten nabor podatkov.
Zakaj je stratificirano vzorčenje pomembno?
\begin{enumerate}
\item\textbf{Ohranjanje Distribucije}:
Stratificirano vzorčenje zagotavlja, da se razmerje vzorcev v vsakem stratumu ohranja enako kot v celotnem naboru podatkov.
To je še posebej pomembno, ko je distribucija podatkov v vsakem stratumu (v tem primeru mesto) ključnega pomena za analizo.
Na primer, če želimo, da je naš vzorec reprezentativen za različna mesta, bi uporabili stratificirano vzorčenje, da zagotovimo, da so vsa mesta ustrezno zastopana.
Stratificirano vzorčenje lahko poveča natančnost ocen, saj zmanjšuje variabilnost znotraj vsakega strata.
To pomeni, da so vzorci iz vsakega strata bolj homogeni, kar lahko vodi do natančnejših rezultatov.
\end{enumerate}
Slabosti stratificiranega vzorčenja:
\begin{enumerate}
\item\textbf{Omejena Generalizacija}:
Čeprav stratificirano vzorčenje zagotavlja, da so vse kategorije ali razredi v naboru podatkov ustrezno zastopani v vzorcu, to lahko pomeni, da model morda ni tako dobro pripravljen na povsem nove, nevidene podatke.
Ker se vzorci za učenje in validacijo izbirajo iz iste distribucije (stratificirane distribucije), model morda ne bo dobro deloval na "out-of-distribution" podatkih.
To pomeni, da čeprav model morda kaže visoko natančnost na validacijskem naboru, to ne zagotavlja, da bo enako dobro deloval na podatkih, ki se močno razlikujejo od originalne distribucije.
Če primerjamo rezultate $RDS_{\text{val}}$ med obema pristopoma, opazimo, da je model,
ki je bil naučen s stratificiranim vzorčenjem, dosegel rahlo višjo uspešnost (0.731) v primerjavi z modelom, ki je bil naučen s tradicionalno metodo "train-test split" (0.709).
To kaže, da se je model, ki je bil naučen s stratificiranim vzorčenjem, nekoliko bolje spoprijel s generalizacijo na nevidenih podatkih.
To dejstvo podkrepi tudi zmanjšana razlika med uspešnostjo na učni in validacijski množici v primeru stratificiranega vzorčenja.
Večja konsistentnost rezultatov med učno in validacijsko množico je lahko pokazatelj, da model ni pretirano prilagojen in se lahko bolje generalizira na nove podatke.
Torej, medtem ko je originalna metoda dosegla višjo uspešnost na učni množici, se zdi,
da stratificirano vzorčenje ponuja bolj zanesljive in stabilne rezultate na validacijski množici, kar je ključnega pomena za ocenjevanje realne zmogljivosti modela.
V našem primeru se zdi, da stratificirano vzorčenje ponuja bolj robusten in stabilen model za obravnavane satelitske slike.
Vendar pa je pomembno upoštevati tudi omejitve stratificiranega vzorčenja, kot so omejena generalizacija in potencialne težave pri "out-of-distribution" podatkih.
Majhna velikost okna omejuje območje vzorcev, ki ga zajema.
Takšna omejitev lahko zmanjša učinkovitost povratnega razširjanja med učenjem modela, saj kriterijska funkcija nima dovolj širokega vpliva na celotno mrežo.
Nasprotje predstavlja preveliko okno, ki zajema široko paleto vzorcev. Kljub širšemu zajemu, lahko detajli v sliki postanejo manj opazni, kar zmanjšuje natančnost predikcij.
\item Vsak model je bil posebej natreniran z različno velikostjo Hanningovega okna. To smo storili, da bi preverili vpliv različnih velikosti oken na uspešnost in natančnost modela.
\item Po treniranju vsakega modela smo za testiranje uporabili enostaven primer kombinacije slike zajete z brezpilotnim letalnikom in satelitske slike.
To nam je omogočilo direktno primerjavo delovanja modelov na isti vhodni podatki in tako odpravilo morebitne nejasnosti ali napake, ki bi jih prinesli različni vhodni podatki.
\item Referenčni sliki, ki smo ju uporabili za testiranje, je prikazana na sliki \ref{fig:sat_drone}.
Slika brezpilotnega letanika predstavlja tipičen primer slike, s katero se naš model srečuje v praksi in vsebuje različne značilnosti terena, ki so pomembne za lokalizacijo.
Eksperimenti so bili izvedeni z različnimi velikostmi oken, da bi ugotovili njihov vpliv na uspešnost modela. Primeri so prikazani na slikah \ref{fig:heatmaps3d_1}, \ref{fig:heatmaps3d_2}, \ref{fig:heatmaps3d_3}, \ref{fig:heatmaps3d_4} in \ref{fig:heatmaps3d_5}.
Podatki kažejo na optimalno ravnovesje med velikostjo oken in natančnostjo modela.
Najboljše uspešnosti so bile dosežene z okni velikosti 31 in 33. Te velikosti sovpadajo s priporočili iz literature, kjer je bila optimalna velikost okna določena na 33 \cite{wang2023wamf}.
Čeprav imajo nekatera druga okna boljšo vrednost kriterijske funkcije (vidno na sliki \ref{fig:plot_different_hann_kernels}), je analiza slik pokazala, da je najmanj šuma prav pri oknih velikosti 31 in 33.
Okna, ki imajo manjše ali večje jedro od teh velikosti, začnejo vnašati šum na različnih lokacijah, kar vodi do zmanjšane natančnosti pri lokalizaciji. Ta šum lahko moti interpretacijo satelitskih slik in zmanjša zanesljivost modela.
Zaključimo lahko, da je izbira prave velikosti Hanningovega okna ključna za doseganje optimalnih rezultatov.
V svetu strojnega učenja je regularizacija ključna tehnika, ki se uporablja za preprečevanje prekomernega prilagajanja modela.
Prekomerno prilagajanje se pojavi, ko model postane preveč specifičen za učni nabor podatkov, kar pomeni, da se "preveč nauči" podrobnosti in šuma v učnih podatkih,
kar vodi v slabo zmogljivost na novih, nevidenih podatkih.
Med različnimi tehnikami regularizacije je "izpuščanje nevronov" (ang. dropout) ena izmed najbolj priljubljenih in učinkovitih metod za nevronske mreže.
Koncept izpuščanja nevronov je preprost, a močan: med učenjem se določen odstotek nevronov v mreži naključno "izklopi" ali izpusti. To pomeni, da se med posameznim prehodom naprej določeni nevroni (in njihove povezave) začasno odstranijo iz mreže.
Izpuščanje nevronov je bilo uporabljeno za regulacijo različnih komponent modela, vključno z deli, kot so \texttt{attn\_drop}, \texttt{proj\_drop}, \texttt{head\_drop}, \texttt{mlp\_drop1}, \texttt{mlp\_drop2} in \texttt{pos\_drops}.
V kompleksnih modelih, kot je Twins, kjer je veliko komponent, ki se lahko prekomerno prilagodijo podatkom, je uporaba izpuščanja nevronov ključnega pomena za zagotavljanje natančnih in zanesljivih rezultatov.
\subsection{Prednaučena mreža za izluščenje značilnosti}
Uporaba prednaučenih modelov v strojnem učenju omogoča izkoristek že obstoječega znanja modela za pospešitev in izboljšanje učenja na novem naboru podatkov.
Zlasti v kontekstu globokih nevronskih mrež so prednaučeni modeli dragoceni, saj lahko pomagajo modelom hitreje konvergirati in v nekaterih primerih doseči boljše rezultate.
\subsection{Rezultati}
Naši rezultati kažejo, da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične naloge.
Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretacijo značilnosti iz našega nabora podatkov, kar je vodilo k izboljšanim rezultatom.
To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora.
Kljub njihovi široki uporabi pa se soočajo z več ključnimi izzivi, zlasti na področju avtonomne navigacije.
V diplomski nalogi smo se osredotočili na raziskovanje in implementacijo metode WAMF-FPI za lokalizacijo brezpilotnih letalnikov na podlagi slik.
Spodaj so izpostavljene naše glavne ugotovitve in predlogi:
Med našo analizo smo opazili, da bi lahko del združevanja značilnosti optimizirali z uporabo metode pozornosti, kar bi omogočilo še boljše ujemanje med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami.
Ena od glavnih težav, s katerimi se metoda še vedno sooča, je identifikacija prave satelitske slike, ki ustreza sliki posneti z brezpilotnim letalnikom.
To predstavlja izziv, še posebej v bazah z milijoni slik, in je eno od področij, ki zahteva nadaljnje raziskave.
Poskusili smo to implementirati, vendar je na žalost zmanjkalo časa.
Kljub temu obstaja potencial za integracijo te metode z obstoječimi senzorji na brezpilotnem letalniku za izboljšanje lokalizacije.
\item\textbf{Raziskava različnih kriterijskih funkcij}:
V okviru naše analize smo preizkusili več kriterijskih funkcij, vključno s Hanningovo kriterijsko funkcijo, Gaussovo uteženo srednjo kvadratno napako, Hanningovo uteženo srednjo kvadratno napako ter križno uteženo srednjo kvadratno napako.
Rezultati so pokazali, da je Hanningova kriterijska funkcija izstopala kot najbolj učinkovita med vsemi preizkušenimi.
Te ugotovitve so v skladu z implementacijo in rezultati, predstavljenimi v izbranem članku.
\item\textbf{Regularizacija in računske obremenitve}:
Ugotovili smo, da ima regularizacija v modelu z uporabo izpuščanja nevronov pomembno vlogo pri preprečevanju prenaučenja.
Vendar pa je treba skrbno uravnotežiti med računskimi obremenitvami in natančnostjo modela.
\item\textbf{Praktična uporaba}:
Naša največja ambicija za prihodnost je preizkusiti metodo WAMF-FPI na dejanskem brezpilotnem letalniku.
S tem bi lahko dobili boljšo predstavo o realni učinkovitosti in uporabnosti metode v praksi.
Metoda WAMF-FPI predstavlja pomemben korak naprej v lokalizaciji brezpilotnih letalnikov, še posebej v okoljih, kjer je satelitski signal omejen ali nezanesljiv.
Kljub obetavni učinkovitosti metode pa obstajajo še nekateri izzivi in priložnosti za izboljšave.
Naša raziskava je postavila trdne temelje za nadaljnji razvoj in implementacijo metode v realnih sistemih brezpilotnih letalnikov.
Naslednji koraki bi vključevali nadaljnje optimizacije modela, razširitev podatkovnih zbirk in končno implementacijo na dejanskih brezpilotnih letalnikih.