% vzorčna datoteka za pisanje diplomskega dela v formatu LaTeX
% na UL Fakulteti za računalništvo in informatiko
%
% na osnovi starejših verzij vkup spravil Franc Solina, maj 2021
% prvo verzijo je leta 2010 pripravil Gašper Fijavž
%
% za upravljanje z literaturo ta vezija uporablja BibLaTeX
%
% svetujemo uporabo Overleaf.com - na tej spletni implementaciji LaTeXa ta vzorec zagotovo pravilno deluje
%
\documentclass[a4paper,12pt,openright]{book}
%\documentclass[a4paper, 12pt, openright, draft]{book} Nalogo preverite tudi z opcijo draft, ki pokaže, katere vrstice so predolge! Pozor, v draft opciji, se slike ne pokažejo!
\usepackage[utf8]{inputenc}% omogoča uporabo slovenskih črk kodiranih v formatu UTF-8
\usepackage[slovene,english]{babel}% naloži, med drugim, slovenske delilne vzorce
\usepackage[pdftex]{graphicx}% omogoča vlaganje slik različnih formatov
\usepackage{fancyhdr}% poskrbi, na primer, za glave strani
V zadnjem času postaja uporaba brezpilotnih letalnikov vse bolj razširjena in se uporablja v različnih področjih, kot so agrikultura, kartiranje, vojaške operacije in še mnogo drugih.
Kljub njihovi vsestranskosti pa se poraja ključno vprašanje: kako se droni obnašajo, ko izgubijo stik z GPS sistemom?
Diplomska naloga se osredotoča na to tematiko in predlaga metodo za lokalizacijo brezpilotnih letalnikov ob izgubi GPS signala.
In recent times, the use of unmanned aerial vehicles (UAVs) has become increasingly prevalent, finding applications in various fields such as agriculture, mapping, military operations, and many others.
Despite their versatility, a critical question arises: how do drones behave when they lose connection to the GPS system?
This thesis focuses on this issue and proposes a method for localizing UAVs in the event of a GPS signal loss.
\noindent Diplomsko delo se osredotoča na uporabo naprednih nevronskih mrež za lokalizacijo brezpilotnih letalnikov s pomočjo satelitskih slik.
V uvodu je predstavljena osnovna terminologija in koncepti s področja nevronskih mrež.
V metodološkem delu so podrobno razložene konvolucijske nevronske mreže, transformerska arhitektura ter njeni derivati, kot sta Vision Transformer (ViT) in Piramidni vision transformer (PVT).
Posebno pozornost je namenjena Siamski nevronski mreži, ki je ključna za primerjavo vzorcev med satelitskimi in dronskimi slikami.
Podatkovna množica, uporabljena za učenje in testiranje, vključuje slike brezpilotnega letalnika in satelitske slike.
V razdelku rezultatov so predstavljene ključne faze implementacije, učenja modela, izbire kriterijske funkcije ter različne optimizacijske strategije, kot je uporaba Stratificiranega Vzorčenja.
Poudarjena je tudi vloga Hanningovega okna in regularizacijskih tehnik, kot je izpuščanje nevronov.
Delo zaključuje s sklepnimi ugotovitvami, ki poudarjajo potencial in učinkovitost predlagane metode za natančno lokalizacijo brezpilotnih letalnikov.
\noindent The thesis focuses on the use of advanced neural networks for the localization of drones using satellite imagery.
In the introduction, foundational terminology and concepts from the realm of neural networks are presented.
The methodology section provides a detailed exploration of convolutional neural networks, transformer architecture, and its derivatives like the Vision Transformer (ViT) and the Pyramid Vision Transformer (PVT).
Particular emphasis is given to the Siamese Neural Network, which is pivotal for comparing patterns between satellite and drone images.
The dataset used for training and testing encompasses drone images and satellite photos.
In the results section, key stages of implementation, model training, criterion function selection, and various optimization strategies, such as Stratified Sampling, are discussed.
The role of the Hanning window and regularization techniques like dropout is also highlighted.
The work concludes with final observations that underscore the potential and efficiency of the proposed method for precise drone localization.
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa.
Vendar pa se ob njihovi uporabi pojavi cela paleta izzivov.
Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij, nad katerimi letalnik leti.
Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki.
Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik, zahteva ponovno obdelavo celotne slikovne baze.
To ne le da je časovno potratno, ampak tudi poveča stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja.
Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje.
V praksi to pomeni, da če imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno.
V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}.
Ta pristop se močno razlikuje od običajnih metod v smislu strukture in delovanja.
Osnova metode FPI je, da vzame dva vhodna podatka: sliko, posneto z dronom, in pripadajočo satelitsko sliko.
Ta metoda si je sposodila koncepte iz sledenja objektov in jih uporabila za lokalizacijo, kljub težavam, ki jih povzročajo razlike med slikami UAV in satelitskimi slikami.
WAMF-FPI je evolucija osnovne metode FPI in prinaša številne izboljšave pri procesiranju slik.
Ključna prednost WAMF-FPI je njegova napredna piramidna struktura ekstrakcije značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
Z uporabo te piramidne strukture se značilke ekstrahirajo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
Poleg tega WAMF-FPI optimizira kompresijske zmogljivosti, kar pripomore k hitrejšemu in učinkovitejšemu procesiranju podatkov.
Medtem ko je v osnovni FPI metodi končna velikost značilk bila stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo 4-krat manjšo velikost.
To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
Zaradi pomanjkanja dostopnih podatkovnih zbirk smo se odločili, da bomo ustvarili svojo.
To smo storili s pomočjo Google Earth Studio.
Naša zbirka vključuje 11 večjih evropskih mest z raznoliko strukturo.
Cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Zato smo se odločili, da bomo v tej diplomski nalogi sami implementirali WAMF-FPI, kakor je opisano v izvornem članku, in preverili njegovo delovanje.
Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode.
V tej diplomski nalogi bomo podrobno raziskali te tehnike, njihove prednosti in pomanjkljivosti ter potencialne aplikacije in izboljšave za prihodnost.
Ocenjevali bomo njihovo učinkovitost in natančnost, s poudarkom na njihovi uporabi v realnih scenarijih lokalizacije brezpilotnih letalnikov.
Naš cilj je ponuditi temeljito analizo metode WAMF-FPI in njenih aplikacij, da bi olajšali nadaljnji razvoj in uporabo v industriji brezpilotnih letalnikov.
Brezpilotni letalniki, znani tudi kot droni, so daljinsko vodena ali avtonomna zračna plovila, opremljena s senzorji in GPS tehnologijo.
Uporabljajo se v različnih sektorjih, od vojaških do rekreativnih, in so postali ključni za zbiranje podatkov v realnem času, terenske raziskave in opravljanje potencialno nevarnih nalog.
Njihova prilagodljivost omogoča uporabo v številnih aplikacijah, kot so inspekcije, filmska produkcija in dostava.
Kljub hitremu razvoju in rasti trga pa tehnologija prinaša izzive, povezane z zasebnostjo, varnostjo in zakonodajo, kar spodbuja nadaljnje raziskave na tem področju.
Sateliti so tehnološke naprave, ki krožijo okoli Zemlje ali drugih nebesnih teles.
Uporabljajo se za različne namene, kot so komunikacija, vremensko opazovanje, navigacija in znanstvene raziskave.
Komunikacijski sateliti omogočajo globalno povezovanje in prenos podatkov, medtem ko vremenski sateliti pomagajo pri napovedovanju vremena.
Sistem GPS, ki temelji na navigacijskih satelitih, je postal ključen za določanje lokacije. Znanstveni sateliti prispevajo k razumevanju vesolja in Zemlje.
Geolokalizacija je proces ugotavljanja geografske lokacije naprav, kot so mobilni telefoni ali vozila.
Ključna je za GPS in navigacijske sisteme, omogoča ciljno usmerjanje oglasov, sledenje vozil, iskanje izgubljenih naprav in deljenje lokacij v socialnih omrežjih.
Uporablja se tudi v znanstvenih raziskavah, kot je spremljanje selitve živali.
Vendar natančnost varira glede na tehnologijo in okolje, prav tako pa se pojavljajo izzivi v zvezi z zasebnostjo in varnostjo.
Toplotna karta vizualno predstavlja podatke z barvami, ki odražajo vrednosti v matriki.
Uporabljena je za vizualizacijo razporeditve spremenljivk v dvodimenzionalnem prostoru in je koristna v znanstvenih ter poslovnih aplikacijah, kot so statistika, biologija in geografija.
Omogoča hitro razumevanje kompleksnih podatkov, saj barvni prehodi razkrivajo vzorce in trende.
V svetu računalniškega vida in strojnega učenja je razvoj učinkovitih metod za lokalizacijo specifičnih točk ali značilnosti na sliki ključnega pomena za številne aplikacije.
V okviru pristopa WAMF-FPI je ta problematika še posebej izpostavljena, saj se osredotoča na natančno določanje točke na sliki.
Da bi to dosegli, je potrebno uporabiti kombinacijo različnih arhitektur in tehnik, ki so se izkazale kot učinkovite v različnih scenarijih obdelave slik.
Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov.
Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu.
Podrobneje se bomo osredotočili na zgradbo transformerja in njegove ključne komponente.
Vsak nevron v tej plasti je povezan le z majhnim območjem v prejšnji plasti, namesto da bi bil povezan z vsemi nevroni, kot je to v običajnih nevronskih mrežah.
Na nižjih ravneh mreže se zaznavajo nizkonivojske značilnosti, kot so robovi in teksture, na višjih ravneh pa se zaznavajo kompleksnejše strukture, kot so oblike in objekti.
Ta hierarhična značilnost je tisto, kar omogoča CNN, da doseže izjemno natančnost pri različnih nalogah obdelave slik.
Preden so obstajali transformatorji, so bile najpogostejše metode za obvladovanje zaporedij v jezikovnih modelih rekurentne nevronske mreže (RNN) in njihove različice, kot so dolgokratni kratkotrajni spomini (LSTM) in obogatene RNN (GRU).
Najpogostejša uporaba teh modelov v kontekstu strojnega prevajanja ali drugih nalog pretvarjanja zaporedja v zaporedje je bila uporaba strukture kodirnik-dekodirnik.
V tej strukturi je bilo zaporedje vhodnih besed ali tokenov kodirano v latentni prostor z uporabo RNN (kodirnik), ta latentni vektor pa je bil nato uporabljen za generiranje zaporedja izhodnih besed ali tokenov z uporabo drugega RNN (dekodirnik).
Problem s to strukturo je bil, da je bil latentni prostor omejen na velikost fiksne dolžine in je moral vsebovati vse informacije iz izvornega zaporedja, ki so potrebne za generiranje ciljnega zaporedja.
To je omejevalo model pri obvladovanju dolgih zaporedij, saj je bilo težko ohraniti informacije iz zgodnjega dela zaporedja do konca.
Da bi to težavo rešili, so raziskovalci vključili mehanizem pozornosti, ki je omogočil dekodirniku, da se osredotoči na različne dele izvornega zaporedja na različnih stopnjah generiranja ciljnega zaporedja.
To je bil velik napredek, ki je omogočil boljše obvladovanje dolgih zaporedij.
Članek, ki je predstavil to idejo za strojno prevajanje, je bil "Neural Machine Translation by Jointly Learning to Align and Translate" \cite{bahdanau2015neural}, objavljen leta 2015.
To je bil ključni korak k razvoju transformerske arhitekture, ki je bila kasneje predstavljena v članku "Attention is All You Need" \cite{vaswani2017attention} leta 2017.
Definirajmo problem strojnega prevajanja kot iskanje najboljše ciljne sekvence $\vec{E}=(e_0, e_1, ..., e_m)$ glede na dane izvorne besede $\vec{F}=(f_0, f_1, ..., f_n)$.
Ta problem lahko izrazimo kot optimizacijo pogojne verjetnosti $P(\vec{E}|\vec{F})$.
Ta pristop omogoča, da dekodirnik upošteva vse besede v izvornem zaporedju, ne samo prejšnje besede v ciljnem zaporedju, kar izboljša kakovost prevoda.
Vendar je to zgolj matematična formulacija koncepta. Dejanski detajli, kot so vrste in struktura kodirnika in dekodirnika, so odvisni od specifičnega modela, ki ga uporabljamo.
V kontekstu strojnega prevajanja so avtorji v članku "Attention is all you need" \cite{vaswani2017attention} o pozornosti predstavili novo vrsto arhitekture, ki se izogiba mnogim pastem modelov, ki temeljijo na RNN.
Kljub vsem napredkom pri kodirnikih-dekodirnikih RNN, ki smo jih obravnavali zgoraj, je ostalo dejstvo, da so RNN težko paralelizirani, ker zaporedno obdelujejo vhod.
Ključna inovacija tega članka je, da so RNN in njihova skrita stanja v celoti nadomeščeni z operacijami na osnovi pozornosti, ki so v mnogih problematičnih režimih bolj učinkoviti.
Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni, vidno na sliki \ref{fig:transformer_network}.
Med učenjem se vhodne besede $\vec{F}=(f_0, ..., f_n)$ hkrati prenesejo v prvi blok kodirnika, izhod tega bloka pa se nato prenese v njegovega naslednika.
Vsak blok ima dve komponenti: plast večglave samopozornosti, ki ji sledi polno povezana plast z aktivacijami ReLU, ki obdeluje vsak element vhodne sekvence vzporedno.
V članku in predhodni literaturi se vrstice $Q \in\mathbb{R}^{m \times d_k}$ imenujejo "poizvedbe", vrstice $K \in\mathbb{R}^{n \times d_k}$ "ključi", in končno vrstice $V \in\mathbb{R}^{n \times d_v}$ "vrednosti".
Upoštevati je potrebno, da se za izvedbo mora število ključev in vrednosti $n$ ujemati, vendar se lahko število poizvedb $m$ razlikuje.
To pomeni, da če sta dva vektorja bolj poravnana (manjši kot med njima), bo njihova zastopanost v vektorju pozornosti večja. Nasprotno pa, če sta dva vektorja manj poravnana (večji kot med njima), bo njihova zastopanost v vektorju pozornosti manjša.
To je smiselno, saj želimo, da model daje večjo pozornost tistim ključem, ki so bolj relevantni za dano poizvedbo.
Še ena pomanjkljivost, ki so jo raziskovalci opazili pri modelih, ki temeljijo na RNN (Recurrent Neural Networks) arhitekturi, je, da imajo težave z uporabo informacij iz elementov, ki so bili opaženi daleč v preteklosti.
Bolj splošno, RNN imajo težave s povezovanjem zaporednih informacij, ki so med seboj daleč narazen. Tehnike, kot so pozornost na skritih stanjih (attention on hidden states) in dvosmerni modeli (bidirectional models), so bile poskusi za odpravo te težave in so služile kot naravni prehod k tehnikam v tem članku.
Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem.
Za lažje razumevanje, zakaj veliki argumenti softmax vodijo do majhnih gradientov, lahko konstruiramo primer. Začnimo z definicijo softmax funkcije:
V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav.
Nato se za vsak niz izračuna funkcija pozornosti Scaled Dot-Product Attention.
Rezultati teh funkcij pozornosti se nato združijo skupaj v eno matriko.
Končno se ta matrika preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti.
kjer so $Q \in\mathbb{R}^{m \times d_{\text{model}}}$, $K \in\mathbb{R}^{n \times d_{\text{model}}}$, in $V \in\mathbb{R}^{n \times d_{\text{model}}}$.
Poleg tega, ob upoštevanju hiperparametra $h$, ki označuje število glav pozornosti, velja: $W_{Qi}\in\mathbb{R}^{d_{\text{model}}\times d_k}$, $W_{Ki}\in\mathbb{R}^{d_{\text{model}}\times d_k}$, $W_{Vi}\in\mathbb{R}^{d_{\text{model}}\times d_v}$, in $W_O \in\mathbb{R}^{hd_v \times d_{\text{model}}}$.
Najprej vemo iz prejšnjega razdelka, da bo vsaka matrika $\text{head}_i$ imela enako število vrstic kot $QW_{Qi}$ in enako število stolpcev kot $VW_{Vi}$.
Ker velja $QW_{Qi}\in\mathbb{R}^{m \times d_k}$ in $VW_{Vi}\in\mathbb{R}^{n \times d_v}$, to pomeni, da je $\text{head}_i \in\mathbb{R}^{m \times d_v}$.
Tretja in zadnja uporaba pozornosti v članku \cite{vaswani2017attention} je pozornost kodirnik-dekodirnik, ki se uporablja v blokih dekodirnika neposredno po sloju maske večglave pozornosti, da se povežejo izvorne in ciljne sekvence.
Ko govorimo o pozornosti med kodirnikom in dekodirnikom, je edina razlika od prej v tem, da $Q$ izhaja iz sloja maske večglave pozornosti, medtem ko sta $K$ in $V$ kodirani predstavitvi $\vec{F}$.
Lahko bi razmišljali o tem tako, da model zastavlja vprašanje o tem, kako se vsak položaj v ciljni sekvenci nanaša na izvor, in pridobiva predstavitve izvora za uporabo pri generiranju naslednje besede v cilju.
Pomembno je poudariti, da vsi bloki dekodirnika prejmejo enake podatke od kodirnika. Od prvega do $N$-tega bloka dekodirnika vsak uporablja kodirano izvorno sekvenco kot ključe in vrednosti.
Namesto da bi slike obdelovali kot dvodimenzionalne mreže pikslov (kot to počnejo konvolucijske nevronske mreže), Vision Transformer slike obravnava kot zaporedje majhnih kvadratov ali "obližev".
To omogoča uporabo istih tehnik samo-pozornosti, ki so bile učinkovite v jezikovnih modelih, tudi za obdelavo slik.
Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali presegel učinkovitost konvolucijskih nevronskih mrež na številnih nalogah računalniškega vida.
\item Razdelitev slike na obliže: Slika velikosti $H \times W \times C$ se razdeli na kvadrate (obliže) velikosti $P \times P$, kjer je $H$ višina, $W$ širina, $C$ število barvnih kanalov in $P$ velikost obliža.
To ustvari $(H \cdot W)/ P^2$ obližev. Vsak obliž se nato zravna v 1D vektor dolžine $P^2\cdot C$.
\item Linearne projekcije: Vsak 1D vektor $x$ se prenese skozi enostaven linearni model (npr. polno povezano plast), da se pretvori v vektorski vložek. To se lahko zapiše kot:
\item Dodajanje pozicijskih vložkov: Ker transformatorji ne vsebujejo nobene inherentne informacije o relativni ali absolutni poziciji vložkov v zaporedju, se dodajo pozicijski vložki.
To so enaki vektorji, ki se dodajo vložkom obližev, da bi modelu dali nekaj informacij o tem, kje se obliž nahaja v sliki.
Če je $z_i$ vložek $i$-tega obliža in $p_i$ pozicijski vložek, potem je končni vložek $e_i$ določen kot:
\item Transformerjevi bloki: Zaporedje vložkov (zdaj z dodanimi pozicijskimi vložki) se nato prenese skozi več blokov transformatorjev.
Ti bloki vsebujejo večglavo samopozornost in mreže feed-forward, ki omogočajo modelu, da se nauči, kako povezati različne dele slike. Večglava samopozornost se lahko zapiše kot:
kjer je $\text{head}_i =\text{Attention}(QW{Qi}, KW_{Ki}, VW_{Vi})$, $Q$, $K$ in $V$ so poizvedbe, ključi in vrednosti, $W_{Qi}$, $W_{Ki}$, $W_{Vi}$ in $W_O$ so uteži, ki se naučijo, in $\text{Attention}$ je funkcija samopozornosti.
\item Klasifikacijska glava: Na koncu se uporabi klasifikacijska glava (ponavadi ena polno povezana plast), da se izračuna končna napoved za dano nalogo (npr. klasifikacija slik). To se lahko zapiše kot:
kjer sta $W_1$ in $W_2$ uteži polno povezanih plasti, $e$ je vložek, ki izhaja iz transformatorjevih blokov, in $\text{ReLU}$ in $\text{softmax}$ sta aktivacijski funkciji.
Piramidni Vision Transformer (PVT) \cite{wang2021pyramid} je bil razvit z namenom vključitve piramidne strukture v okviru Transformerja, kar omogoča generiranje večrazsežnih značilnostnih map za naloge goste napovedi, kot so zaznavanje objektov in semantična segmentacija.
Za boljše razumevanje si poglejmo podrobneje prvo stopnjo: Vhodna slika velikosti $ H \times W \times3$ je razdeljena na obliže velikosti $4\times4\times3$.
To pomeni, da je število obližev enako $ HW/4^2$. Vsak obliž je nato sploščen in prenesen v linearno projekcijo, kar rezultira v vdelavi obližev velikosti
$ HW /4^2\times C1$. Ti vdelani obliži, skupaj z dodano vdelavo položaja, prehajajo skozi Transformer kodirnik z $L1$ plastmi.
Izhod iz tega kodirnika je nato preoblikovan v značilnostno mapo $ F1$ velikosti $ H/4\times W/4\times C1$.
Ena izmed ključnih inovacij v PVT je uporaba pozornosti za zmanjšanje prostorskega obsega (SRA) namesto tradicionalne večglave pozornostne plasti (MHA). Ta pristop omogoča PVT-u, da učinkovito obdela značilnostne mape visoke ločljivosti.
V primerjavi z Vision Transformerjem (ViT), PVT prinaša večjo prilagodljivost, saj lahko generira značilnostne mape različnih meril/kanalov v različnih fazah. Poleg tega je bolj vsestranski, saj se lahko enostavno vključi in uporabi v večini modelov za spodnje naloge. Prav tako je bolj prijazen do računalniških virov in spomina, saj lahko obdela značilnostne mape višje ločljivosti ali daljše sekvence.
Twins-PCPVT \cite{chu2021twins} je zasnovan na osnovi PVT in CPVT \cite{chu2021conditional}. Glavna razlika med Twins-PCPVT in PVT je v načinu uporabe pozicijskih kodiranj.
PVT je uvedel piramidni večstopenjski dizajn z namenom boljšega obravnavanja nalog goste napovedi, kot so zaznavanje objektov in semantična segmentacija.
Vendar je bilo ugotovljeno, da je manjša učinkovitost PVT-ja v veliki meri posledica uporabe absolutnih pozicijskih kodiranj.
Absolutna pozicijska kodiranja se soočajo s težavami pri obdelavi vhodov različnih velikosti, kar je pogosto v nalogah goste napovedi.
V Twins-PCPVT so absolutna pozicijska kodiranja nadomeščena s pogojnimi pozicijskimi kodiranji (CPE), ki so odvisna od vhodov in se tako lahko naravno izognejo zgoraj omenjenim težavam.
Generator pozicijskega kodiranja (PEG), ki generira CPE, je postavljen za prvim kodirnim blokom vsake stopnje.
Uporablja najpreprostejšo obliko PEG, tj. 2D globinsko konvolucijo brez normalizacije serij.
Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiranje na podlagi vhodnih značilnosti, in $E_i$ so značilnosti iz različnih stopenj kodirnika.
Pri obdelavi slik in vizualni analitiki je ena izmed ključnih nalog primerjava ali ujemanje vzorcev, znano tudi kot "template matching".
Tradicionalne metode, ki temeljijo na neposrednem ujemanju ali korelaciji, so občutljive na spremembe svetlobe, rotacije, deformacije in druge variacije v sliki.
Matematično, za dve sliki $x_1$ in $x_2$, podmreži proizvedeta predstavitve $f(x_1; \theta)$ in $f(x_2; \theta)$. Razdalja $D$ med tema dvema predstavitvama je določena kot:
Siamske mreže za primerjavo vzorcev so se izkazale za izjemno koristne v številnih aplikacijah, kot so prepoznavanje in sledenje objektom, biometrija ter varnost in nadzor.
Zaradi globje hierarhične predstavitve slike so sposobne zaznati in primerjati kompleksne značilnosti, ki jih manj kompleksne metode morda ne bi opazile.
V raziskovalnem svetu je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov.
Kljub pomembnosti modela WAMF-FPI avtorji niso javno delili originalne podatkovne množice, kar je postavilo pred nas izziv pri pripravi ustreznih podatkov za našo analizo.
Za doseganje konsistentnosti in kakovosti rezultatov smo se odločili samostojno kreirati in kurirati našo lastno podatkovno množico, ki odraža realne pogoje in scenarije uporabe.
Te slike so bile pridobljene preko orodja Google Earth Studio, ki omogoča natančno in realno reprezentacijo terenskih značilnosti iz ptičje perspektive.
Ta obsežna zbirka podatkov nam omogoča, da model WAMF-FPI testiramo in validiramo v številnih različnih scenarijih in pogojih, s čimer zagotavljamo njegovo robustnost in splošno uporabnost.
V mestnih območjih je poudarek na razumevanju, kako se brezpilotni letalniki lokalizirajo in navigirajo med visokimi zgradbami, kjer so lahko GPS signali zmanjšani ali moteni.
V zelenih območjih je cilj razumeti, kako se brezpilotni letalniki obnašajo v okoljih, kjer so vizualni vzorci manj raznoliki in se teren lahko zdi monoton.
V naboru podatkov za učenje je 10.000 slik iz desetih mest, pri čemer vsako mesto prispeva 1.000 slik.
Brezpilotni letalniki so bili kalibrirani na višini 150 metrov nad navedeno nadmorsko višino mesta.
Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio.
Vsaka slika je opremljena z oznakami lokacije kamere v sistemu ECEF. Sistem ECEF (Earth Centered, Earth Fixed) je globalni koordinatni sistem z izhodiščem v središču Zemlje.
Na Sliki \ref{fig:region_structures} je prikazana vizualna razdelitev zelenih površin in stavb za različna mesta, temelječa na analizi slik, ki smo jih zajeli v našem podatkovnem naboru.
Vsako mesto razkriva svojo edinstveno strukturo in raven urbanizacije.
Te razlike so ključnega pomena pri razumevanju izzivov, s katerimi se srečujejo brezpilotni letalniki pri lokalizaciji in navigaciji v različnih mestnih okoljih.
Ta pristop nam je omogočil, da smo imeli na voljo širšo regijo za analizo in učenje.
Ko smo imeli pripravljene TIFF datoteke, smo začeli z učnim procesom.
Za vsako iteracijo učenja smo iz vsake TIFF datoteke naključno izrezali regijo velikosti 400x400 pikslov.
Ključnega pomena je bilo, da se je točka lokalizacije vedno nahajala nekje znotraj te izrezane regije.
Ta metoda nam je zagotovila, da je bil model izpostavljen širokemu naboru scenarijev in kontekstov, hkrati pa smo ohranili natančnost in relevantnost lokalizacijskih podatkov.
S tem pristopom smo uspešno sestavili nabor podatkov, ki združuje najboljše iz obeh svetov: detajlnost dronskih slik in širino satelitskih slik, kar omogoča poglobljeno analizo in učinkovito učenje.
Ko govorimo o ploščicah v kontekstu kartografije in GIS (Geografski informacijski sistem), se običajno nanašamo na kvadratne segmente, ki pokrivajo Zemljo in se uporabljajo za hitrejše in učinkovitejše prikazovanje zemljevidov na spletu.
Za pretvorbo geografskih koordinat (latitudo in longitudo) v ploščične koordinate (x, y) na določeni ravni povečave z uporabo Mercatorjeve projekcije, lahko izrazimo:
Model smo trenirali na računalniku, opremljenem z Intel(R) Xeon(R) CPU E5-2690 v3 in NVIDIA GeForce RTX 3060, uporabljali pa smo programsko okolje PyTorch.
Med optimizacijo modela smo se posvetili iskanju optimalne kriterijske funkcije.
Da bi bolje razumeli, katera funkcija bi lahko prinesla najboljše rezultate v našem primeru, smo izvedli serijo eksperimentov z različnimi funkcijami ter jih evalvirali glede na njihovo učinkovitost in zanesljivost.
Kot naslednji korak smo preučili stratificirano vzorčenje, tehniko, ki bi lahko pripomogla k izboljšanju natančnosti in robustnosti modela z zagotavljanjem bolj uravnoteženega učnega nabora.
V zaključni fazi naših eksperimentov smo se osredotočili na regularizacijo, predvsem na tehniko izpuščanja nevronov.
Zaradi kompleksnosti modelov globokega učenja smo želeli razumeti, kako bi taka regularizacija lahko pomagala preprečiti prekomerno prilagajanje ter izboljšala splošno učinkovitost modela.
Vsako od teh področij je v nadaljevanju podrobno obravnavano, pri čemer so podane analize, interpretacije in ključne ugotovitve, ki smo jih pridobili v tem procesu.
Sledenje objektov v okviru računalniškega vida običajno temelji na izračunu podobnosti med referenčno in iskalno podobo v trenutnem okviru.
Medtem ko temeljna metoda za iskanje točk znotraj slike izhaja iz metodologije sledenja objektov, je prva v primerjavi z drugo bolj zapletena.
To je posledica različnih perspektiv med predlogo (dronsko sliko) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo.
Metoda iskanja točk uporablja satelitsko sliko kot referenčno in dronsko sliko kot poizvedbeno.
Obe sliki – posneto z dronom in satelitsko sliko relevantnega območja – se nato prenesejo v end-to-end omrežje.
Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo drona, kot jo predvideva model.
Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj drona določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika.
V FPI avtorji kot modul za ekstrakcijo značilnosti uporabljajo dva Deit-S brez deljenih uteži za vertikalne poglede dronske in satelitske slike \cite{dai2022finding}.
Ekstrahirane značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo drona.
V FPI je za izračun podobnosti uporabljena zadnja plast zemljevidnih značilnosti \cite{dai2022finding}.
Zaradi 16-kratne stiskalne rate končnega izhodnega zemljevida model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pozicioniranja.
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili strukturo piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za ekstrakcijo značilnosti iz dronskih in satelitskih slik.
Da bi bolje zajeli informacije na različnih ločljivostih in ohranili več prostorskih informacij, so bile prvotno ekstrahirane značilnosti poslane v omrežje značilnostne piramide za nadaljnjo obdelavo.
Modul WAMF je bil nato uporabljen za izračun podobnosti in združevanje različnih značilnosti.
Končne združene značilnosti so bile razširjene za izdelavo končne izhodne napovedne mape.
Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu WAMF-FPI.
WAMF-FPI temelji na strukturi, ki je podobna Siamese omrežju, vendar se od tradicionalnega sledenja objektom loči v ključnih aspektih.
Zaradi občutne razlike med satelitskimi slikami in slikami brezpilotnega letalnika, ki izvirajo iz različnih naprav, veji modela WAMF-FPI za vsako od teh vrst slik ne uporabljata metode deljenja uteži.
Konkretno, WAMF-FPI kot vhod uporablja satelitske slike dimenzij 400 × 400 × 3 in slike brezpilotnega letalnika dimenzij 128 × 128 × 3.
Značilnosti obeh vrst slik so ekstrahirane s pomočjo PCPVT-S.
atančneje, v modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za ekstrakcijo značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
25 x 25 x 256 in 8 x 8 x 320 oziroma.
V primerjavi z Deit-S, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo.
Ta struktura je bolj prilagodljiva za naloge goste napovedi.
Pravzaprav uporaba piramidne strukture zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega omrežje z piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
Po ekstrakciji informacij iz slike s pomočjo PCPVT-S se podobnost neposredno izračuna na zadnjih značilnostnih mapah.
Kljub temu je končni izhod stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem s bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike.
Pristranskost, ki je posledica nizke ločljivosti značilnostne mape, je bila odstranjena že na samem začetku.
Ker značilnostna mapa z visoko ločljivostjo vsebuje več prostorskih informacij, je bila združena z globoko značilnostno mapo, bogato s semantičnimi informacijami, preko lateralne povezovalne strukture.
WAMF-FPI uporablja konvolucijske mreže za izluščenje značilnosti iz vhodnih slik.
Konvolucija je ključna operacija, ki modelu omogoča, da "vidi" in prepoznava vzorce in značilnosti v slikah.
Prva faza obdelave v WAMF-FPI je uporaba konvolucijskega jedra velikosti ena, ki prilagodi kanalsko dimenzijo tri-stopnjske značilnostne mape, pridobljene s pomočjo PCPVT-S.
Število izhodnih kanalov je bilo nastavljeno na 64, kar zagotavlja kompaktno in učinkovito zastopanje značilnosti.
Po tej fazi sledi upsampling operacija na značilnostnih mapah zadnjih dveh stopenj, ki poveča njihovo ločljivost in s tem omogoča bolj precizno lokalizacijo.
Te mape se nato kombinirajo z značilnostnimi mapami istega merila iz osnovnega modela.
Končno, značilnosti se dodatno ekstrahirajo s pomočjo konvolucijskega jedra velikosti 3, kar modelu omogoča izluščenje bolj kompleksnih značilnosti iz združenih map.
Rezultat je združena značilnostna mapa, ki združuje plitve (prostorske) in globoke (semantične) informacije.
Ta bogata kombinacija modelu omogoča učinkovito prepoznavanje in lokalizacijo objektov na vhodnih slikah.
\subsection{Arhitektura utežno-prilagodljivega združevanja večznačilnostnih lastnosti (WAMF)}
Modul za združevanje značilnosti je zasnovan tako, da združuje informacije iz dveh ločenih vhodnih tokov, v tem primeru iz UAV (brezpilotnega letalnika) in SAT (satelita).
V osnovi ena značilnostna mapa (poimenovana "poizvedba") "drsi" čez drugo značilnostno mapo (poimenovana "iskalna regija") in izračuna podobnost med njima na vsaki lokaciji.
Rezultat tega postopka je nova značilnostna mapa, imenovana korelacijska mapa, kjer vsaka vrednost predstavlja stopnjo podobnosti med poizvedbo in delom iskalne mape na določeni lokaciji.
Matematično je korelacija med dvema funkcijama $f$ in $g$ definirana kot:
Da bi lahko ovrednotili in primerjali zmogljivost našega modela, uporabljamo metriko RDS \cite{wang2023wamf}. Zaradi različnih meril podatkov v naboru podatkov vsak piksel v različnih satelitskih slikah predstavlja različno razdaljo.
Čeprav model morda najde točko, ki je na satelitski sliki blizu dejanske lokacije, lahko v resničnem prostoru povzroči veliko napako.
Da bi se izognili težavam zaradi spremembe merila, RDS izračuna relativno razdaljo na ravni pikslov med napovedano in dejansko točko.
Model smo učili na računalniški konfiguraciji, opremljeni z visokozmogljivim procesorjem Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz s 12 jedri.
Dodatno je računalnik vseboval grafično kartico NVIDIA GeForce RTX 3060 s 12 GB pomnilnika, kar je omogočalo efektivno paralelizacijo in optimizacijo operacij, ki jih zahteva model med treningom.
\item[Naprava:] Učenje je potekalo na \texttt{cuda:0}, ki se nanaša na uporabo NVIDIA grafične kartice.
\item[Hitrost učenja:] Uporabljena sta bila dva različna parametra: $lr\_fusion =0.0004$ za združevanje in $lr\_backbone =0.0001$ za osnovno arhitekturo.
\item[Prilagajanje hitrosti učenja:]$gamma =0.2$ z mejniki na epohah 9, 13 in 15.
\item[Delovni procesi:] Skupno 24 hkratnih delovnih procesov (\texttt{num\_workers = 24}).
\item[Epoh:] Model je bil učen skozi 24 epoh.
\item[Velikost serije:]\texttt{batch\_size = 16}.
\item[Mešanje podatkov:] Podatki so bili premešani pred vsako epoho.
\item[Funkcija izgube:] Uporabljena je bila \texttt{hanning} funkcija.
\item[Vizualizacija:] Vključena za spremljanje napredka učenja.
Gaussova utežena srednja kvadratna napaka (Gaussian Weighted Mean Squared Error - GWMSE) je modificirana funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike.
Glavna značilnost GWMSE je dodeljevanje uteži vzorcem, na zelo podoben nacin kot pri Hanningovi funkciji izgube.
Namesto enakega pomena vseh pozitivnih vzorcev, GWMSE različnim vzorcem dodeljuje različne uteži glede na njihovo lokacijo.
Za normalizacijo teh uteži se uporablja Gaussova funkcija.
Hanningova utežena srednja kvadratna napaka (Hanning Weighted Mean Squared Error - HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike.
Glavna značilnost HWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Gaussovi funkciji izgube.
Namesto enakega pomena vseh pozitivnih vzorcev, HWMSE različnim vzorcem dodeljuje različne uteži glede na njihovo lokacijo.
Za normalizacijo teh uteži se uporablja Hanningovo okno.
Funkcija izgube križno utežena srednja kvadratna napaka (Cross-Weighted Mean Squared Error - CW-MSE) je napredna različica standardne srednje kvadratne napake (Mean Squared Error - MSE),
ki vključuje uteževanje dveh različnih skupin vzorcev: tistih, katerih resnična vrednost je večja od 0 (t.i. "resničnih" vzorcev) in tistih, katerih resnična vrednost je manjša ali enaka 0 (t.i. "ne-resničnih" vzorcev).
Končna funkcija izgube se izračuna kot utežena kombinacija srednjih kvadratnih napak za "resnične" in "ne-resnične" vzorce, pri čemer se uteži vzorcev različnih skupin prekrižajo.
\item$\text{MSE}{\text{true}}=\frac{1}{N{\text{true}}}\sum_{i=1}^{N_{\text{true}}}(y_i -\hat{y}_i)^2$ za vzorce, katerih resnična vrednost je večja od 0.
\item$\text{MSE}{\text{false}}=\frac{1}{N{\text{false}}}\sum_{i=1}^{N_{\text{false}}}(y_i -\hat{y}_i)^2$ za vzorce, katerih resnična vrednost je enaka ali manjša od 0.
Hanningova kriterijska funkcija, znana tudi po svoji značilnosti dodeljevanja uteži vzorcem glede na njihovo lokacijo, je v testiranju pokazala dobre rezultate.
S skupno vrednostjo 8.49 in $RDS_{\text{train}}$ vrednostjo 0.893 na učni množici se je izkazala kot izredno učinkovita za trening set.
Čeprav je bila njena učinkovitost na validacijski množici, kjer je dosegla $RDS_{\text{val}}$ vrednost 0.709, nekoliko nižja, so rezultati še vedno zelo obetavni.
Ključna prednost Hanningove funkcije je v njeni zmožnosti prilagajanja uteži vzorcem glede na njihov položaj, kar se zdi še posebej primerno pri analizi satelitskih slik.
V teh slikah je središčni položaj pogosto bistven, medtem ko robovi morda niso tako pomembni.
To naravno prilagodljivost Hanningove funkcije lahko opazimo v njenih rezultatih, ki jih dosegla v obravnavanem primeru.
Čeprav je Gaussova utežena srednja kvadratna napaka prav tako zasnovana na principu dodeljevanja uteži glede na lokacijo vzorca, rezultati kažejo, da ne dosega enake uspešnosti kot Hanningova funkcija.
Z $RDS_{\text{train}}$ vrednostjo 0.077 na učni množici in $RDS_{\text{val}}$ vrednostjo 0.74 na validacijski množici so njeni rezultati precej slabši v primerjavi s Hanningovo funkcijo.
Pri tej funkciji se je izkazalo, da mreža ni dosegla želenih rezultatov.
Namesto, da bi se mreža naučila prepoznati in interpretirati relevantne značilnosti satelitskih slik, se je večinoma učila šuma.
Praktično, model se ni naučil nič koristnega, kar nakazuje, da Hanningovo utežena srednja kvadratna napaka morda ni primerna za to vrsto podatkov ali za uporabljeni model.
Podobno kot pri Hanningovi uteženi srednji kvadratni napaki se je tudi pri Križno uteženi srednji kvadratni napaki pokazalo, da mreža večinoma prepoznava in se uči šuma.
Rezultati so bili nezadovoljivi in kažejo na to, da ta funkcija ni najbolj primerna za analizo satelitskih slik s tem pristopom.
\textbf{Zaključek:} Hanningova kriterijska funkcija se je v obravnavanem primeru izkazala kot najbolj učinkovita.
Njena edinstvena sposobnost prilagajanja uteži glede na lokacijo vzorca se zdi še posebej primerna za obravnavo satelitskih slik, kar je morda razlog za njeno premoč nad ostalimi obravnavanimi funkcijami izgube.
Stratificirano vzorčenje je metoda vzorčenja, pri kateri se celoten nabor podatkov razdeli na ločene podskupine ali strate.
Vsak stratum predstavlja določeno kategorijo ali razred v naboru podatkov.
V kontekstu mest bi lahko vsako mesto predstavljalo svoj stratum.
Namen stratificiranega vzorčenja je zagotoviti, da je vsak vzorec reprezentativen za celoten nabor podatkov.
Zakaj je stratificirano vzorčenje pomembno?
\begin{enumerate}
\item\textbf{Ohranjanje Distribucije}:
Stratificirano vzorčenje zagotavlja, da se razmerje vzorcev v vsakem stratumu ohranja enako kot v celotnem naboru podatkov.
To je še posebej pomembno, ko je distribucija podatkov v vsakem stratumu (v tem primeru mesto) ključnega pomena za analizo.
Na primer, če želimo, da je naš vzorec reprezentativen za različna mesta, bi uporabili stratificirano vzorčenje, da zagotovimo, da so vsa mesta ustrezno zastopana.
\item\textbf{Natancnost}:
Stratificirano vzorčenje lahko poveča natančnost ocen, saj zmanjšuje variabilnost znotraj vsakega strata.
To pomeni, da so vzorci iz vsakega strata bolj homogeni, kar lahko vodi do natančnejših rezultatov.
\end{enumerate}
Slabosti stratificiranega vzorčenja:
\begin{enumerate}
\item\textbf{Omejena Generalizacija}:
Čeprav stratificirano vzorčenje zagotavlja, da so vse kategorije ali razredi v naboru podatkov ustrezno zastopani v vzorcu, to lahko pomeni, da model morda ni tako dobro pripravljen na povsem nove, nevidene podatke.
Model je lahko optimiziran za specifično distribucijo podatkov, ki je bila uporabljena med ucenjem in validacijo.
\item\textbf{"In-Distribution" Validacija}
Ker se vzorci za ucenje in validacijo izbirajo iz iste distribucije (stratificirane distribucije), model morda ne bo dobro deloval na "out-of-distribution" podatkih.
To pomeni, da čeprav model morda kaže visoko natančnost na validacijskem naboru, to ne zagotavlja, da bo enako dobro deloval na podatkih, ki se močno razlikujejo od originalne distribucije.
Za boljše razumevanje uspešnosti modelov je ključno upoštevati tudi njihovo zmogljivost na validacijskih naborih podatkov.
To je še posebej pomembno, saj nam validacija daje vpogled v to, kako dobro model predvideva rezultate na nevidenih podatkih.
Če primerjamo rezultate $RDS_{\text{val}}$ med obema pristopoma, opazimo, da je model, ki je bil naučen s stratificiranim vzorčenjem, dosegel rahlo višjo uspešnost (0.731) v primerjavi z modelom, ki je bil naučen s tradicionalno metodo "train-test split" (0.709).
To kaže, da se je model, ki je bil naučen s stratificiranim vzorčenjem, nekoliko bolje spoprijel s generalizacijo na nevidenih podatkih.
To dejstvo podkrepi tudi zmanjšana razlika med uspešnostjo na učni in validacijski množici v primeru stratificiranega vzorčenja.
Večja konsistentnost rezultatov med učno in validacijsko množico je lahko pokazatelj, da model ni pretirano prilagojen in se lahko bolje generalizira na nove podatke.
Torej, medtem ko je tradicionalna "train-test split" metoda dosegla višjo uspešnost na učni množici, se zdi, da stratificirano vzorčenje ponuja bolj zanesljive in stabilne rezultate na validacijski množici, kar je ključnega pomena za ocenjevanje realne zmogljivosti modela.
V našem primeru se zdi, da stratificirano vzorčenje ponuja bolj robusten in stabilen model za obravnavane satelitske slike.
Vendar pa je pomembno upoštevati tudi omejitve stratificiranega vzorčenja, kot so omejena generalizacija in potencialne težave pri "out-of-distribution" podatkih.
Majhna velikost okna omejuje območje vzorcev, ki ga zajema.
Takšna omejitev lahko zmanjša učinkovitost povratnega razširjanja med učenjem modela, saj kriterijska funkcija nima dovolj širokega vpliva na celotno mrežo.
Nasprotje predstavlja preveliko okno, ki zajema široko paleto vzorcev. Kljub širšemu zajemu, lahko detajli v sliki postanejo manj opazni, kar zmanjšuje natančnost predikcij.
Eksperimenti so bili izvedeni z različnimi velikostmi oken, da bi ugotovili njihov vpliv na uspešnost modela.
Podatki, kažejo optimalno ravnovesje med velikostjo oken in natančnostjo modela.
Najboljše uspešnosti so bile dosežene z okni velikosti 31, 33 in 35. Naše ugotovitve sovpadajo s priporočili iz literature, kjer je bila optimalna velikost okna določena na 33.
Zaključimo lahko, da je izbira prave velikosti Hanningovega okna esencialna za doseganje optimalnih rezultatov.
Naše raziskave potrjujejo, da velikost okna 33 zagotavlja najboljše rezultate pri obdelavi satelitskih slik.
\section{Regularizacija v modelu z uporabo izpuščanja nevronov}
\subsection{Izpuščanje nevronov}
V svetu strojnega učenja je regularizacija ključna tehnika, ki se uporablja za preprečevanje prekomernega prilagajanja modela.
Prekomerno prilagajanje se pojavi, ko model postane preveč specifičen za učni nabor podatkov, kar pomeni, da se "preveč nauči" podrobnosti in šuma v učnih podatkih,
kar vodi v slabo zmogljivost na novih, nevidenih podatkih.
Med različnimi tehnikami regularizacije je "izpuščanje nevronov" (v angleščini "dropout") ena izmed najbolj priljubljenih in učinkovitih metod za nevronske mreže.
Koncept izpuščanja nevronov je preprost, a močan: med ucenjem se določen odstotek nevronov v mreži naključno "izklopi" ali izpusti. To pomeni, da se med posameznim prehodom naprej določeni nevroni (in njihove povezave) začasno odstranijo iz mreže.
V modelu sem uporabil izpuščanje nevronov na več ključnih mestih:
\begin{enumerate}
\item\textbf{Izpuščanje Nevronov v Modelu Twins}:
Izpuščanje nevronov je bilo uporabljeno za regulacijo različnih komponent modela, vključno z deli, kot so \texttt{attn\_drop}, \texttt{proj\_drop}, \texttt{head\_drop}, \texttt{mlp\_drop1}, \texttt{mlp\_drop2} in \texttt{pos\_drops}..
Vsaka od teh komponent ima svojo specifično vlogo v arhitekturi modela.
Z dodajanjem izpuščanja nevronov na te komponente sem dodal dodatno raven regularizacije, ki pomaga preprečiti prekomerno prilagajanje.
\item\textbf{Izpuščanje Nevronov v Modulu za Združevanje Značilnosti}:
Po vsaki konvolucijski operaciji v fuzijskem delu modela sem dodal izpuščanje nevronov.
Konvolucijske plasti lahko hitro postanejo kompleksne in se prekomerno prilagodijo podatkom, zlasti ko delujejo na visokodimenzionalnih značilnostih.
Z dodajanjem izpuščanja nevronov po vsaki konvolucijski plasti sem zmanjšal to tveganje in povečal robustnost modela.
\end{enumerate}
Izpuščanje nevronov je ena izmed najbolj učinkovitih tehnik regularizacije za nevronske mreže.
Z njegovo uporabo v modelu sem zagotovil, da je model bolj robusten in manj nagnjen k prekomernemu prilagajanju na učne podatke.
V kompleksnih modelih, kot je Twins, kjer je veliko komponent, ki se lahko prekomerno prilagodijo podatkom, je uporaba izpuščanja nevronov ključnega pomena za zagotavljanje natančnih in zanesljivih rezultatov.
Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora.
Kljub njihovi široki uporabi pa se soočajo z več ključnimi izzivi, zlasti na področju avtonomne navigacije.
V diplomski nalogi smo se osredotočili na raziskovanje in implementacijo metode WAMF-FPI za lokalizacijo brezpilotnih letalnikov na podlagi slik.
Spodaj so izpostavljene naše glavne ugotovitve in predlogi:
Med našo analizo smo opazili, da bi lahko del združevanja značilnosti optimizirali z uporabo metode pozornosti, kar bi omogočilo še boljše ujemanje med dronskimi in satelitskimi slikami.
Ena od glavnih težav, s katerimi se metoda še vedno sooča, je identifikacija prave satelitske slike, ki ustreza dronski sliki.
To predstavlja izziv, še posebej v bazah z milijoni slik, in je eno od področij, ki zahteva nadaljnje raziskave.
\item\textbf{Raziskava različnih kriterijskih funkcij}:
V okviru naše analize smo preizkusili več kriterijskih funkcij, vključno s Hanningovo kriterijsko funkcijo, Gaussovo uteženo srednjo kvadratno napako, Hanningovo uteženo srednjo kvadratno napako ter križno uteženo srednjo kvadratno napako.
Rezultati so pokazali, da je Hanningova kriterijska funkcija izstopala kot najbolj učinkovita med vsemi preizkušenimi.
Te ugotovitve so v skladu z implementacijo in rezultati, predstavljenimi v izbranem članku.
\item\textbf{Regularizacija in računske obremenitve}:
Ugotovili smo, da ima regularizacija v modelu z uporabo izpuščanja nevronov pomembno vlogo pri preprečevanju prenaučenja.
Vendar pa je treba skrbno uravnotežiti med računskimi obremenitvami in natančnostjo modela.
\item\textbf{Praktična uporaba}:
Naša največja ambicija za prihodnost je preizkusiti metodo WAMF-FPI na dejanskem brezpilotnem letalniku.
S tem bi lahko dobili boljšo predstavo o realni učinkovitosti in uporabnosti metode v praksi.
Metoda WAMF-FPI predstavlja pomemben korak naprej v lokalizaciji brezpilotnih letalnikov, še posebej v okoljih, kjer je satelitski signal omejen ali nezanesljiv.
Kljub obetavni učinkovitosti metode pa obstajajo še nekateri izzivi in priložnosti za izboljšave.
Naša raziskava je postavila trdne temelje za nadaljnji razvoj in implementacijo metode v realnih sistemih brezpilotnih letalnikov.
Naslednji koraki bi vključevali nadaljnje optimizacije modela, razširitev podatkovnih zbirk in končno implementacijo na dejanskih brezpilotnih letalnikih.