main
Gašper Spagnolo 2023-09-09 10:17:11 +02:00
parent b7f9967317
commit 5aabae209b
No known key found for this signature in database
GPG Key ID: 2EA0738CC1EFEEB7
3 changed files with 78 additions and 148 deletions

Binary file not shown.

View File

@ -288,18 +288,19 @@ Besedilo je oblikovano z urejevalnikom besedil \LaTeX.}
\bigskip
\noindent\textbf{Opis:}\\
V zadnjem času postaja uporaba brezpilotnih letalnikov vse bolj razširjena in se uporablja na različnih področjih, kot so agrikultura, kartiranje, vojaške operacije idr.
Kljub njihovi vsestranskosti pa se poraja ključno vprašanje: kako se brezpilotni letalniki obnašajo, ko izgubijo stik z sistemom za določanje položaja?
Diplomska naloga se osredotoča na to tematiko in predlaga metodo za lokalizacijo brezpilotnih letalnikov ob izgubi sistema za določanje položaja.
V zadnjem času postaja uporaba brezpilotnih letalnikov vse bolj razširjena.
Kljub njihovi vsestranskosti pa se poraja vprašanje: kako se brezpilotni letalniki obnašajo, ko izgubijo stik z sistemom za določanje položaja? Diplomska naloga se osredotoča na lokalizacijo letalnikov na podlagi satelitskih slik, raziščite področje ter ovrednotite trenutno najbolj obetavno metodo.
Po potrebi sestavite lastno zbirko slik, ki bo dovolj zahtevna in raznovrstna.
\bigskip
\noindent\textbf{Title:} UAV localization
Recently, the use of drones is becoming more and more widespread.
Despite their versatility, the question arises: how do drones behave when they lose contact with the global positioning system? The thesis focuses on the localization of aircraft based on satellite images, explore the field and evaluate the current most promising method.
If necessary, construct your own dataset of images that will be challenging and diverse enough.
\bigskip
\noindent\textbf{Description:}\\
In recent times, the use of unmanned aerial vehicles (UAVs) has become increasingly prevalent, finding applications in various fields such as agriculture, mapping, military operations, and many others.
Despite their versatility, a critical question arises: how do drones behave when they lose connection to the positioning system?
This thesis focuses on this issue and proposes a method for localizing UAVs in the event of a positioning system signal loss.
\vfill
@ -378,9 +379,9 @@ Zahvala gre tudi družini za podporo pri pisanju diplomskega dela.
\bigskip
%\noindent\textbf{Povzetek:}
\noindent Diplomsko delo predstavlja implementacijo trenutno vodilne metode za geolokalizacijo brezpilotnih letalnikov, ob izgubi sistema za določanje položaja.
\noindent Diplomsko delo predstavlja implementacijo trenutno vodilne metode za geolokalizacijo brezpilotnih letalnikov, ob izgubi sistema za določanje položaja, implementacija ni bila javno dostopna.
V okviru dela smo ustvarili novo podatkovno zbirko, ki vsebuje pare slik iz brezpilotnega letalnika in pripadajočih satelitskih posnetkov.
Osredotočili smo se na uporabo naprednih nevronskih mrež, zlasti konvolucijskih mrež, transformerske arhitekture in njenih derivatov, kot sta Vision Transformer (ViT) in Piramidni vision transformer (PVT).
Osredotočili smo se na uporabo naprednih nevronskih mrež, zlasti na piramidni vision transformer (PVT).
Ključno vlogo je imela Siamska nevronska mreža za primerjavo vzorcev med obema vrstama slik.
Metodologija je bila podprta z različnimi optimizacijskimi strategijami, vključno z uporabo stratificiranega vzorčenja, Hanningovega okna in regularizacijskih tehnik.
Rezultati potrjujejo učinkovitost predlagane metode za natančno geolokalizacijo brezpilotnih letalnikov.
@ -435,12 +436,14 @@ GLONASS \footnote{GLONASS: \url{https://en.wikipedia.org/wiki/GLONASS}} in drugi
Vendar lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje.
Izguba sistema za določanje položaja lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo, zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov nujno.
\section{Pregled področja}
Zgodnje metode, kot so navedene v virih \cite{semantic_crossview, crossview_image, global_vehicle, geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti.
To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije.
Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti.
S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže.
Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov, uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji.
S prihodom globokih konvolucijskih nevronskih mrež (ang. convolutional neural network -- CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže.
Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov iz prednaučenenga CNN.
Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji.
Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika.
V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže. Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami.
@ -463,12 +466,13 @@ Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokal
Z uporabo dveh različnih uteži za izvleček značilnosti iz slik posnetih z brezpilotnim letalnikom in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
Dodatna optimizacija je bila dosežena z vključitvijo WAMF modula in uporabo Hanningove kriterijske funkcije, ki sta povečala učinkovitost modela.
WAMF-FPI je evolucija osnovne metode FPI. Ključna prednost WAMF-FPI je njegova napredna piramidna struktura izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
Z uporabo te piramidne strukture se značilke izluščijo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
Metoda WAMF-FPI je evolucija osnovne metode FPI. Ključna prednost WAMF-FPI je njegova napredna piramidna predstavitev izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
Z uporabo te piramidne predstavitve se značilke izluščijo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
Poleg tega WAMF-FPI optimizira kompresijske zmogljivosti, kar pripomore k hitrejšemu in učinkovitejšemu procesiranju podatkov.
Medtem ko je bila v osnovni FPI metodi končna velikost značilk stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo štirikrat manjšo velikost.
To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
To omogoča metodi WAMF-FPI, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
\section{Cilji in prispevki}
Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, ki so namenjene za zgoraj omenjene tradicionalne metode prepoznavanja slik,
večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik.
Zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe.
@ -480,7 +484,8 @@ Naša zbirka obsega 11 evropskih mest. Glavni cilj izdelave te zbirke je bil zag
Cilj izdelave zbirke je zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Cilj diplomske naloge je raziskati in implementirati metodo WAMF-FPI, predstavljeno v \cite{wang2023wamf},
saj je ta metoda trenutno prepoznana kot vodilna in najnaprednejša na področju geolokalizacije brezpilotnih letalnikov.
saj je ta metoda trenutno prepoznana kot vodilna in najnaprednejša na področju geolokalizacije brezpilotnih letalnikov, ter
dobro izhodišče za nadaljnje raziskave, žal pa avtorji niso javno delili implementacije metode.
Poleg tega smo želeli tudi ustvariti podatkovno zbirko, ki bo omogočala nadaljnje raziskave na tem področju.
Diplomska naloga je razdeljena na šest osnovnih poglavij.
@ -550,60 +555,11 @@ Predstavljeno bo ozadje, vključno s prejšnjimi mehanizmi, kot so rekurentne ne
\subsection{Predhodni mehanizmi}
Preden so obstajali transformerji,
so bile najpogostejše metode za obvladovanje zaporedij v jezikovnih modelih rekurentne nevronske mreže (ang. Recurrent Neural Networks -- RNN) in njihove različice,
kot so dolgi kratkotrajni spomini (ang. Long Short-Term Memory -- LSTM) in obogatene RNN (ang. Gated Recurrent Units -- GRU).
Najpogostejša uporaba teh modelov v kontekstu strojnega prevajanja ali drugih nalog pretvarjanja zaporedja v zaporedje je bila uporaba strukture kodirnik-dekodirnik.
V tej strukturi je bilo zaporedje vhodnih besed ali kodirano v latentni prostor z uporabo RNN (kodirnik), ta latentni vektor pa je bil nato uporabljen za generiranje zaporedja izhodnih besed ali žetonov z uporabo drugega RNN (dekodirnik).
Problem s to strukturo je bil, da je bil latentni prostor omejen na velikost fiksne dolžine in je moral vsebovati vse informacije iz izvornega zaporedja, ki so potrebne za generiranje ciljnega zaporedja.
To je omejevalo model pri obvladovanju dolgih zaporedij, saj je bilo težko ohraniti informacije iz zgodnjega dela zaporedja do konca.
Da bi to težavo rešili, so raziskovalci vključili mehanizem pozornosti, ki je omogočil dekodirniku, da se osredotoči na različne dele izvornega zaporedja na različnih stopnjah generiranja ciljnega zaporedja.
Slednje je bil velik napredek, ki je omogočil boljše obvladovanje dolgih zaporedij \cite{bahdanau2015neural}.
\subsection{Razlaga RNN kodirnik-dekodirnik arhitekture}
Definirajmo problem strojnega prevajanja kot iskanje najboljše ciljne sekvence $\vec{E} = (e_0, e_1, ..., e_m)$ glede na dane izvorne besede $\vec{F} = (f_0, f_1, ..., f_n)$.
Ta problem lahko izrazimo kot optimizacijo pogojne verjetnosti $P(\vec{E}|\vec{F})$.
Začnimo z opisom RNN-kodirnik-dekodirnik arhitekture.
Imamo dva RNN modela, kodirnik $\text{RNN}{\text{enc}}$ in dekodirnik $\text{RNN}{\text{dec}}$.
Kodirnik z zaporedjem vektorjev $\vec{F}$ proizvede skrito stanje $h_n$:
\begin{equation}
h_n = \text{RNN}\text{enc}(f_n, h{n-1}).
\end{equation}
Začetno stanje $h_0$ je pogosto postavljeno na nič ali se ga mreža nauči.
Dekodirnik nato uporablja to skrito stanje, da generira ciljno zaporedje $\vec{E}$:
\begin{equation}
e_{t} = \text{RNN}\text{dec}(e{t-1}, h_{t-1}).
\end{equation}
Opomba: pri učenju se za $e_{t-1}$ pogosto uporablja dejanska vrednost iz ciljnega zaporedja (ne izhod modela), kar je znano kot "teacher forcing" \cite{wikipedia_teacher_forcing_2023}.
Izvorna zaporedja besed $\vec{F}$ se tako vnašajo v kodirnik, ki generira skrita stanja za vsako besedo:
\begin{equation}
\vec{H} = \text{Kodirnik}(\vec{F}).
\end{equation}
Za vsako besedo v ciljnem zaporedju $\vec{E}$ se potem izračuna utežena vsota skritih stanj iz kodirnika:
\begin{equation}
\vec{a}t = \text{Pozornost}(\vec{H}, e{t-1}).
\end{equation}
Potem se ta vektor uporabi za napoved ciljne besede:
\begin{equation}
e_t = \text{Dekodirnik}(\vec{a}t, e{t-1}).
\end{equation}
Ta pristop omogoča, da dekodirnik upošteva vse besede v izvornem zaporedju, ne samo prejšnje besede v ciljnem zaporedju, kar izboljša kakovost prevoda.
Vendar je to zgolj matematična formulacija koncepta. Dejanski detajli, kot so vrste in struktura kodirnika in dekodirnika, so odvisni od specifičnega modela, ki ga uporabljamo.
Na sliki \ref{fig:rnn} je prikazana skica RNN modela.
\begin{figure}[H]
\centering
\includegraphics[width=0.9\textwidth]{./img/rnn.pdf}
\caption{Skica RNN modela}
\label{fig:rnn}
\end{figure}
Preden so obstajali transformerji, so bili priljubljeni jezikovni modeli, kot so RNN (ang. Recurrent Neural Networks -- RNN),
LSTM (ang. Long Short-Term Memory -- LSTM) in GRU (ang. Gated Recurrent Units -- GRU).
Te modele so pogosto uporabljali v strukturi kodirnik-dekodirnik za strojno prevajanje in pretvarjanje zaporedij.
Glavna težava teh modelov je bila omejitev pri obvladovanju dolgih zaporedij zaradi fiksne dolžine latentnega prostora.
Rešitev je prinesel mehanizem pozornosti, ki je omogočil boljše obvladovanje dolgih zaporedij \cite{bahdanau2015neural}.
\section{Zgradba transformerja}
Avtorji v članku \cite{vaswani2017attention} so predstavili novo arhitekturo za strojno prevajanje, ki se osredotoča na mehanizme pozornosti in se izogiba omejitvam RNN.
@ -639,14 +595,13 @@ Za razliko od plasti pozornosti na začetku blokov kodirnika in dekodirnika ta p
\subsection{Utežena točkovna produktna pozornost}
Utežena točkovna produktna pozornost (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju.
Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, že omenjenem pri Luongu \cite{bahdanau2015neural}.
Utežena točkovna produktna pozornost je skoraj identična točkovni produktni pozornosti, že omenjenem v \cite{bahdanau2015neural}.
\begin{equation}
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\end{equation}
Edina razlika je, da je vhod v softmax skaliran s faktorjem $\frac{1}{\sqrt{d_k}}$.
Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem \cite{vaswani2017attention}.
V članku \cite{vaswani2017attention} in predhodni literaturi \cite{bahdanau2015neural} se vrstice \( Q \in \mathbb{R}^{m \times d_k} \) imenujejo poizvedbe, vrstice \( K \in \mathbb{R}^{n \times d_k} \) ključi, in vrstice \( V \in \mathbb{R}^{n \times d_v} \) vrednosti.
Upoštevati je potrebno, da se mora za izvedbo število ključev in vrednosti \( n \) ujemati, vendar se lahko število poizvedb \( m \) razlikuje.
@ -666,9 +621,9 @@ Utežena vsota vektorskih vrednosti določa, koliko informacij iz vsakega ključ
V tem postopku so uporabljene le matrične in vektorske operacije, brez dodatnih učljivih parametrov.
\subsection{Večglava pozornost}
Večglava pozornost, ključna komponenta v arhitekturi transformatorja, je razširitev mehanizma Scaled Dot-Product Attention, omenjenega v prejšnjem podpoglavju.
Večglava pozornost, ključna komponenta v arhitekturi transformatorja, je razširitev mehanizma utežene točkovne produktne pozornosti, omenjenega v prejšnjem podpoglavju.
V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav.
Nato se za vsak niz izračuna funkcija pozornosti Scaled Dot-Product Attention.
Nato se za vsak niz izračuna utežena točkovna produktna pozornost.
Rezultati teh funkcij pozornosti se nato združijo skupaj v eno matriko.
Končno se ta matrika preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti.
Avtorji to izrazijo v spodnji obliki \cite{vaswani2017attention}:
@ -682,9 +637,6 @@ Vsak $\text{head}_i$ je rezultat izvajanja Scaled Dot-Product Attention na $i$-t
\text{head}_i = \text{Attention}(QW_{Qi}, KW_{Ki}, VW_{Vi}),
\end{equation}
kjer so $Q \in \mathbb{R}^{m \times d_{\text{model}}}$, $K \in \mathbb{R}^{n \times d_{\text{model}}}$, in $V \in \mathbb{R}^{n \times d_{\text{model}}}$.
Poleg tega, ob upoštevanju hiperparametra $h$, ki označuje število glav pozornosti, velja: $W_{Qi} \in \mathbb{R}^{d_{\text{model}} \times d_k}$, $W_{Ki} \in \mathbb{R}^{d_{\text{model}} \times d_k}$, $W_{Vi} \in \mathbb{R}^{d_{\text{model}} \times d_v}$, in $W_O \in \mathbb{R}^{hd_v \times d_{\text{model}}}$.
Vsak izračun glave ima drugačno linearno preslikavo za matrike ključev, poizvedb in vrednosti.
Vsaka od teh preslikav se nauči med učenjem.
@ -750,11 +702,11 @@ y = \text{softmax}(W_2\text{ReLU}(W_1e)).
\section{Piramidni ViT (PVT)}
Piramidni ViT (PVT) \cite{wang2021pyramid} je bil razvit z namenom vključitve piramidne strukture v okviru Transformerja.
Piramidni ViT (PVT) \cite{wang2021pyramid} je bil razvit z namenom vključitve piramidne predstavitve v okviru Transformerja.
Arhitektura PVT je razdeljena na štiri stopnje.
Vsaka od teh stopenj je sestavljena iz plasti za vdelavo zaplat (ang. patch embedding) in iz več plasti transformerskega kodirnika.
Značilnost te arhitekture je, da se izstopna ločljivost štirih stopenj postopoma zmanjšuje, kar sledi piramidni strukturi.
Na najvišji stopnji je ločljivost značilnostne mape največja, medtem ko se na najnižji stopnji zmanjša.
Značilnost te arhitekture je, da se izstopna ločljivost štirih stopenj postopoma zmanjšuje, kar sledi piramidni predstavitvi.
Na najvišji stopnji je ločljivost mape značilnosti največja, medtem ko se na najnižji stopnji zmanjša.
Za boljše razumevanje si poglejmo podrobneje prvo stopnjo: vhodna slika velikosti $ H \times W \times 3 $ je razdeljena na zaplate velikosti $4 \times 4 \times 3$.
To pomeni, da je število zaplat enako $ HW/4^2 $. Vsaka zaplata je nato sploščena in prenesena v linearno projekcijo, kar rezultira v vdelavi zaplat velikosti
@ -785,12 +737,12 @@ Na sliki \ref{fig:pvt} je prikazana skica PVT modela.
\label{fig:pvt}
\end{figure}
\section{Piramidni ViT z uporabo lokalnih značilnosti (PCPVT)}
Twins-PCPVT \cite{chu2021twins} je zasnovan na osnovi PVT in CPVT \cite{chu2021conditional}. Glavna razlika med Twins-PCPVT in PVT je v načinu uporabe pozicijskih kodiranj.
\section[Piramidni ViT z uporabo lokalnih značilnosti]{Piramidni ViT z uporabo lokalnih\\ značilnosti (PCPVT)}
Arhitektura Twins-PCPVT \cite{chu2021twins} je zasnovana na osnovi PVT in CPVT \cite{chu2021conditional}. Glavna razlika med Twins-PCPVT in PVT je v načinu uporabe pozicijskih kodiranj.
V PVT so uporabljena absolutna pozicijska kodiranja, medtem ko Twins-PCPVT uporablja pogojna pozicijska kodiranja (ang. Conditional Positional Encoding -- CPE),
ki so bila predlagana v CPVT.
PVT je uvedel piramidno večstopenjsko strukturo z namenom boljšega obravnavanja nalog goste napovedi, kot so zaznavanje objektov in semantična segmentacija.
PVT je uvedel piramidno večstopenjsko predstavitvijo z namenom boljšega obravnavanja nalog goste napovedi, kot so zaznavanje objektov in semantična segmentacija.
Vendar je bilo ugotovljeno, da je manjša učinkovitost PVT-ja v veliki meri posledica uporabe absolutnih pozicijskih kodiranj.
Absolutna pozicijska kodiranja se soočajo s težavami pri obdelavi vhodov različnih velikosti, kar je pogosto v nalogah goste napovedi.
@ -814,7 +766,7 @@ Na sliki \ref{fig:twins} je prikazana skica PCPVT modela.
\label{fig:twins}
\end{figure}
\section{Siamska nevronska mreža za primerjavo vzorcev}
\section{Siamska nevronska mreža}
Siamske nevronske mreže predstavljajo sodoben pristop v domeni primerjave vzorcev v računalniškem vidu.
Z zmožnostjo učinkovite primerjave med paroma slik so siamske mreže pridobile pozornost v številnih aplikacijah, kjer je ključnega pomena zanesljiva ocena podobnosti.
V tem podpoglavju bomo obravnavali osnovno arhitekturo siamske mreže, metodologijo njenega učenja ter aplikacije in prednosti, ki jih ta prinaša v prakso.
@ -832,7 +784,7 @@ Razdalja $D$ med tema dvema predstavitvama je določena kot:
D(f(x_1; \theta), f(x_2; \theta)) = | f(x_1; \theta) - f(x_2; \theta) |_2.
\end{equation}
Da bi siamsko mrežo naučili za učinkovito primerjavo vzorcev, potrebujemo nabor učnih podatkov, ki vsebuje pare podobnih in različnih slik.
Da bi siamsko mrežo naučili učinkovite primerjave vzorcev, potrebujemo nabor učnih podatkov, ki vsebuje pare podobnih in različnih slik.
Med učenjem je cilj zmanjšati razdaljo med podobnimi slikami in povečati razdaljo med različnimi slikami.
Kriterijska funkcija, običajno uporabljena pri učenju siamskih mrež za primerjavo vzorcev, je kontrastna kriterijska funkcija, definirana kot:
@ -850,21 +802,16 @@ Na sliki \ref{fig:siamese} je prikazana skica siamske mreže uporabljene za prim
\label{fig:siamese}
\end{figure}
\subsection{Aplikacije in prednosti}
Siamske mreže za primerjavo vzorcev so se izkazale za izjemno koristne v številnih aplikacijah, kot so prepoznavanje in sledenje objektom, biometrija ter varnost in nadzor.
V primerjavi s tradicionalnimi metodami imajo siamske mreže večjo odpornost na variacije v svetlobi, rotaciji, lestvici in drugih deformacijah.
Zaradi globje hierarhične predstavitve slike so sposobne zaznati in primerjati kompleksne značilnosti, ki jih manj kompleksne metode morda ne bi opazile.
\chapter{Podatkovna množica}
\label{ch2}
V svetu raziskovanja je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov.
Kljub obstoju številnih zbirk, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik.
Konkretno, CVUSA se osredotoča na zgradbe, medtem ko University-1652 predstavlja predvsem univerzitetna okolja. Poleg tega so objekti v sredini slike.
CVUSA se osredotoča na zgradbe, medtem ko University-1652 predstavlja predvsem univerzitetna okolja. Poleg tega so objekti v sredini slike.
Zaradi pomanjkljivosti obstoječih zbirk in ker zbirka UL14 iz \cite{dai2022finding} ni dostopna, smo se soočili z izzivom pridobivanja ustreznih podatkov za analizo.
Zbirka vsebuje posnetke s pogledom od zgoraj navzdol in je osredotočena na pogled iz brezpilotnega letalnika.
Da bi premostili to vrzel, smo se odločili za ustvarjanje lastne zbirke.
Za pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}} in pridobili slike iz 11 evropskih mest.
Da bi premostili to vrzel, smo se odločili, da ustvarimo lastno zbirko.
Za učinkovito in fleksibilno pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}} in pridobili slike iz 11 evropskih mest.
Te slike odražajo raznolikost terena, vključno z zgradbami, parki, zelenimi in vodnimi površinami.
Dodatno smo uporabili Mapbox API \footnote{Mapbox API: \url{https://www.mapbox.com/api-documentation/}} za pridobitev pripadajočih satelitskih slik.
@ -890,7 +837,7 @@ V zelenih območjih je cilj razumeti, kako se brezpilotni letalniki obnašajo v
V naboru podatkov za učenje je 10.000 slik iz desetih mest, pri čemer vsako mesto prispeva 1.000 slik.
Vsaka slika je opremljena z oznakami lokacije kamere v sistemu ECEF. Sistem ECEF (ang. Earth Centered, Earth Fixed) je globalni koordinatni sistem z izhodiščem v središču Zemlje.
Brezpilotni letalniki so bili kalibrirani na višini 150 metrov nad navedeno nadmorsko višino mesta.
Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \cite{google_earth_studio}.
Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}}.
V naboru so mesta s tipično evropsko arhitekturo, kombinacijo zelenja in stavb.
Mesta, vključena v nabor podatkov, so:
@ -980,7 +927,7 @@ Na slikah \ref{fig:sat_examples_grid_1} in \ref{fig:sat_examples_grid_2} so prik
\section{Oznake}
V okviru raziskave smo iz visokoločljivostnih satelitskih TIFF datotek naključno izrezali regije velikosti 400~x~400 pikslov.
V okviru raziskave smo iz visokoločljivostnih satelitskih slik naključno izrezali regije velikosti 400~x~400 pikslov.
Pri vsaki iteraciji je bil izrez drugačen, s poudarkom na vključevanju referenčne točke lokalizacije v izrez.
Ta pristop zagotavlja izpostavljenost modela različnim scenarijem ob ohranjanju natančnosti lokalizacijskih podatkov.
Slike, pridobljene z brezpilotnimi letalniki, so bile obdelane s tehniko \textit{osrednjega izreza} in različnimi stopnjami povečave, združujoč detajlnost teh slik z obsežnostjo satelitskih posnetkov.
@ -1052,7 +999,7 @@ Medtem ko temeljna metoda za iskanje točk znotraj slike izhaja iz metodologije
To je posledica različnih perspektiv med predlogo (sliko posneto z brezpilotnim letalnikom) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo.
Metoda iskanja točk uporablja satelitsko sliko kot referenčno in sliko iz brezpilotnega letalnika kot poizvedbo.
Obe sliki -- posneti z brezpilotnim letalnikom in satelitsko sliko relevantnega območja -- se nato preneseta v end-to-end mrežo.
Obe sliki -- posneti z brezpilotnim letalnikom in satelitsko sliko relevantnega območja -- se nato preneseta v mrežo od začetka do konca (ang. end-to-end).
Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model.
Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika.
V \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike.
@ -1069,9 +1016,9 @@ Na sliki \ref{fig:fpi_model} je prikazana skica modela FPI \cite{dai2022finding}
V FPI je za izračun podobnosti uporabljena zadnja plast zemljevidnih značilnosti \cite{dai2022finding}.
Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pri določanju lokacije.
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili strukturo piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili predstavitev piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za izluščenje značilnosti iz slik brezpilotnega letalnika in satelitskih slik.
Da bi bolje zajeli informacije na različnih ločljivostih in ohranili več prostorskih informacij, so bile prvotno izluščene značilnosti poslane v omrežje značilnostne piramide za nadaljnjo obdelavo.
Da bi bolje zajeli informacije na različnih ločljivostih in ohranili več prostorskih informacij, so bile prvotno izluščene značilnosti poslane v mrežo piramidne predstavitve za nadaljnjo obdelavo.
Modul WAMF je bil nato uporabljen za izračun podobnosti in združevanje različnih značilnosti.
Končne združene značilnosti so bile razširjene za izdelavo končne izhodne napovedne mape.
Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu WAMF-FPI. Na sliki \ref{fig:model_architecture} je prikazana skica arhitekture modela WAMF-FPI.
@ -1093,10 +1040,10 @@ Značilnosti obeh vrst slik so izluščene s pomočjo PCPVT-S.
V modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
25 x 25 x 256 in 8 x 8 x 320.
V primerjavi z Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo.
V primerjavi z Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno predstavitvijo.
Ta struktura je bolj prilagojena za naloge goste napovedi.
Pravzaprav uporaba piramidne strukture zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega mreža s piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
Pravzaprav uporaba piramidne predstavitve zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega mreža s piramidno predstavitvijo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
Po obdelavi slike s pomočjo PCPVT-S se podobnost neposredno izračuna na zadnjih značilnostnih mapah.
Kljub temu je končni izhod stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem z bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike.
@ -1154,37 +1101,16 @@ kjer je $\text{Povečava}$ funkcija, ki poveča prostorsko resolucijo značilnos
A3 = \text{corr}(U3_{\text{UAV}}, U3_{\text{SAT}}),
\end{equation}
kjer je corr funkcija za izračun korelacije med dvema značilnostnima mapama.
kjer je $\text{corr}$ funkcija za izračun korelacije med dvema značilnostnima mapama.
Korelacija v kontekstu obdelave slik je postopek izračuna podobnosti med dvema slikama ali značilnostnima mapama.
V osnovi ena značilnostna mapa (poimenovana poizvedba) drsi čez drugo značilnostno mapo (poimenovana iskalna regija) in izračuna podobnost med njima na vsaki lokaciji.
Rezultat tega postopka je nova značilnostna mapa, imenovana korelacijska mapa, kjer vsaka vrednost predstavlja stopnjo podobnosti med poizvedbo in delom iskalne mape na določeni lokaciji.
Matematično je korelacija med dvema funkcijama $f$ in $g$ definirana kot:
\begin{center}
\begin{equation}
(f \star g)(t) = \int_{-\infty}^{\infty} f(\tau) g(t+\tau) d\tau.
\end{equation}
\end{center}
V kontekstu diskretnih signalov, kot so slike ali značilnostne mape, je korelacija definirana kot:
\begin{center}
\begin{equation}
(f \star g)[n] = \sum_{m=-\infty}^{\infty} f[m] g[n+m].
\end{equation}
\end{center}
Nazadnje se izvede uteženo združevanje teh treh koreliranih značilnostnih map s pomočjo naučljivih uteži:
\begin{center}
\begin{equation}
\text{združena\_mapa} = w_1 \cdot A1 + w_2 \cdot A2 + w_3 \cdot A3.
\end{equation}
\end{center}
Za dokončanje postopka se uporabi bikubična interpolacija, da se združena mapa poveča na velikost vhodne satelitske slike.
Na izhodu dobimo toplotno karto iste velikosti kot vhodna satelitska slika v WAMF-FPI.
\subsection{RDS metrika}
\subsection{Metrika RDS}
Da bi lahko ovrednotili in primerjali zmogljivost našega modela, uporabljamo metriko RDS \cite{wang2023wamf}. Zaradi različnih meril podatkov v naboru podatkov vsak piksel v različnih satelitskih slikah predstavlja različno razdaljo.
Čeprav model morda najde točko, ki je na satelitski sliki blizu dejanske lokacije, lahko v resničnem prostoru povzroči veliko napako.
@ -1205,7 +1131,7 @@ kjer so:
\item \( k \) je faktor merila, ki je v tem delu postavljen na 10.
\end{itemize}
Za lažje razumevanje delovanja RDS metrike smo dodali dodatek \ref{appendix:RDS} k diplomskemu delu, ki vsebuje tri primere izračuna metrike.
Za lažje razumevanje delovanja RDS metrike smo dodali Dodatek \ref{appendix:RDS} k diplomskemu delu, ki vsebuje tri primere izračuna metrike.
\subsection{Učenje modela}
@ -1227,7 +1153,7 @@ Za dosego optimalnih rezultatov smo uporabili naslednje specifične hiperparamet
\item[Vizualizacija:] vključena za spremljanje napredka učenja.
\end{description}
Za vsako iteracijo učenja smo iz vsake satelitske TIFF datoteke naključno izrezali regijo velikosti 400 x 400 pikslov.
Za vsako iteracijo učenja smo iz vsake satelitske slike naključno izrezali regijo velikosti 400 x 400 pikslov.
Ključnega pomena je bilo, da se je točka lokalizacije vedno nahajala nekje znotraj te izrezane regije.
Med postopkom učenja smo izvajali osrednji izrez (ang. center crop) velikosti 128 x 128 pikslov iz slike z ločljivostjo 1920 x 1080.
Ta pristop nam je omogočil simulacijo različnih višin brez potrebe po generiranju podatkovnega nabora z različnimi višinami.
@ -1240,7 +1166,7 @@ detajlnost slik posnetih z brezpilotnim letalnikom in širino satelitskih slik,
\chapter{Eksperimentalna evalvacija}
\label{ch4}
V tem poglavju so podrobno predstavljeni rezultati, doseženi v različnih fazah eksperimentalne evalvacije modela WAMF-FPI.
V tem poglavju so podrobno predstavljeni rezultati, doseženi v različnih fazah eksperimentalne evalvacije modela WAMF-FPI \cite{wang2023wamf}.
Začeli smo z iskanjem optimalne kriterijske funkcije, da bi bolje razumeli, katera funkcija bi lahko prinesla najboljše rezultate.
Nadaljevali smo s preučevanjem stratificiranega vzorčenja, tehnike, ki bi lahko pripomogla k izboljšanju natančnosti in robustnosti modela.
Pregledali smo tudi vpliv Hanningovega okna in analizirali, kako različne velikosti tega okna vplivajo na končne rezultate.
@ -1251,7 +1177,7 @@ Vsako od teh področij je v nadaljevanju podrobno obravnavano, pri čemer so pod
\section{Izbira kriterijske funkcije}
Zanimalo nas je, kako se bo model obnesel pri uporabi različnih kriterijskih funkcij.
Predvidevamo, da bo Hanningovo okno kot kriterijska funkcija prineslo najboljše rezultate, saj jih je tudi v \cite{wang2023wamf}, medtem ko pričakujemo, da bo Krizno utežena srednja kvadratna napaka prav tako pokazala dobre rezultate
Predvidevamo, da bo Hanningovo okno kot kriterijska funkcija prineslo najboljše rezultate, saj jih je tudi v \cite{wang2023wamf}, medtem ko pričakujemo, da bo CWMSE prav tako pokazala dobre rezultate
\subsection{Hanningova kriterijska funkcija}
@ -1270,7 +1196,7 @@ To je zato, ker je pomembnost središčnega položaja veliko večja kot pomembno
Za normalizacijo teh pozitivnih uteži se uporablja Hanningovo okno, za normalizacijo negativnih uteži pa \( 1 / \# \text{negativnih vzorcev} \).
Uteži so dodeljene tako, da je vsota uteži pozitivnih in negativnih vzorcev enaka 1.
A ker je število negativnih vzorcev običajno večje od števila pozitivnih vzorcev, postane utež negativnih vzorcev manjša.
Da bi slednje popravili, se uvede hiperparameter, imenovan Negativna utež (NG), ki prilagodi utež negativnih vzorcev.
Da bi slednje popravili, se uvede hiperparameter, imenovan negativna utež (NG), ki prilagodi utež negativnih vzorcev.
Hanningova funkcija:
\begin{equation}
@ -1355,7 +1281,7 @@ Ta pristop se formalno izraža z naslednjo enačbo:
\item $N_{\text{true}}$: število vzorcev, katerih resnična vrednost je večja od 0.
\item $N_{\text{false}}$: število vzorcev, katerih resnična vrednost je enaka ali manjša od 0.
\item $N_{\text{all}}$: skupno število vzorcev.
\item $\text{MSE}_{\text{true}} = \frac{1}{N{\text{true}}} \sum_{i=1}^{N_{\text{true}}} (y_i - \hat{y}_i)^2$ za vzorce, katerih resnična vrednost je večja od 0.
\item $\text{MSE}{\text{true}} = \frac{1}{N{\text{true}}} \sum_{i=1}^{N_{\text{true}}} (y_i - \hat{y}_i)^2$ za vzorce, katerih resnična vrednost je večja od 0.
\item $\text{MSE}_{\text{false}} = \frac{1}{N{\text{false}}} \sum_{i=1}^{N_{\text{false}}} (y_i - \hat{y}_i)^2$ za vzorce, katerih resnična vrednost je enaka ali manjša od 0.
\item $\text{true\_weight}$ in $\text{false\_weight}$: uteži, dodeljene skupinama \textit{true} in \textit{false}.
\end{itemize}
@ -1640,7 +1566,7 @@ Uporaba prednaučenih modelov v strojnem učenju omogoča izkoristek že obstoje
Zlasti v kontekstu globokih nevronskih mrež so prednaučeni modeli dragoceni, saj lahko pomagajo modelom hitreje konvergirati in v nekaterih primerih doseči boljše rezultate.
\subsection{Rezultati}
Naši rezultati \ref{tab:prednaucena} in \ref{tab:prednaucena_m} kažejo , da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
Naši rezultati \ref{tab:prednaucena} in \ref{tab:prednaucena_m} kažejo, da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične naloge.
\begin{table}[ht]
@ -1650,7 +1576,7 @@ To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične nalo
Način & $\text{HANN}_{\text{val}}$ & $\text{RDS}_{\text{train}}$ & $\text{RDS}_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\
\hline
Prednaučena mreža & 8.49 & 0.893 & 0.709 & 43.42 \\
Brez prednaučene mreže & 8.21 & 0.627 & 0.630 & 60.23 \\
Neprednaučena mreža & 8.21 & 0.627 & 0.630 & 60.23 \\
\hline
\end{tabular}
\caption{Rezultati ob uporabi prednaučene mreže, kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.}

View File

@ -10,19 +10,22 @@
}
@article{bianchi2021uav,
title={UAV Localization Using Autoencoded Satellite Images},
author={Bianchi, Mollie and Barfoot, Timothy D.},
journal={arXiv preprint arXiv:2102.05692},
title={UAV localization using autoencoded satellite images},
author={Bianchi, Mollie and Barfoot, Timothy D},
journal={IEEE Robotics and Automation Letters},
volume={6},
number={2},
pages={1761--1768},
year={2021},
url={http://arxiv.org/abs/2102.05692v1}
publisher={IEEE}
}
@article{zhu2022transgeo,
title={TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization},
@inproceedings{zhu2022transgeo,
title={Transgeo: Transformer is all you need for cross-view image geo-localization},
author={Zhu, Sijie and Shah, Mubarak and Chen, Chen},
journal={arXiv preprint arXiv:2204.00097},
year={2022},
url={http://arxiv.org/abs/2204.00097v1}
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={1162--1171},
year={2022}
}
@article{bahdanau2015neural,
@ -78,10 +81,11 @@
year={2020}
}
@article{wang2021pyramid,
title={Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions},
@inproceedings{wang2021pyramid,
title={Pyramid vision transformer: A versatile backbone for dense prediction without convolutions},
author={Wang, Wenhai and Xie, Enze and Li, Xiang and Fan, Deng-Ping and Song, Kaitao and Liang, Ding and Lu, Tong and Luo, Ping and Shao, Ling},
journal={arXiv preprint arXiv:2102.12122},
booktitle={Proceedings of the IEEE/CVF international conference on computer vision},
pages={568--578},
year={2021}
}
@ -217,12 +221,12 @@
doi={https://doi.org/10.1609/aaai.v34i07.6875}
}
@article{cvusa,
title={Predicting Ground-Level Scene Layout from Aerial Imagery},
author={Liu, Liu and Li, Hongdong},
journal={arXiv preprint arXiv:1612.02709},
year={2016},
url={http://arxiv.org/abs/1612.02709v1}
@inproceedings{cvusa,
title={Predicting ground-level scene layout from aerial imagery},
author={Zhai, Menghua and Bessinger, Zachary and Workman, Scott and Jacobs, Nathan},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
pages={867--875},
year={2017}
}
@article{university1652,