main
Gašper Spagnolo 2023-09-06 08:21:32 +02:00
parent d859c090fb
commit ddfa73978f
No known key found for this signature in database
GPG Key ID: 2EA0738CC1EFEEB7
3 changed files with 114 additions and 123 deletions

Binary file not shown.

View File

@ -436,7 +436,7 @@ Kljub njihovi široki uporabi pa se soočajo z izzivi pri avtonomni navigaciji,
V idealnih razmerah brezpilotni letalniki za svojo navigacijo uporabljajo GPS signale, vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje. V idealnih razmerah brezpilotni letalniki za svojo navigacijo uporabljajo GPS signale, vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke stavbe, gorske formacije ali celo elektronske motnje.
Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo, zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov nujno. Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo, zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov nujno.
Zgodnje metode, kot so navedene v virih \cite{semantic_crossview}, \cite{crossview_image}, \cite{global_vehicle} in \cite{geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti. Zgodnje metode, kot so navedene v virih \cite{semantic_crossview, crossview_image, global_vehicle, geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti.
To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije. To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije.
Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti. Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti.
@ -448,7 +448,7 @@ V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane
V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno. V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno.
V \cite{optimal_transport} so predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije. V \cite{optimal_transport} so predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije.
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}, vendar pa se ob njihovi uporabi pojavi cela paleta izzivov. Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}, vendar pa se ob njihovi uporabi pojavi več izzivov.
Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij nad katerimi letalnik leti. Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki. Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij nad katerimi letalnik leti. Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki.
Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik zahteva ponovno obdelavo celotne slikovne baze. To ne le da je časovno potratno, ampak tudi zviša stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja. Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik zahteva ponovno obdelavo celotne slikovne baze. To ne le da je časovno potratno, ampak tudi zviša stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja.
Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje. V praksi to pomeni da, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno. Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje. V praksi to pomeni da, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno.
@ -471,21 +471,24 @@ Medtem ko je v osnovni FPI metodi končna velikost značilk bila stisnjena na 16
To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve. To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik. Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik.
Na primer, zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe. Zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe.
Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja. Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja.
V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}. Podatkovna zbirka UL14, omenjena v \cite{dai2022finding}, je edina s pogledom od zgoraj navzdol, vendar avtorji zbirke žal niso javno delili.
Zato smo se odločili za ustvarjanje lastne zbirke, osredotočene na pogled iz brezpilotnega letalnika, z uporabo Google Earth Studia\footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}}.
Naša zbirka obsega 11 evropskih mest. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo pristopov. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu. Naša zbirka obsega 11 evropskih mest. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo pristopov. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu.
Cilj izdelave zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI. Cilj izdelave zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
V tej diplomski nalogi smo se odločili za implementacijo WAMF-FPI, kot je predstavljeno v izvornem članku \cite{wang2023wamf}, saj metoda velja za najnaprednejšo na področju. Cilj diplomske naloge je raziskati in implementirati metodo WAMF-FPI, predstavljeno v \cite{wang2023wamf},
Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode. ker je ta metoda trenutno prepoznana kot vodilna in najnaprednejša na področju geolokalizacije brezpilotnih letalnikov.
Diplomska naloga je razdeljena na pet osnovnih poglavij. Diplomska naloga je razdeljena na šest osnovnih poglavij.
V poglavju \ref{ch0} so predstavljena temeljna izhodišča in namen raziskave. V Poglavju \ref{ch0} so predstavljena temeljna izhodišča in namen raziskave.
Poglavje \ref{ch1} obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja. Poglavje \ref{ch1} obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja.
Poglavje \ref{ch2} obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike. Poglavje \ref{ch2} obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike.
V poglavju \ref{ch3} so predstavljeni rezultati implementacije, optimizacija in pristopi učenja modela. V Poglavju \ref{ch3} je predstavljen postopek implementacije modela.
V poglavju \ref{ch4} so povzete ključne ugotovitve naloge, delo pa se zaključuje s seznamom relevantne literature. Poglavje \ref{ch4} se osredotoča na analizo in interpretacijo pridobljenih rezultatov.
V Poglavju \ref{ch5} so povzete ključne ugotovitve naloge.
Diplomsko delo se zaključuje s seznamom relevantne literature.
\chapter{Metodologija} \chapter{Metodologija}
\label{ch1} \label{ch1}
@ -494,7 +497,7 @@ V tem poglavju bomo predstavili osnovne komponente, ki jih uporabljamo v našem
Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov. Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov.
Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu. Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu.
Podrobneje se bomo osredotočili na zgradbo transformerja in njegove ključne komponente. Podrobneje se bomo osredotočili na zgradbo transformerja in njegove ključne komponente.
V nadaljevanju se bomo posvetili Vision Transformerju (ViT) in njegovi razširjeni verziji - Piramidnem Vision Transformerju (PVT). V nadaljevanju se bomo posvetili strukturi Vision Transformer (ViT) in razširjeni verziji - Pyramid Vision Transformer (PVT).
Posebno pozornost bomo posvetili prilagojeni različici PVT, imenovani PCPVT, saj njeni deskriptorji zagotavljajo prostorsko skladnost in natančno poravnavo. Posebno pozornost bomo posvetili prilagojeni različici PVT, imenovani PCPVT, saj njeni deskriptorji zagotavljajo prostorsko skladnost in natančno poravnavo.
Zaključili bomo s siamskimi nevronskimi mrežami, ki predstavljajo ključno komponento pri primerjavi vzorcev. Zaključili bomo s siamskimi nevronskimi mrežami, ki predstavljajo ključno komponento pri primerjavi vzorcev.
Te mreže so še posebej pomembne, ko želimo primerjati dva ali več podobnih vzorcev in ugotoviti, ali med njimi obstajajo razlike. Te mreže so še posebej pomembne, ko želimo primerjati dva ali več podobnih vzorcev in ugotoviti, ali med njimi obstajajo razlike.
@ -591,10 +594,8 @@ Potem se ta vektor uporabi za napoved ciljne besede:
Ta pristop omogoča, da dekodirnik upošteva vse besede v izvornem zaporedju, ne samo prejšnje besede v ciljnem zaporedju, kar izboljša kakovost prevoda. Ta pristop omogoča, da dekodirnik upošteva vse besede v izvornem zaporedju, ne samo prejšnje besede v ciljnem zaporedju, kar izboljša kakovost prevoda.
Vendar je to zgolj matematična formulacija koncepta. Dejanski detajli, kot so vrste in struktura kodirnika in dekodirnika, so odvisni od specifičnega modela, ki ga uporabljamo. Vendar je to zgolj matematična formulacija koncepta. Dejanski detajli, kot so vrste in struktura kodirnika in dekodirnika, so odvisni od specifičnega modela, ki ga uporabljamo.
Na sliki \ref{fig:rnn} je prikazana skica RNN modela. Na sliki \ref{fig:rnn} je prikazana skica RNN modela.
\begin{figure}[h] \begin{figure}[h]
\centering \centering
\includegraphics[width=0.9\textwidth]{./img/rnn.pdf} \includegraphics[width=0.9\textwidth]{./img/rnn.pdf}
@ -638,11 +639,9 @@ Za razliko od plasti pozornosti na začetku blokov kodirnika in dekodirnika ta p
Utežena točkovna produktna pozornot (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju. Utežena točkovna produktna pozornot (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju.
Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}. Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}.
\begin{center} \begin{equation}
\begin{equation}
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\end{equation} \end{equation}
\end{center}
Edina razlika je, da je vhod v softmax skaliran s faktorjem $\frac{1}{\sqrt{d_k}}$. Edina razlika je, da je vhod v softmax skaliran s faktorjem $\frac{1}{\sqrt{d_k}}$.
Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem \cite{vaswani2017attention}. Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem \cite{vaswani2017attention}.
@ -665,12 +664,12 @@ Utežena vsota vektorskih vrednosti določa, koliko informacij iz vsakega ključ
V tem postopku so uporabljene le matrične in vektorske operacije, brez dodatnih učljivih parametrov. V tem postopku so uporabljene le matrične in vektorske operacije, brez dodatnih učljivih parametrov.
\subsection{Večglava pozornost} \subsection{Večglava pozornost}
Večglava pozornost (ang. Multi-Head Attention) je razširitev mehanizma pozornosti Scaled Dot-Product Attention. Večglava pozornost, ključna komponenta v arhitekturi transformatorja, je razširitev mehanizma Scaled Dot-Product Attention, omenjenega v prejšnjem podpoglavju.
V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav. V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav.
Nato se za vsak niz izračuna funkcija pozornosti Scaled Dot-Product Attention. Nato se za vsak niz izračuna funkcija pozornosti Scaled Dot-Product Attention.
Rezultati teh funkcij pozornosti se nato združijo skupaj v eno matriko. Rezultati teh funkcij pozornosti se nato združijo skupaj v eno matriko.
Končno se ta matrika preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti. Končno se ta matrika preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti.
Avtorji to izrazijo v spodnji obliki: Avtorji to izrazijo v spodnji obliki \cite{vaswani2017attention}:
\begin{equation} \begin{equation}
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W_O \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W_O
@ -702,7 +701,7 @@ Pomembno je poudariti, da vsi bloki dekodirnika prejmejo enake podatke od kodirn
\section{Vision Transformer (ViT)} \section{Vision Transformer (ViT)}
Transformerji so prvotno bili omejeni na obdelavo zaporedij, kar je idealno za jezik, vendar ne nujno za slike, ki so običajno dvodimenzionalne. Transformerji so prvotno bili omejeni na obdelavo zaporedij, kar je idealno za jezik, vendar ne nujno za slike, ki so običajno dvodimenzionalne.
To se je spremenilo z razvojem Vision Transformerja (ViT) s strani Google-a \cite{vit}. To se je spremenilo z razvojem Vision Transformerja (ViT) \cite{vit}.
Namesto da bi slike obdelovali kot dvodimenzionalne mreže pikslov (kot to počnejo konvolucijske nevronske mreže), Vision Transformer slike obravnava kot zaporedje majhnih kvadratov ali zaplat. Namesto da bi slike obdelovali kot dvodimenzionalne mreže pikslov (kot to počnejo konvolucijske nevronske mreže), Vision Transformer slike obravnava kot zaporedje majhnih kvadratov ali zaplat.
To omogoča uporabo istih tehnik samo-pozornosti, ki so bile učinkovite v jezikovnih modelih, tudi za obdelavo slik. To omogoča uporabo istih tehnik samo-pozornosti, ki so bile učinkovite v jezikovnih modelih, tudi za obdelavo slik.
Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali presegel učinkovitost konvolucijskih nevronskih mrež na številnih nalogah računalniškega vida \cite{vit}. Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali presegel učinkovitost konvolucijskih nevronskih mrež na številnih nalogah računalniškega vida \cite{vit}.
@ -715,35 +714,27 @@ Kot rezultat tega postopka dobimo $(H \cdot W) / P^2$ zaplat, ki se vsaka zravna
Vsak 1D vektor $x$ se nato prenese skozi linearni model: Vsak 1D vektor $x$ se nato prenese skozi linearni model:
\begin{center}
\begin{equation} \begin{equation}
z = Wx + b z = Wx + b
\end{equation} \end{equation}
\end{center}
Ker transformerji ne vsebujejo inherentne informacije o poziciji vložkov v zaporedju, je treba dodati pozicijske vložke: Ker transformerji ne vsebujejo inherentne informacije o poziciji vložkov v zaporedju, je treba dodati pozicijske vložke:
\begin{center}
\begin{equation} \begin{equation}
e_i = z_i + p_i e_i = z_i + p_i
\end{equation} \end{equation}
\end{center}
Zaporedje vložkov se nato prenese skozi bloke transformerja, ki vsebujejo večglavo samopozornost in feed-forward mreže: Zaporedje vložkov se nato prenese skozi bloke transformerja, ki vsebujejo večglavo samopozornost in feed-forward mreže:
\begin{center}
\begin{equation} \begin{equation}
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O
\end{equation} \end{equation}
\end{center}
Za končno klasifikacijo slike se uporabi klasifikacijska glava: Za končno klasifikacijo slike se uporabi klasifikacijska glava:
\begin{center}
\begin{equation} \begin{equation}
y = \text{softmax}(W_2\text{ReLU}(W_1e)) y = \text{softmax}(W_2\text{ReLU}(W_1e))
\end{equation} \end{equation}
\end{center}
%Na sliki \ref{fig:vit} je videti kako se slika razdeli na zaplate pred vstopom v model. %Na sliki \ref{fig:vit} je videti kako se slika razdeli na zaplate pred vstopom v model.
%Lahko opazimo, da sama arhitektura ViT uporablja klasičen transformerski kodirnik. %Lahko opazimo, da sama arhitektura ViT uporablja klasičen transformerski kodirnik.
@ -812,7 +803,6 @@ CPE = f(PEG(E_1, E_2, ..., E_n))
Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiranje na podlagi vhodnih značilnosti, in $E_i$ so značilnosti iz različnih stopenj kodirnika. Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiranje na podlagi vhodnih značilnosti, in $E_i$ so značilnosti iz različnih stopenj kodirnika.
Twins-PCPVT združuje prednosti tako PVT-ja kot CPVT-ja, kar ga naredi enostavnega za učinkovito implementacijo. Twins-PCPVT združuje prednosti tako PVT-ja kot CPVT-ja, kar ga naredi enostavnega za učinkovito implementacijo.
Eksperimentalni rezultati so pokazali, da ta preprosta zasnova lahko doseže zmogljivost nedavno predlaganega Swin transformerja \cite{liu2021swin}. Eksperimentalni rezultati so pokazali, da ta preprosta zasnova lahko doseže zmogljivost nedavno predlaganega Swin transformerja \cite{liu2021swin}.
Na sliki \ref{fig:twins} je prikazana skica PCPVT modela. Na sliki \ref{fig:twins} je prikazana skica PCPVT modela.
\begin{figure}[h] \begin{figure}[h]
@ -833,26 +823,23 @@ Vsaka podmreža prejme sliko: ena je ciljna slika, druga pa je iskana slika.
Oba vhoda se preoblikujeta v značilnostne vektorje prek teh podmrež. Oba vhoda se preoblikujeta v značilnostne vektorje prek teh podmrež.
Nato se izračuna razdalja med obema vektorjema, običajno z evklidsko razdaljo, da se ugotovi, kako podobni sta sliki. Nato se izračuna razdalja med obema vektorjema, običajno z evklidsko razdaljo, da se ugotovi, kako podobni sta sliki.
Matematično, za dve sliki $x_1$ in $x_2$, podmreži proizvedeta predstavitve $f(x_1; \theta)$ in $f(x_2; \theta)$. Razdalja $D$ med tema dvema predstavitvama je določena kot: Matematično, za dve sliki $x_1$ in $x_2$, podmreži proizvedeta predstavitve $f(x_1; \theta)$ in $f(x_2; \theta)$.
Razdalja $D$ med tema dvema predstavitvama je določena kot:
\begin{center} \begin{equation}
\begin{equation}
D(f(x_1; \theta), f(x_2; \theta)) = | f(x_1; \theta) - f(x_2; \theta) |_2 D(f(x_1; \theta), f(x_2; \theta)) = | f(x_1; \theta) - f(x_2; \theta) |_2
\end{equation} \end{equation}
\end{center}
\subsection{Učenje siamske mreže za primerjavo vzorcev} \subsection{Učenje siamske mreže za primerjavo vzorcev}
Da bi siamsko mrežo usposobili za učinkovito primerjavo vzorcev, potrebujemo nabor učnih podatkov, ki vsebuje pare podobnih in različnih slik. Da bi siamsko mrežo usposobili za učinkovito primerjavo vzorcev, potrebujemo nabor učnih podatkov, ki vsebuje pare podobnih in različnih slik.
Med učenjem je cilj zmanjšati razdaljo med podobnimi slikami in povečati razdaljo med različnimi slikami. Med učenjem je cilj zmanjšati razdaljo med podobnimi slikami in povečati razdaljo med različnimi slikami.
Kriterijska funkcija, običajno uporabljena pri učenju siamskih mrež za primerjavo vzorcev, je kontrastna kriterijska funkcija, definirana kot: Kriterijska funkcija, običajno uporabljena pri učenju siamskih mrež za primerjavo vzorcev, je kontrastna kriterijska funkcija, definirana kot:
\begin{center} \begin{equation}
\begin{equation}
L(y, D(f(x_1; \theta), f(x_2; \theta))) = y \cdot \frac{1}{2} D^2 + (1-y) \cdot \frac{1}{2} \max(0, m - D)^2 L(y, D(f(x_1; \theta), f(x_2; \theta))) = y \cdot \frac{1}{2} D^2 + (1-y) \cdot \frac{1}{2} \max(0, m - D)^2
\end{equation} \end{equation}
\end{center}
Kjer $y$ označuje oznako podobnosti (1 za podobne in 0 za različne), $m$ pa je prag, ki določa mejo med podobnimi in različnimi slikami.
Kjer $y$ označuje oznako podobnosti (1 za podobne in 0 za različne), $m$ pa je prag, ki določa mejo med podobnimi in različnimi slikami.
Na sliki \ref{fig:siamese} je prikazana skica siamske mreže uporabljene za primerjavo podpisov. Na sliki \ref{fig:siamese} je prikazana skica siamske mreže uporabljene za primerjavo podpisov.
\begin{figure}[h] \begin{figure}[h]
@ -872,14 +859,15 @@ Zaradi globje hierarhične predstavitve slike so sposobne zaznati in primerjati
V svetu raziskovanja je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov. V svetu raziskovanja je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov.
Kljub obstoju številnih zbirk, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik. Kljub obstoju številnih zbirk, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik.
Konkretno, CVUSA se osredotoča na zgradbe, medtem ko University-1652 predstavlja predvsem univerzitetna okolja. Konkretno, CVUSA se osredotoča na zgradbe, medtem ko University-1652 predstavlja predvsem univerzitetna okolja.
Zaradi pomanjkljivosti obstoječih zbirk in odsotnosti javno dostopne zbirke UL14 iz \cite{dai2022finding}, smo imeli izziv z zbiranjem ustreznih podatkov za analizo. Zaradi pomanjkljivosti obstoječih zbirk in ker zbirka UL14 iz \cite{dai2022finding} ni dostopna, smo se soočili z izzivom pridobivanja ustreznih podatkov za analizo.
Zbirka vsebuje posnetke s pogledom od zgoraj navzdol in je osredotočena na pogled iz brezpilotnega letalnika.
Da bi premostili to vrzel, smo se odločili za ustvarjanje lastne zbirke. Da bi premostili to vrzel, smo se odločili za ustvarjanje lastne zbirke.
Za pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \cite{google_earth_studio} in pridobili slike iz 11 evropskih mest. Za pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}} in pridobili slike iz 11 evropskih mest.
Te slike odražajo raznolikost terena, vključno z zgradbami, parki, zelenimi in vodnimi površinami. Te slike odražajo raznolikost terena, vključno z zgradbami, parki, zelenimi in vodnimi površinami.
Dodatno smo uporabili Mapbox API \cite{mapbox_api} za pridobitev pripadajočih satelitskih slik. Dodatno smo uporabili Mapbox API \footnote{Mapbox API: \url{https://www.mapbox.com/api-documentation/}} za pridobitev pripadajočih satelitskih slik.
Skupno je naša podatkovna množica obsežna in vključuje več kot 11.000 slik. Skupno naša podatkovna vključuje več kot 11.000 slik. Slike so bile pridobljene s simulacijo letenja in so razvrščene v koherentnem časovnem zaporedju.
V članku \cite{dai2022finding, wang2023wamf} so avtorji uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo. V članku \cite{dai2022finding, wang2023wamf} so avtorji uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo.
Ta zbirka se osredotoča večinoma na slike stavb večjih kitajskih univerz. V nasprotju s tem naša zbirka ponuja širši spekter značilnosti za analizo in bolje odraža realne okoliščine. Ta zbirka se osredotoča večinoma na slike stavb večjih kitajskih univerz. V nasprotju s tem naša zbirka ponuja širši spekter značilnosti za analizo in bolje odraža realne okoliščine.
Cilj izdelave naše zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI. Cilj izdelave naše zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
@ -904,7 +892,7 @@ Brezpilotni letalniki so bili kalibrirani na višini 150 metrov nad navedeno nad
Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \cite{google_earth_studio}. Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \cite{google_earth_studio}.
V naboru so mesta s tipično evropsko arhitekturo, kombinacijo zelenja in stavb. V naboru so mesta s tipično evropsko arhitekturo, kombinacijo zelenja in stavb.
Mesta, vključena v učni nabor podatkov, so: Mesta, vključena v nabor podatkov, so:
\begin{itemize} \begin{itemize}
\item \textbf{Maribor:} Nadmorska višina: 272m, Višina brezpilotnega letalnika: 150m, Skupaj: 422m nad morsko gladino. \item \textbf{Maribor:} Nadmorska višina: 272m, Višina brezpilotnega letalnika: 150m, Skupaj: 422m nad morsko gladino.
@ -917,11 +905,10 @@ Mesta, vključena v učni nabor podatkov, so:
\item \textbf{Pordenone:} Nadmorska višina: 24m, Višina brezpilotnega letalnika: 150m, Skupaj: 174m nad morsko gladino. \item \textbf{Pordenone:} Nadmorska višina: 24m, Višina brezpilotnega letalnika: 150m, Skupaj: 174m nad morsko gladino.
\item \textbf{Szombathely:} Nadmorska višina: 212m, Višina brezpilotnega letalnika: 150m, Skupaj: 362m nad morsko gladino. \item \textbf{Szombathely:} Nadmorska višina: 212m, Višina brezpilotnega letalnika: 150m, Skupaj: 362m nad morsko gladino.
\item \textbf{Benetke:} Nadmorska višina: -1m, Višina brezpilotnega letalnika: 150m, Skupaj: 149m nad morsko gladino. \item \textbf{Benetke:} Nadmorska višina: -1m, Višina brezpilotnega letalnika: 150m, Skupaj: 149m nad morsko gladino.
\item \textbf{Ljubljana:} Nadmorska višina: 295m, Višina brezpilotnega letalnika: 150m, Skupaj: 445m nad morsko gladino.
\end{itemize} \end{itemize}
Dodatno je bil v nabor dodan tudi testni nabor podatkov za Ljubljano, ki vključuje 1.000 slik. Na Sliki \ref{fig:region_structures} je prikazana razdelitev zelenih površin in stavb za različna mesta, temelječa na analizi slik, ki smo jih zajeli v našem podatkovnem naboru.
Na Sliki \ref{fig:region_structures} je prikazana vizualna razdelitev zelenih površin in stavb za različna mesta, temelječa na analizi slik, ki smo jih zajeli v našem podatkovnem naboru.
Vsako mesto razkriva svojo edinstveno strukturo in raven urbanizacije. Vsako mesto razkriva svojo edinstveno strukturo in raven urbanizacije.
Te razlike so ključnega pomena pri razumevanju izzivov, s katerimi se srečujejo brezpilotni letalniki pri lokalizaciji in navigaciji v različnih mestnih okoljih. Te razlike so ključnega pomena pri razumevanju izzivov, s katerimi se srečujejo brezpilotni letalniki pri lokalizaciji in navigaciji v različnih mestnih okoljih.
@ -949,27 +936,24 @@ Na slikah \ref{fig:drone_image_example_1} in \ref{fig:drone_image_example_2} so
\begin{figure}[H] \begin{figure}[H]
\centering \centering
\includegraphics[width=1\textwidth]{./img/drone_examples_grid1.png} \includegraphics[width=1\textwidth]{./img/drone_examples_grid1.png}
\caption{Raznoliki primeri slik zajetih z brezpilotnim letalnikom.} \caption{Raznoliki primeri slik, zajetih z brezpilotnim letalnikom.}
\label{fig:drone_image_example_1} \label{fig:drone_image_example_1}
\end{figure} \end{figure}
\begin{figure}[H] \begin{figure}[H]
\centering \centering
\includegraphics[width=1\textwidth]{./img/drone_examples_grid2.png} \includegraphics[width=1\textwidth]{./img/drone_examples_grid2.png}
\caption{Raznoliki primeri slik zajetih z brezpilotnim letalnikom.} \caption{Raznoliki primeri slik, zajetih z brezpilotnim letalnikom.}
\label{fig:drone_image_example_2} \label{fig:drone_image_example_2}
\end{figure} \end{figure}
\section{Satelitske slike} \section{Satelitske slike}
Za vsako sliko posneto z brezpilotnim letalnikom smo poiskali ustrezeno satelitsko zaplato. Za vsako sliko posneto z brezpilotnim letalnikom smo poiskali ustrezeno satelitsko zaplato.
Ta korak je bil ključnega pomena, saj je zagotovil, da so satelitske slike popolnoma usklajene z slikami posnetimi iz brezpilotnega letalnika v smislu geografske lokacije. Ta korak je zagotovil, da so satelitske slike popolnoma usklajene z slikami posnetimi iz brezpilotnega letalnika v smislu geografske lokacije.
Ko smo identificirali ustrezno satelitsko zaplato, smo jo prenesli neposredno iz Mapbox API-ja, vira za visokokakovostne satelitske slike. Ko smo identificirali ustrezno satelitsko zaplato, smo jo prenesli neposredno iz Mapbox API-ja \footnote{Mapbox API: \url{https://www.mapbox.com/api-documentation/}}, vira za visokokakovostne satelitske slike.
Da bi zagotovili dodatno globino in kontekst za vsako lokacijo, nismo prenesli samo osrednje zaplate, temveč tudi vse njene sosednje zaplate. Da bi zagotovili dodatno globino in kontekst za vsako lokacijo, nismo prenesli samo osrednje zaplate, temveč tudi vse njene sosednje zaplate.
Te sosednje zaplate smo nato združili z osrednjo zaplato za ustvarjanje enotne TIFF datoteke. Te sosednje zaplate smo nato združili z osrednjo zaplato za ustvarjanje enotne TIFF datoteke.
Ko govorimo o zaplatah v kontekstu kartografije in GIS (Geografski informacijski sistem), se običajno nanašamo na kvadratne segmente, ki pokrivajo Zemljo in se uporabljajo za hitrejše in učinkovitejše prikazovanje zemljevidov na spletu.
Sistem zaplat je zelo priljubljen v spletnih kartografskih aplikacijah, kot je Google Maps.
Za pretvorbo geografskih koordinat (latitudo in longitudo) v zaplatne koordinate (x, y) na določeni ravni povečave z uporabo Mercatorjeve projekcije, lahko izrazimo: Za pretvorbo geografskih koordinat (latitudo in longitudo) v zaplatne koordinate (x, y) na določeni ravni povečave z uporabo Mercatorjeve projekcije, lahko izrazimo:
\begin{itemize} \begin{itemize}
@ -1013,7 +997,7 @@ Pri vsaki iteraciji je bil izrez drugačen, s poudarkom na vključevanju referen
Ta pristop zagotavlja izpostavljenost modela različnim scenarijem ob ohranjanju natančnosti lokalizacijskih podatkov. Ta pristop zagotavlja izpostavljenost modela različnim scenarijem ob ohranjanju natančnosti lokalizacijskih podatkov.
Slike, pridobljene z brezpilotnimi letalniki, so bile obdelane s tehniko \textit{osrednjega izreza} in različnimi stopnjami povečave, združujoč detajlnost teh slik z obsežnostjo satelitskih posnetkov. Slike, pridobljene z brezpilotnimi letalniki, so bile obdelane s tehniko \textit{osrednjega izreza} in različnimi stopnjami povečave, združujoč detajlnost teh slik z obsežnostjo satelitskih posnetkov.
Spodaj na slikah \ref{fig:drone_sat_example_19}, \ref{fig:drone_sat_example_21}, \ref{fig:drone_sat_example_37}, \ref{fig:drone_sat_example_55} in \ref{fig:drone_sat_example_82} je prikazanih nekaj primerov takšnih izrezov. Spodaj na slikah \ref{fig:drone_sat_example_19}, \ref{fig:drone_sat_example_21}, \ref{fig:drone_sat_example_37}, \ref{fig:drone_sat_example_55} in \ref{fig:drone_sat_example_82} je prikazanih nekaj primerov takšnih izrezov.
Na vsaki sliki je s pomočjo rdečega krogeca označen center izreza, ki predstavlja referenčno točko lokalizacije iz brezpilotnega letalnika, s čimer je omogočeno lažje prepoznavanje osredotočenosti izreza. Na vsaki sliki je s pomočjo rdečega kroga označen center izreza, ki predstavlja referenčno točko lokalizacije iz brezpilotnega letalnika, s čimer je omogočeno lažje prepoznavanje osredotočenosti izreza.
\begin{figure}[h] \begin{figure}[h]
\centering \centering
@ -1050,21 +1034,12 @@ Na vsaki sliki je s pomočjo rdečega krogeca označen center izreza, ki predsta
\label{fig:drone_sat_example_82} \label{fig:drone_sat_example_82}
\end{figure} \end{figure}
\chapter{Rezultati}
\chapter{Zasnova eksperimenta}
\label{ch3} \label{ch3}
V tem poglavju so podrobno predstavljeni rezultati, doseženi v različnih fazah implementacije in optimizacije modela WAMF-FPI. V tem poglavju se bomo osredotočili na zasnovo eksperimenta, s posebnim poudarkom na implementaciji modela WAMF-FPI.
Naš izhodiščni korak je bil zagotoviti stabilno osnovo, kar smo dosegli z implementacijo modela skladno z metodologijo, opisano v izvirnem članku. Poleg tega bomo obravnavali tudi metriko RDS, ki je ključna za ocenjevanje naših rezultatov. V naslednjem podpoglavju bomo podrobneje predstavili postopek implementacije.
Ta pristop nam je zagotovil referenčno točko, od katere smo izvajali nadaljnje optimizacije in izboljšave.
Med optimizacijo modela smo se posvetili iskanju optimalne kriterijske funkcije.
Da bi bolje razumeli, katera funkcija bi lahko prinesla najboljše rezultate v našem primeru, smo izvedli serijo eksperimentov z različnimi funkcijami ter jih evalvirali glede na njihovo učinkovitost in zanesljivost.
Kot naslednji korak smo preučili stratificirano vzorčenje, tehniko, ki bi lahko pripomogla k izboljšanju natančnosti in robustnosti modela z zagotavljanjem bolj uravnoteženega učnega nabora.
Pregledali smo tudi vpliv Hanningovega okna ter analizirali, kako različne velikosti tega okna vplivajo na končne rezultate modela.
V zaključni fazi naših eksperimentov smo se osredotočili na regularizacijo, predvsem na tehniko izpuščanja nevronov.
Zaradi kompleksnosti modelov globokega učenja smo želeli razumeti, kako bi regularizacija lahko pomagala preprečiti prekomerno prilagajanje ter izboljšala splošno učinkovitost modela.
Vsako od teh področij je v nadaljevanju podrobno obravnavano, pri čemer so podane analize, interpretacije in ključne ugotovitve, ki smo jih pridobili v tem procesu.
\section{Implementacija} \section{Implementacija}
@ -1072,15 +1047,23 @@ Sledenje objektov v okviru računalniškega vida običajno temelji na izračunu
Medtem ko temeljna metoda za iskanje točk znotraj slike izhaja iz metodologije sledenja objektov, je prva v primerjavi z drugo bolj zapletena. Medtem ko temeljna metoda za iskanje točk znotraj slike izhaja iz metodologije sledenja objektov, je prva v primerjavi z drugo bolj zapletena.
To je posledica različnih perspektiv med predlogo (sliko posneto z brezpilotnim letalnikom) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo. To je posledica različnih perspektiv med predlogo (sliko posneto z brezpilotnim letalnikom) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo.
Metoda iskanja točk uporablja satelitsko sliko kot referenčno in sliko iz brezpilotnega letalnika kot poizvedbeno. Metoda iskanja točk uporablja satelitsko sliko kot referenčno in sliko iz brezpilotnega letalnika kot poizvedbo.
Obe sliki posneto z brezpilotnim letalnikom in satelitsko sliko relevantnega območja se nato prenesejo v end-to-end mrežo. Obe sliki posneto z brezpilotnim letalnikom in satelitsko sliko relevantnega območja se nato prenesejo v end-to-end mrežo.
Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model. Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model.
Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika. Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika.
V FPI \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike. V \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike.
Izluščene značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika. Izluščene značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika.
Na sliki \ref{fig:fpi_model} je prikazana skica modela FPI \cite{dai2022finding}.
\begin{figure}[h]
\centering
\includegraphics[width=\linewidth]{./img/fpi_model.png}
\caption{Skica modela FPI, iz članka \cite{dai2022finding}}
\label{fig:fpi_model}
\end{figure}
V FPI je za izračun podobnosti uporabljena zadnja plast zemljevidnih značilnosti \cite{dai2022finding}. V FPI je za izračun podobnosti uporabljena zadnja plast zemljevidnih značilnosti \cite{dai2022finding}.
Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pozicioniranja. Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pri določanju lokacije.
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili strukturo piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF). Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili strukturo piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za izluščenje značilnosti iz slik brezpilotnega letalnika in satelitskih slik. K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za izluščenje značilnosti iz slik brezpilotnega letalnika in satelitskih slik.
@ -1092,7 +1075,7 @@ Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu W
\begin{figure}[h] \begin{figure}[h]
\centering \centering
\includegraphics[width=\linewidth]{./img/model.pdf} \includegraphics[width=\linewidth]{./img/model.pdf}
\caption{Skica arhitekture modela} \caption{Skica arhitekture modela WAMF-FPI}
\label{fig:model_architecture} \label{fig:model_architecture}
\end{figure} \end{figure}
@ -1104,14 +1087,14 @@ WAMF-FPI kot vhod uporablja satelitske slike dimenzij 400 × 400 × 3 in slike b
Značilnosti obeh vrst slik so izluščene s pomočjo PCPVT-S. Značilnosti obeh vrst slik so izluščene s pomočjo PCPVT-S.
V modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko V modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
25 x 25 x 256 in 8 x 8 x 320 oziroma. 25 x 25 x 256 in 8 x 8 x 320.
V primerjavi z Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo. V primerjavi z Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo.
Ta struktura je bolj prilagodljiva za naloge goste napovedi. Ta struktura je bolj prilagojena za naloge goste napovedi.
Pravzaprav uporaba piramidne strukture zagotavlja osnovo za kasnejšo integracijo modula WAMF. Pravzaprav uporaba piramidne strukture zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega Mreža s piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi. Poleg tega mreža s piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
Po izluščanju informacij iz slike s pomočjo PCPVT-S se podobnost neposredno izračuna na zadnjih značilnostnih mapah. Po obdelavi slike s pomočjo PCPVT-S se podobnost neposredno izračuna na zadnjih značilnostnih mapah.
Kljub temu je končni izhod stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem s bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike. Kljub temu je končni izhod stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem s bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike.
Pristranskost, ki je posledica nizke ločljivosti značilnostne mape, je bila odstranjena že na samem začetku. Pristranskost, ki je posledica nizke ločljivosti značilnostne mape, je bila odstranjena že na samem začetku.
@ -1134,44 +1117,39 @@ Za začetek se izvedejo konvolucijske operacije na značilnostnih mapah UAV in S
Konvolucijske operacije so izvedene s konvolucijskimi jedri velikosti $1 \times 1$, kar omogoča prilagoditev kanalskih dimenzij značilnostnih map. Konvolucijske operacije so izvedene s konvolucijskimi jedri velikosti $1 \times 1$, kar omogoča prilagoditev kanalskih dimenzij značilnostnih map.
Za UAV značilnostne mape: Za UAV značilnostne mape:
\begin{center} \begin{equation}
\begin{equation}
U1_{\text{UAV}} = \text{Conv1}{\text{UAV}}(s3{\text{UAV}}) U1_{\text{UAV}} = \text{Conv1}{\text{UAV}}(s3{\text{UAV}})
\end{equation} \end{equation}
\begin{equation} \begin{equation}
U2_{\text{UAV}} = \text{Povečava}(U1_{\text{UAV}}) + \text{Conv2}{\text{UAV}}(s2{\text{UAV}}) U2_{\text{UAV}} = \text{Povečava}(U1_{\text{UAV}}) + \text{Conv2}{\text{UAV}}(s2{\text{UAV}})
\end{equation} \end{equation}
\begin{equation} \begin{equation}
U3_{\text{UAV}} = \text{Povečava}(U2_{\text{UAV}}) + \text{Conv3}{\text{UAV}}(s1{\text{UAV}}) U3_{\text{UAV}} = \text{Povečava}(U2_{\text{UAV}}) + \text{Conv3}{\text{UAV}}(s1{\text{UAV}})
\end{equation} \end{equation}
\end{center}
Za SAT značilnostne mape: Za SAT značilnostne mape:
\begin{center} \begin{equation}
\begin{equation}
U1_{\text{SAT}} = \text{Conv1}{\text{SAT}}(s3{\text{SAT}}) U1_{\text{SAT}} = \text{Conv1}{\text{SAT}}(s3{\text{SAT}})
\end{equation} \end{equation}
\begin{equation} \begin{equation}
U2_{\text{SAT}} = \text{Povečava}(U1_{\text{SAT}}) + \text{Conv2}{\text{SAT}}(s2{\text{SAT}}) U2_{\text{SAT}} = \text{Povečava}(U1_{\text{SAT}}) + \text{Conv2}{\text{SAT}}(s2{\text{SAT}})
\end{equation} \end{equation}
\begin{equation} \begin{equation}
U3_{\text{SAT}} = \text{Povečava}(U2_{\text{SAT}}) + \text{Conv3}{\text{SAT}}(s1{\text{SAT}}) U3_{\text{SAT}} = \text{Povečava}(U2_{\text{SAT}}) + \text{Conv3}{\text{SAT}}(s1{\text{SAT}})
\end{equation} \end{equation}
\end{center}
Kjer je $\text{Povečava}$ funkcija, ki poveča prostorsko resolucijo značilnostne mape z uporabo bikubične interpolacije. Kjer je $\text{Povečava}$ funkcija, ki poveča prostorsko resolucijo značilnostne mape z uporabo bikubične interpolacije.
\begin{center} \begin{equation}
\begin{equation}
A1 = \text{corr}(U1_{\text{UAV}}, U3_{\text{SAT}}) A1 = \text{corr}(U1_{\text{UAV}}, U3_{\text{SAT}})
\end{equation} \end{equation}
\begin{equation} \begin{equation}
A2 = \text{corr}(U2_{\text{UAV}}, U3_{\text{SAT}}) A2 = \text{corr}(U2_{\text{UAV}}, U3_{\text{SAT}})
\end{equation} \end{equation}
\begin{equation} \begin{equation}
A3 = \text{corr}(U3_{\text{UAV}}, U3_{\text{SAT}}) A3 = \text{corr}(U3_{\text{UAV}}, U3_{\text{SAT}})
\end{equation} \end{equation}
\end{center}
Kjer je corr funkcija za izračun korelacije med dvema značilnostnima mapama. Kjer je corr funkcija za izračun korelacije med dvema značilnostnima mapama.
Korelacija v kontekstu obdelave slik je postopek izračuna podobnosti med dvema slikama ali značilnostnima mapama. Korelacija v kontekstu obdelave slik je postopek izračuna podobnosti med dvema slikama ali značilnostnima mapama.
@ -1225,12 +1203,25 @@ Kjer so:
Za lažje razumevanje delovanja RDS metrike smo dodali dodatek \ref{appendix:RDS} k diplomskemu delu, ki vsebuje tri primere izračuna metrike. Za lažje razumevanje delovanja RDS metrike smo dodali dodatek \ref{appendix:RDS} k diplomskemu delu, ki vsebuje tri primere izračuna metrike.
\chapter{Rezultati}
\label{ch4}
V tem poglavju so podrobno predstavljeni rezultati, doseženi v različnih fazah implementacije in optimizacije modela WAMF-FPI.
Med optimizacijo modela smo se posvetili iskanju optimalne kriterijske funkcije.
Da bi bolje razumeli, katera funkcija bi lahko prinesla najboljše rezultate v našem primeru, smo izvedli serijo eksperimentov z različnimi funkcijami ter jih evalvirali glede na njihovo učinkovitost in zanesljivost.
Kot naslednji korak smo preučili stratificirano vzorčenje, tehniko, ki bi lahko pripomogla k izboljšanju natančnosti in robustnosti modela z zagotavljanjem bolj uravnoteženega učnega nabora.
Pregledali smo tudi vpliv Hanningovega okna ter analizirali, kako različne velikosti tega okna vplivajo na končne rezultate modela.
V zaključni fazi naših eksperimentov smo se osredotočili na regularizacijo, predvsem na tehniko izpuščanja nevronov.
Zaradi kompleksnosti modelov globokega učenja smo želeli razumeti, kako bi regularizacija lahko pomagala preprečiti prekomerno prilagajanje ter izboljšala splošno učinkovitost modela.
Vsako od teh področij je v nadaljevanju podrobno obravnavano, pri čemer so podane analize, interpretacije in ključne ugotovitve, ki smo jih pridobili v tem procesu.
\section{Učenje modela} \section{Učenje modela}
Model smo učili na računalniški konfiguraciji, opremljeni s procesorjem Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz z 12 jedri. Model smo učili na računalniškem sistemu s procesorjem Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz z 12 jedri ter grafično kartico NVIDIA GeForce RTX 3060 z 12 GB pomnilnika.
Dodatno je računalnik vseboval grafično kartico NVIDIA GeForce RTX 3060 z 12 GB pomnilnika. Razvoj je temeljil na platformi Ubuntu z uporabo Python \footnote{Programski jezik Python: \url{https://www.python.org/}} knjižnice PyTorch \footnote{Knjižnica Pytorch: \url{https://pytorch.org/}}.
Naš razvoj je temeljil na platformi Ubuntu z uporabo Python \cite{python} knjižnice PyTorch \cite{pytorch}. V času učenja našega modela ni prišlo do povečane energetske porabe, saj je bil računalnik neprestano napajan iz lokalne sončne elektrarne.
V času učenja našega modela ni prišlo do povečane energetske porabe, saj je bil naš računalnik neprestano napajan iz lokalne sončne elektrarne.
To pomeni, da je bil celoten postopek učenja izveden na okolju prijazen način, brez dodatnega obremenjevanja električnega omrežja ali uporabe fosilnih goriv. To pomeni, da je bil celoten postopek učenja izveden na okolju prijazen način, brez dodatnega obremenjevanja električnega omrežja ali uporabe fosilnih goriv.
Za dosego optimalnih rezultatov smo uporabili specifične hiperparametre in nastavitve: Za dosego optimalnih rezultatov smo uporabili specifične hiperparametre in nastavitve:
@ -1253,7 +1244,8 @@ S tem pristopom smo uspešno sestavili nabor podatkov, ki združuje najboljše i
\section{Izbira kriterjiske funkcije} \section{Izbira kriterjiske funkcije}
Zanimalo nas je, kako se bo model obnesel, ko izbiramo različne kriterijske funkcije. Zanimalo nas je, kako se bo model obnesel pri uporabi različnih kriterijskih funkcij.
Predvidevamo, da bo Hanningovo okno kot kriterijska funkcija prineslo najboljše rezultate, saj jih je tudi v \cite{wang2023wamf}, medtem ko pričakujemo, da bo Krizno utežena srednja kvadratna napaka prav tako pokazala dobre rezultate
\subsection{Hanningova kriterijska funkcija} \subsection{Hanningova kriterijska funkcija}
@ -1394,7 +1386,7 @@ vrednost 0.893. Kljub temu, da je na validacijski množici dosegla nekoliko niž
vrednost 0.709, to kaže, da se je znanje dobro preneslo na validacijsko množico. Zaradi teh pozitivnih rezultatov smo Hanningovo kriterijsko funkcijo uporabljali v nadaljnjem testiranju. vrednost 0.709, to kaže, da se je znanje dobro preneslo na validacijsko množico. Zaradi teh pozitivnih rezultatov smo Hanningovo kriterijsko funkcijo uporabljali v nadaljnjem testiranju.
V spodnjem razdelku so na slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5} V spodnjem razdelku so na slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5}
predstavljeni primeri lokalizacije z modelom WAMF-FPI na vzorcu iz validacijske množice za Ljubljano. predstavljeni primeri lokalizacije z modelom WAMF-FPI na vzorcu iz podatkovne množice za Ljubljano.
Ti izbrani primeri osvetljujejo uspešnost in pomanjkljivosti modela pri obvladovanju kompleksnih scenarijev lokalizacije. Ti izbrani primeri osvetljujejo uspešnost in pomanjkljivosti modela pri obvladovanju kompleksnih scenarijev lokalizacije.
S pomočjo teh primerov lahko podrobneje razumemo zmogljivosti in omejitve uporabljenega modela v praksi. S pomočjo teh primerov lahko podrobneje razumemo zmogljivosti in omejitve uporabljenega modela v praksi.
Na vsaki sliki je z rdečim krogcem označena dejanska lokacija (ang. ground truth), medtem ko je z modrim krogcem označena predikcija modela, ki predstavlja najvišjo točko v toplotni karti. Na vsaki sliki je z rdečim krogcem označena dejanska lokacija (ang. ground truth), medtem ko je z modrim krogcem označena predikcija modela, ki predstavlja najvišjo točko v toplotni karti.
@ -1478,8 +1470,8 @@ Kljub temu je treba upoštevati omejitve stratificiranega vzorčenja, kot so ome
\section{Vpliv velikosti Hanningovega okna} \section{Vpliv velikosti Hanningovega okna}
Hanningovo okno, ključni element za določanje uteži vzorcev v satelitskih slikah, se prilagaja glede na svojo velikost. Hanningova kriterijska funkcija je ključna za določanje uteži vzorcev v satelitskih slikah.
Spreminjanje velikosti okna neposredno vpliva na razporeditev in obliko uteži, kar ima posledično vpliv na kakovost rezultatov. Spreminjanje velikosti njenega okna neposredno vpliva na razporeditev in obliko uteži, kar ima posledično vpliv na kakovost rezultatov.
\subsection{Dinamika različnih velikosti Hanningovih oken} \subsection{Dinamika različnih velikosti Hanningovih oken}
@ -1489,7 +1481,7 @@ Nasprotje predstavlja preveliko okno, ki zajema široko paleto vzorcev. Kljub š
\subsection{Eksperimentalni rezultati} \subsection{Eksperimentalni rezultati}
V eksperimentu smo vsak model posebej natrenirali z različnimi velikostmi Hanningovega okna, da bi ocenili vpliv velikosti oken na modelovo natančnost. V eksperimentu smo vsak model posebej naučili z različnimi velikostmi Hanningovega okna, da bi ocenili vpliv velikosti oken na modelovo natančnost.
Za testiranje smo uporabili kombinacijo slike iz brezpilotnega letalnika in satelitske slike, zagotavljajoč enake vhodne podatke za vse modele. Za testiranje smo uporabili kombinacijo slike iz brezpilotnega letalnika in satelitske slike, zagotavljajoč enake vhodne podatke za vse modele.
Referenčni sliki za testiranje sta prikazani na sliki \ref{fig:sat_drone}. Referenčni sliki za testiranje sta prikazani na sliki \ref{fig:sat_drone}.
@ -1631,7 +1623,7 @@ Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretac
To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah. To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
\chapter{Sklepne ugotovitve} \chapter{Sklepne ugotovitve}
\label{ch4} \label{ch5}
Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora. Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora.
Kljub njihovi široki uporabi pa se soočajo z več ključnimi izzivi, zlasti na področju avtonomne navigacije. Kljub njihovi široki uporabi pa se soočajo z več ključnimi izzivi, zlasti na področju avtonomne navigacije.
@ -1651,7 +1643,6 @@ Spodaj so izpostavljene naše glavne ugotovitve in predlogi:
\item \textbf{Iskanje pripadajoče satelitske slike}: \item \textbf{Iskanje pripadajoče satelitske slike}:
Ena od glavnih težav, s katerimi se metoda še vedno sooča, je identifikacija prave satelitske slike, ki ustreza sliki posneti z brezpilotnim letalnikom. Ena od glavnih težav, s katerimi se metoda še vedno sooča, je identifikacija prave satelitske slike, ki ustreza sliki posneti z brezpilotnim letalnikom.
To predstavlja izziv, še posebej v bazah z milijoni slik, in je eno od področij, ki zahteva nadaljnje raziskave. To predstavlja izziv, še posebej v bazah z milijoni slik, in je eno od področij, ki zahteva nadaljnje raziskave.
Poskusili smo to implementirati, vendar je na žalost zmanjkalo časa.
Kljub temu obstaja potencial za integracijo te metode z obstoječimi senzorji na brezpilotnem letalniku za izboljšanje lokalizacije. Kljub temu obstaja potencial za integracijo te metode z obstoječimi senzorji na brezpilotnem letalniku za izboljšanje lokalizacije.
\item \textbf{Raziskava različnih kriterijskih funkcij}: \item \textbf{Raziskava različnih kriterijskih funkcij}:
V okviru naše analize smo preizkusili več kriterijskih funkcij, vključno s Hanningovo kriterijsko funkcijo, Gaussovo uteženo srednjo kvadratno napako, Hanningovo uteženo srednjo kvadratno napako ter križno uteženo srednjo kvadratno napako. V okviru naše analize smo preizkusili več kriterijskih funkcij, vključno s Hanningovo kriterijsko funkcijo, Gaussovo uteženo srednjo kvadratno napako, Hanningovo uteženo srednjo kvadratno napako ter križno uteženo srednjo kvadratno napako.
@ -1662,7 +1653,7 @@ Spodaj so izpostavljene naše glavne ugotovitve in predlogi:
Vendar pa je treba skrbno uravnotežiti med računskimi obremenitvami in natančnostjo modela. Vendar pa je treba skrbno uravnotežiti med računskimi obremenitvami in natančnostjo modela.
\item \textbf{Praktična uporaba}: \item \textbf{Praktična uporaba}:
Naša največja ambicija za prihodnost je preizkusiti metodo WAMF-FPI na dejanskem brezpilotnem letalniku. Naša največja ambicija za prihodnost je preizkusiti metodo WAMF-FPI na dejanskem brezpilotnem letalniku.
S tem bi lahko dobili boljšo predstavo o realni učinkovitosti in uporabnosti metode v praksi. S tem bi lahko dobili boljšo predstavo o realni učinkovitosti in uporabnosti metode v praksi. \todo{Nevem kaj pise}
\end{enumerate} \end{enumerate}
Metoda WAMF-FPI predstavlja pomemben korak naprej v lokalizaciji brezpilotnih letalnikov, še posebej v okoljih, kjer je satelitski signal omejen ali nezanesljiv. Metoda WAMF-FPI predstavlja pomemben korak naprej v lokalizaciji brezpilotnih letalnikov, še posebej v okoljih, kjer je satelitski signal omejen ali nezanesljiv.

BIN
img/fpi_model.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 725 KiB