Compare commits
2 Commits
7c0f975805
...
60f381f272
Author | SHA1 | Date |
---|---|---|
Gašper Spagnolo | 60f381f272 | |
Gašper Spagnolo | 92cd7fb51c |
BIN
diploma.pdf
BIN
diploma.pdf
Binary file not shown.
157
diploma.tex
157
diploma.tex
|
@ -433,7 +433,22 @@ Vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke sta
|
|||
Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo.
|
||||
Zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov postalo nujno.
|
||||
|
||||
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav, zhu2022transgeo}.
|
||||
Zgodnje metode, kot so navedene v virih \cite{semantic_crossview}, \cite{crossview_image}, \cite{global_vehicle} in \cite{geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti.
|
||||
To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije.
|
||||
Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti.
|
||||
|
||||
S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so
|
||||
raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže.
|
||||
Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov,
|
||||
uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji.
|
||||
Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika.
|
||||
|
||||
V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže.
|
||||
Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami.
|
||||
V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno.
|
||||
V \cite{optimal_transport} predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije.
|
||||
|
||||
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}.
|
||||
Vendar pa se ob njihovi uporabi pojavi cela paleta izzivov.
|
||||
Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij, nad katerimi letalnik leti.
|
||||
Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki.
|
||||
|
@ -442,13 +457,10 @@ To ne le da je časovno potratno, ampak tudi poveča stroške, saj morajo vse sl
|
|||
Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje.
|
||||
V praksi to pomeni, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno.
|
||||
|
||||
\todo{TLE MANJKA RELATED WORK ODSTAVEK (nevem kaj je misljeno s tem)}
|
||||
|
||||
V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}.
|
||||
Ta pristop se razlikuje od običajnih metod v smislu strukture in delovanja.
|
||||
FPI sprejme dva vhodna podatka: sliko, posneto z brezpilotnim letalnikom, in pripadajočo satelitsko sliko.
|
||||
V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta.
|
||||
|
||||
Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo.
|
||||
Ko sta obe sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije.
|
||||
Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko.
|
||||
|
@ -457,35 +469,36 @@ Ta informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega
|
|||
|
||||
Inovacije v znanstvenem raziskovanju pogosto vodijo do nadaljnjih metodoloških izboljšav.
|
||||
Nadgradnja metode FPI, znana kot WAMF-FPI, je dodatno izboljšala natančnost in učinkovitost lokalizacije brezpilotnih letalnikov \cite{dai2022finding}.
|
||||
Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije, ob soočanju z izzivi, ki jih predstavljajo razlike med slikami UAV in satelitskimi slikami.
|
||||
Z uporabo dveh različnih uteži za izvleček značilnosti UAV in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
|
||||
Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije, ob soočanju z izzivi, ki jih predstavljajo razlike med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami.
|
||||
Z uporabo dveh različnih uteži za izvleček značilnosti iz slik posnetih z brezpilotnim letalnikom in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
|
||||
Dodatna optimizacija je bila dosežena z vključitvijo WAMF modula in uporabo Hanningove kriterijske funkcije, ki sta povečala učinkovitost modela.
|
||||
|
||||
WAMF-FPI je evolucija osnovne metode FPI in prinaša številne \todo{Tle manjka popravek, stevilne} izboljšave pri procesiranju slik.
|
||||
Ključna prednost WAMF-FPI je njegova napredna piramidna struktura izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
|
||||
WAMF-FPI je evolucija osnovne metode FPI. Ključna prednost WAMF-FPI je njegova napredna piramidna struktura izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
|
||||
Z uporabo te piramidne strukture se značilke izluščijo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
|
||||
Poleg tega WAMF-FPI optimizira kompresijske zmogljivosti, kar pripomore k hitrejšemu in učinkovitejšemu procesiranju podatkov.
|
||||
Medtem ko je v osnovni FPI metodi končna velikost značilk bila stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo 4-krat manjšo velikost.
|
||||
To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
|
||||
|
||||
Velik problem nam je predstavljala odsotnost javno dostopnep podatkovne zbirke.
|
||||
Zaradi te ovire smo se odločili za ustvarjanje lastne zbirke.
|
||||
To smo storili s pomočjo Google Earth Studio.
|
||||
Naša zbirka vključuje 11 večjih evropskih mest z raznoliko strukturo.
|
||||
Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik.
|
||||
Na primer, zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe.
|
||||
Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja.
|
||||
V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}.
|
||||
Naša zbirka obsega 11 večjih evropskih mest z raznoliko strukturo. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo našega pristopa. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu.
|
||||
Cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
|
||||
Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku, in preverili njegovo delovanje.
|
||||
Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode.
|
||||
V tej diplomski nalogi bomo podrobno raziskali te tehnike, njihove prednosti in pomanjkljivosti ter potencialne aplikacije in izboljšave za prihodnost.
|
||||
Analizirali bomo njihovo učinkovitost in natančnost, s poudarkom na njihovi uporabi v realnih scenarijih lokalizacije brezpilotnih letalnikov.
|
||||
Naš cilj je ponuditi temeljito analizo metode WAMF-FPI in njenih aplikacij, da bi olajšali nadaljnji razvoj in uporabo v industriji brezpilotnih letalnikov.
|
||||
|
||||
\todo{Struktura naloge?}
|
||||
Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku, in preverili njegovo delovanje \cite{wang2023wamf}.
|
||||
Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode.
|
||||
|
||||
Diplomska naloga je razdeljena na pet osnovnih poglavij, ki sledijo po Kazalu, Povzetku in Abstractu.
|
||||
V Uvodu je predstavljena temeljna izhodišča in namen raziskave.
|
||||
Metodologija obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja.
|
||||
Podatkovna množica obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike.
|
||||
V Rezultatih so predstavljeni rezultati implementacije, optimizacija in pristopi učenja modela.
|
||||
Zaključne ugotovitve v petem poglavju povzemajo ključne ugotovitve naloge, celotno delo pa se zaključuje z navedbo relevantne literature.
|
||||
|
||||
\chapter{Metodologija}
|
||||
\label{ch0}
|
||||
|
||||
\todo[color=green!40]{Tukaj sem izbrisal kar celoten odstavek}
|
||||
|
||||
V tem poglavju bomo predstavili osnovne komponente, ki jih uporabljamo v našem modelu.
|
||||
Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov.
|
||||
Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu.
|
||||
|
@ -528,6 +541,7 @@ Osnovna struktura CNN vključuje štiri glavne vrste plasti: konvolucijsko, akti
|
|||
|
||||
\item \textbf{Polno povezane plasti}:
|
||||
Delujejo kot klasične plasti v običajnih nevronskih mrežah. Vsak nevron je povezan z vsemi izhodi prejšnje plasti.
|
||||
\todo{Dodaj enacbo}
|
||||
\end{enumerate}
|
||||
|
||||
\subsection{Značilnosti in prednosti}
|
||||
|
@ -538,7 +552,7 @@ Ta hierarhična značilnost je tisto, kar omogoča CNN, da doseže izjemno natan
|
|||
\section{Transformerska arhitektura}
|
||||
|
||||
V tem podpoglavju bomo obravnavali razvoj in lastnosti transformerske arhitekture.
|
||||
Predstavljeno bo ozadje, vključno s prejšnjimi mehanizmi, kot so rekurentne nevronske mreže, ter detajli o njihovi zgradbi in delovanju.
|
||||
Predstavljeno bo ozadje, vključno s prejšnjimi mehanizmi, kot so rekurentne nevronske mreže, ter podrobnosti o njihovi zgradbi in delovanju.
|
||||
|
||||
\subsection{Predhodni mehanizmi}
|
||||
|
||||
|
@ -550,9 +564,7 @@ V tej strukturi je bilo zaporedje vhodnih besed ali kodirano v latentni prostor
|
|||
Problem s to strukturo je bil, da je bil latentni prostor omejen na velikost fiksne dolžine in je moral vsebovati vse informacije iz izvornega zaporedja, ki so potrebne za generiranje ciljnega zaporedja.
|
||||
To je omejevalo model pri obvladovanju dolgih zaporedij, saj je bilo težko ohraniti informacije iz zgodnjega dela zaporedja do konca.
|
||||
Da bi to težavo rešili, so raziskovalci vključili mehanizem pozornosti, ki je omogočil dekodirniku, da se osredotoči na različne dele izvornega zaporedja na različnih stopnjah generiranja ciljnega zaporedja.
|
||||
To je bil velik napredek, ki je omogočil boljše obvladovanje dolgih zaporedij.
|
||||
|
||||
\todo[color=green!40]{Tukaj sem izbrisal kar celoten odstavek}
|
||||
To je bil velik napredek, ki je omogočil boljše obvladovanje dolgih zaporedij \cite{bahdanau2015neural}.
|
||||
|
||||
\subsection{Razlaga RNN kodirnik-dekodirnik arhitekture}
|
||||
|
||||
|
@ -596,7 +608,7 @@ Na sliki \ref{fig:rnn} je prikazana skica RNN modela.
|
|||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=0.6\textwidth]{./img/rnn.pdf}
|
||||
\includegraphics[width=\textwidth]{./img/rnn.pdf}
|
||||
\caption{Skica RNN modela}
|
||||
\label{fig:rnn}
|
||||
\end{figure}
|
||||
|
@ -610,7 +622,7 @@ Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ bloko
|
|||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=0.4\textwidth]{./img/transformer_network.jpg}
|
||||
\includegraphics[width=0.5\textwidth]{./img/transformer_network.jpg}
|
||||
\caption{Izgled transformerja, iz članka "Attention is all you need" \cite{vaswani2017attention}.}
|
||||
\label{fig:transformer_network}
|
||||
\end{figure}
|
||||
|
@ -638,8 +650,7 @@ Za razliko od plasti pozornosti na začetku blokov kodirnika in dekodirnika ta p
|
|||
|
||||
\subsection{Utežena točkovna produktna pozornost}
|
||||
Utežena točkovna produktna pozornot (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju.
|
||||
Za zdaj bomo razčlenili matematiko za to operacijo, le da dobimo občutek, katera števila gredo kam.
|
||||
Kasneje se bomo osredotočili na njegove aplikacije v članku.
|
||||
Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}.
|
||||
|
||||
\begin{center}
|
||||
\begin{equation}
|
||||
|
@ -647,11 +658,10 @@ Kasneje se bomo osredotočili na njegove aplikacije v članku.
|
|||
\end{equation}
|
||||
\end{center}
|
||||
|
||||
Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}.
|
||||
Edina razlika je, da je vhod v softmax skaliran s faktorjem $\frac{1}{\sqrt{d_k}}$.
|
||||
Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem \cite{vaswani2017attention}.
|
||||
|
||||
V članku in predhodni literaturi se vrstice \( Q \in \mathbb{R}^{m \times d_k} \) imenujejo poizvedbe, vrstice \( K \in \mathbb{R}^{n \times d_k} \) ključi, in vrstice \( V \in \mathbb{R}^{n \times d_v} \) vrednosti.
|
||||
V članku \cite{vaswani2017attention} in predhodni literaturi \cite{bahdanau2015neural} se vrstice \( Q \in \mathbb{R}^{m \times d_k} \) imenujejo poizvedbe, vrstice \( K \in \mathbb{R}^{n \times d_k} \) ključi, in vrstice \( V \in \mathbb{R}^{n \times d_v} \) vrednosti.
|
||||
Upoštevati je potrebno, da se za izvedbo mora število ključev in vrednosti \( n \) ujemati, vendar se lahko število poizvedb \( m \) razlikuje.
|
||||
Prav tako se mora dimenzionalnost ključev in poizvedb ujemati, vendar se lahko dimenzionalnost vrednosti razlikuje.
|
||||
|
||||
|
@ -752,41 +762,46 @@ Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali
|
|||
|
||||
\subsection{Arhitektura ViT}
|
||||
|
||||
\begin{itemize}
|
||||
\item Razdelitev slike na zaplate: Slika velikosti $H \times W \times C$ se razdeli na zaplate velikosti $P \times P$, kjer je $H$ višina, $W$ širina, $C$ število barvnih kanalov in $P$ velikost zaplate.
|
||||
To ustvari $(H \cdot W) / P^2$ zaplat. Vsaka zaplata se nato zravna v 1D vektor dolžine $P^2 \cdot C$.
|
||||
\item Linearne projekcije: Vsak 1D vektor $x$ se prenese skozi enostaven linearni model (npr. polno povezano plast), da se pretvori v vektorski vložek. To se lahko zapiše kot:
|
||||
\begin{align*}
|
||||
z = Wx + b
|
||||
\end{align*}
|
||||
kjer sta $W$ in $b$ uteži in pristranskost linearne plasti.
|
||||
Arhitektura ViT obravnava slike dimenzij $H \times W \times C$ tako, da jih razdeli na zaplate dimenzij $P \times P$.
|
||||
Pri tem sta $H$ in $W$ višina in širina slike, $C$ je število barvnih kanalov, $P$ pa predstavlja dimenzijo zaplate.
|
||||
Kot rezultat tega postopka dobimo $(H \cdot W) / P^2$ zaplat, ki se vsaka zravna v 1D vektor dolžine $P^2 \cdot C$.
|
||||
|
||||
\item Dodajanje pozicijskih vložkov: Ker transformerji ne vsebujejo nobene inherentne informacije o relativni ali absolutni poziciji vložkov v zaporedju, se dodajo pozicijski vložki.
|
||||
To so enaki vektorji, ki se dodajo vložkom zaplat, da bi modelu dali nekaj informacij o tem, kje se zaplata nahaja v sliki.
|
||||
Če je $z_i$ vložek $i$-te zaplate in $p_i$ pozicijski vložek, potem je končni vložek $e_i$ določen kot:
|
||||
\begin{align*}
|
||||
e_i = z_i + p_i
|
||||
\end{align*}
|
||||
Vsak 1D vektor $x$ se nato prenese skozi linearni model:
|
||||
|
||||
\item Bloki transformerja: Zaporedje vložkov (zdaj z dodanimi pozicijskimi vložki) se nato prenese skozi več blokov transformerja.
|
||||
Ti bloki vsebujejo večglavo samopozornost in mreže feed-forward, ki omogočajo modelu, da se nauči, kako povezati različne dele slike. Večglava samopozornost se lahko zapiše kot:
|
||||
\begin{align*}
|
||||
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O
|
||||
\end{align*}
|
||||
kjer je $\text{head}_i = \text{Attention}(QW{Qi}, KW_{Ki}, VW_{Vi})$, $Q$, $K$ in $V$ so poizvedbe, ključi in vrednosti, $W_{Qi}$, $W_{Ki}$, $W_{Vi}$ in $W_O$ so uteži, ki se naučijo, in $\text{Attention}$ je funkcija samopozornosti.
|
||||
\begin{center}
|
||||
\begin{equation}
|
||||
z = Wx + b
|
||||
\end{equation}
|
||||
\end{center}
|
||||
|
||||
\item Klasifikacijska glava: Na koncu se uporabi klasifikacijska glava (ponavadi ena polno povezana plast), da se izračuna končna napoved za dano nalogo (npr. klasifikacija slik). To se lahko zapiše kot:
|
||||
\begin{align*}
|
||||
y = \text{softmax}(W_2\text{ReLU}(W_1e))
|
||||
\end{align*}
|
||||
Ker transformerji ne vsebujejo inherentne informacije o poziciji vložkov v zaporedju, je treba dodati pozicijske vložke:
|
||||
|
||||
kjer sta $W_1$ in $W_2$ uteži polno povezanih plasti, $e$ je vložek, ki izhaja iz transformerskih blokov, in $\text{ReLU}$ in $\text{softmax}$ sta aktivacijski funkciji.
|
||||
\end{itemize}
|
||||
\begin{center}
|
||||
\begin{equation}
|
||||
e_i = z_i + p_i
|
||||
\end{equation}
|
||||
\end{center}
|
||||
|
||||
Zaporedje vložkov se nato prenese skozi bloke transformerja, ki vsebujejo večglavo samopozornost in feed-forward mreže:
|
||||
|
||||
\begin{center}
|
||||
\begin{equation}
|
||||
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O
|
||||
\end{equation}
|
||||
\end{center}
|
||||
|
||||
Za končno klasifikacijo slike se uporabi klasifikacijska glava:
|
||||
|
||||
\begin{center}
|
||||
\begin{equation}
|
||||
y = \text{softmax}(W_2\text{ReLU}(W_1e))
|
||||
\end{equation}
|
||||
\end{center}
|
||||
|
||||
\section{Piramidni ViT (PVT)}
|
||||
Piramidni ViT (PVT) \cite{wang2021pyramid} je bil razvit z namenom vključitve piramidne strukture v okviru Transformerja.
|
||||
Arhitektura PVT je razdeljena na štiri stopnje.
|
||||
Vsaka od teh stopenj je sestavljena iz plasti za vdelavo zaplat (ang. patch embedding) in iz več plasti Transformer kodirnika.
|
||||
Vsaka od teh stopenj je sestavljena iz plasti za vdelavo zaplat (ang. patch embedding) in iz več plasti Transformerskega kodirnika.
|
||||
Značilnost te arhitekture je, da se izstopna ločljivost štirih stopenj postopoma zmanjšuje, kar sledi piramidni strukturi.
|
||||
Na najvišji stopnji je ločljivost značilnostne mape največja, medtem ko se na najnižji stopnji zmanjša.
|
||||
|
||||
|
@ -814,7 +829,7 @@ Na sliki \ref{fig:pvt} je prikazana skica PVT modela.
|
|||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=0.8\textwidth]{./img/pvt.pdf}
|
||||
\includegraphics[width=\textwidth]{./img/pvt.pdf}
|
||||
\caption{Skica PVT modela}
|
||||
\label{fig:pvt}
|
||||
\end{figure}
|
||||
|
@ -840,6 +855,15 @@ Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiran
|
|||
Twins-PCPVT združuje prednosti tako PVT-ja kot CPVT-ja, kar ga naredi enostavnega za učinkovito implementacijo.
|
||||
Eksperimentalni rezultati so pokazali, da ta preprosta zasnova lahko doseže zmogljivost nedavno predlaganega Swin transformerja \cite{liu2021swin}.
|
||||
|
||||
Na sliki \ref{fig:twins} je prikazana skica PCPVT modela.
|
||||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=\textwidth]{./img/twins.png}
|
||||
\caption{Skica PCPVT modela, iz članka o modelu Twins \cite{chu2021twins}}
|
||||
\label{fig:twins}
|
||||
\end{figure}
|
||||
|
||||
\section{Siamska nevronska mreža za primerjavo vzorcev}
|
||||
Siamske nevronske mreže predstavljajo sodoben pristop v domeni primerjave vzorcev v računalniškem vidu.
|
||||
Z zmožnostjo učinkovite primerjave med paroma slik so siamske mreže pridobile pozornost v številnih aplikacijah, kjer je ključnega pomena zanesljiva ocena podobnosti.
|
||||
|
@ -871,6 +895,15 @@ Kriterijska funkcija, običajno uporabljena pri učenju siamskih mrež za primer
|
|||
\end{center}
|
||||
Kjer $y$ označuje oznako podobnosti (1 za podobne in 0 za različne), $m$ pa je prag, ki določa mejo med podobnimi in različnimi slikami.
|
||||
|
||||
Na sliki \ref{fig:twins} je prikazana skica siamske mreže uporabljene za primerjavo podpisov.
|
||||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=\textwidth]{./img/siamese_net.png}
|
||||
\caption{Skica siamske mreže, model SigNet \cite{dey2017signet}}
|
||||
\label{fig:twins}
|
||||
\end{figure}
|
||||
|
||||
\subsection{Aplikacije in prednosti}
|
||||
Siamske mreže za primerjavo vzorcev so se izkazale za izjemno koristne v številnih aplikacijah, kot so prepoznavanje in sledenje objektom, biometrija ter varnost in nadzor.
|
||||
V primerjavi s tradicionalnimi metodami imajo siamske mreže večjo odpornost na variacije v svetlobi, rotaciji, lestvici in drugih deformacijah.
|
||||
|
@ -899,7 +932,7 @@ s čimer zagotavljamo njegovo robustnost in splošno uporabnost.
|
|||
Za primerjavo, v članku so uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo \cite{dai2022finding, wang2023wamf}.
|
||||
Ta množica predvsem vsebuje slike stavb večjih kitajskih univerz.
|
||||
V nasprotju z UL14, naša podatkovna množica ne zajema samo stavb, temveč tudi parke,
|
||||
zelene površine in druge značilnosti terena, kar prinaša širši spekter značilnosti za analizo, ter predstavlja bolj realne okoliščine.
|
||||
zelene površine, vodnate površine in druge značilnosti terena, kar prinaša širši spekter značilnosti za analizo, ter predstavlja bolj realne okoliščine.
|
||||
|
||||
\section{Slike brezpilotnega letalnika}
|
||||
Nabor podatkov, ki ga predstavljamo, je bil zasnovan z namenom raziskovanja in analizel lokalizacije brezpilotnih letalnikov v različnih mestnih scenarijih.
|
||||
|
@ -937,7 +970,7 @@ Vsaka slika je opremljena z oznakami lokacije kamere v sistemu ECEF. Sistem ECEF
|
|||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=1\textwidth]{./img/cities.png}
|
||||
\includegraphics[width=0.8\textwidth]{./img/cities.png}
|
||||
\caption{Slika prikazuje lokacije mest, ki so vključena v nabor podatkov.}
|
||||
\label{fig:cities}
|
||||
\end{figure}
|
||||
|
@ -963,7 +996,7 @@ Na sliki \ref{fig:drone_image_example} so prikazani raznoliki primeri zajeti z b
|
|||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=1\textwidth]{./img/drone_examples.png}
|
||||
\caption{Raznoliki primeri slik iz brezpilotnega letalnika.}
|
||||
\caption{Raznoliki primeri slik zajetih z brezpilotnim letalnikom.}
|
||||
\label{fig:drone_image_example}
|
||||
\end{figure}
|
||||
|
||||
|
@ -1666,8 +1699,6 @@ Brez uporabe prednaučene mreže & 8.21 & 0.627 & 0.630 \\
|
|||
Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretacijo značilnosti iz našega nabora podatkov, kar je vodilo k izboljšanim rezultatom.
|
||||
To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
|
||||
|
||||
|
||||
|
||||
\chapter{Sklepne ugotovitve}
|
||||
|
||||
Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora.
|
||||
|
|
Binary file not shown.
Before Width: | Height: | Size: 4.5 MiB After Width: | Height: | Size: 4.5 MiB |
Binary file not shown.
Before Width: | Height: | Size: 1.3 MiB After Width: | Height: | Size: 1.3 MiB |
Binary file not shown.
After Width: | Height: | Size: 106 KiB |
Binary file not shown.
After Width: | Height: | Size: 391 KiB |
109
literatura.bib
109
literatura.bib
|
@ -132,3 +132,112 @@
|
|||
note = {Dostopano: 30.08.2023},
|
||||
url = {https://pytorch.org/}
|
||||
}
|
||||
|
||||
@article{semantic_crossview,
|
||||
title={Semantic cross-view matching},
|
||||
author={F. Castaldo, A. Zamir and others},
|
||||
journal={2015 IEEE International Conference on Computer Vision Workshop (ICCVW)},
|
||||
year={2015},
|
||||
doi={https://doi.org/10.1109/iccvw.2015.137}
|
||||
}
|
||||
|
||||
|
||||
@article{crossview_image,
|
||||
title={Cross-view image geolocalization},
|
||||
author={T.-Y. Lin, S. Belongie, and J. Hays},
|
||||
journal={2013 IEEE Conference on Computer Vision and Pattern Recognition},
|
||||
year={2013},
|
||||
doi={https://doi.org/10.1109/cvpr.2013.120}
|
||||
}
|
||||
|
||||
@article{global_vehicle,
|
||||
title={A framework for global vehicle localization using stereo images and satellite and road maps},
|
||||
author={T. Senlet and A. Elgammal},
|
||||
journal={2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops)},
|
||||
year={2011},
|
||||
doi={https://doi.org/10.1109/iccvw.2011.6130498}
|
||||
}
|
||||
|
||||
@article{geo_localization,
|
||||
title={Geo-localization of street views with aerial image databases},
|
||||
author={M. Bansal, H. S. Sawhney and others},
|
||||
journal={Proceedings of the 19th ACM international conference on Multimedia - MM '11},
|
||||
year={2011},
|
||||
doi={https://doi.org/10.1145/2072298.2071954}
|
||||
}
|
||||
|
||||
@article{location_dependence,
|
||||
title={On the location dependence of convolutional neural network features},
|
||||
author={S. Workman and N. Jacobs},
|
||||
journal={2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)},
|
||||
year={2015},
|
||||
doi={https://doi.org/10.1109/cvprw.2015.7301385}
|
||||
}
|
||||
|
||||
@article{wide_area,
|
||||
title={Wide-area image geolocalization with aerial reference imagery},
|
||||
author={S. Workman, R. Souvenir, and N. Jacobs},
|
||||
journal={2015 IEEE International Conference on Computer Vision (ICCV)},
|
||||
year={2015},
|
||||
doi={https://doi.org/10.1109/cvpr.2005.202}
|
||||
}
|
||||
|
||||
@article{deep_representations,
|
||||
title={Learning deep representations for ground-to-aerial geolocalization},
|
||||
author={T.-Y. Lin, Y. Cui and others},
|
||||
journal={2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
|
||||
year={2015},
|
||||
doi={https://doi.org/10.1109/cvpr.2015.7299135}
|
||||
}
|
||||
|
||||
@article{cvm_net,
|
||||
title={CVM-net: Cross-view matching network for image-based ground-to-aerial geo-localization},
|
||||
author={S. Hu, M. Feng and others},
|
||||
journal={2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition},
|
||||
year={2018},
|
||||
doi={https://doi.org/10.1109/cvpr.2018.00758}
|
||||
}
|
||||
|
||||
@article{optimal_transport,
|
||||
title={Optimal feature transport for cross-view image geo-localization},
|
||||
author={Y. Shi, X. Yu and others},
|
||||
journal={Proceedings of the AAAI Conference on Artificial Intelligence},
|
||||
year={2020},
|
||||
volume={34},
|
||||
number={07},
|
||||
pages={11 990–11 997},
|
||||
doi={https://doi.org/10.1609/aaai.v34i07.6875}
|
||||
}
|
||||
|
||||
@article{cvusa,
|
||||
title={Predicting Ground-Level Scene Layout from Aerial Imagery},
|
||||
author={Liu, Liu and Li, Hongdong},
|
||||
journal={arXiv preprint arXiv:1612.02709},
|
||||
year={2016},
|
||||
url={http://arxiv.org/abs/1612.02709v1}
|
||||
}
|
||||
|
||||
@article{university1652,
|
||||
title={University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization},
|
||||
author={Zheng, Zhedong and Ruan, Tao and Wei, Yunchao and Yang, Yi and Yang, Tao Mei},
|
||||
journal={arXiv preprint arXiv:2002.12186},
|
||||
year={2020},
|
||||
url={http://arxiv.org/abs/2002.12186v1}
|
||||
}
|
||||
|
||||
@article{cvact,
|
||||
title={Lending Orientation to Neural Networks for Cross-view Geo-localization},
|
||||
author={Liu, Liu and Li, Hongdong},
|
||||
journal={arXiv preprint arXiv:1903.12351},
|
||||
year={2019},
|
||||
url={http://arxiv.org/abs/1903.12351v1}
|
||||
}
|
||||
|
||||
@article{dey2017signet,
|
||||
title={SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification},
|
||||
author={Dey, Sounak and Dutta, Anjan and Toledo, J. Ignacio and Ghosh, Suman K. and Llados, Josep and Pal, Umapada},
|
||||
journal={arXiv preprint arXiv:1707.02131},
|
||||
year={2017},
|
||||
url={http://arxiv.org/abs/1707.02131v2}
|
||||
}
|
||||
|
||||
|
|
Loading…
Reference in New Issue