Compare commits

..

2 Commits

Author SHA1 Message Date
Gašper Spagnolo 60f381f272
Prvi popravki 2023-09-01 20:24:31 +02:00
Gašper Spagnolo 92cd7fb51c
Update pictures 2023-09-01 10:26:35 +02:00
7 changed files with 207 additions and 67 deletions

Binary file not shown.

View File

@ -433,7 +433,22 @@ Vendar pa lahko te signale motijo naravne in človeške ovire, kot so visoke sta
Izguba GPS signala lahko postane kritična, še posebej v tistih trenutkih, ko je natančna lokacija letalnika ključna za njegovo nalogo.
Zato je iskanje alternativne metode za lokalizacijo brezpilotnih letalnikov postalo nujno.
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav, zhu2022transgeo}.
Zgodnje metode, kot so navedene v virih \cite{semantic_crossview}, \cite{crossview_image}, \cite{global_vehicle} in \cite{geo_localization}, so se osredotočale predvsem na uporabo ročno izdelanih značilnosti.
To pomeni, da so raziskovalci uporabljali specifične, predhodno definirane vzorce iz slik za določanje lokacije.
Čeprav so te metode predstavljale pomemben začetek, so bile omejene v svoji natančnosti in prilagodljivosti.
S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sposobnosti v obdelavi vizualnih podatkov so
raziskovalci začeli avtomatsko pridobivati kompleksne in prilagodljive značilnosti neposredno iz podatkov med učenjem mreže.
Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov,
uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji.
Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika.
V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže.
Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami.
V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno.
V \cite{optimal_transport} predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije.
Tradicionalne metode prepoznavanja slik se v kontekstu lokalizacije brezpilotnih letalnikov zdijo kot obetavna alternativa \cite{bianchi2021uav} in \cite{zhu2022transgeo}.
Vendar pa se ob njihovi uporabi pojavi cela paleta izzivov.
Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske slike območij, nad katerimi letalnik leti.
Velikost in obseg te baze lahko povzročita precejšnje računske in pomnilniške zahteve, kar lahko oteži njeno integracijo v realnočasovnih sistemih, kot so brezpilotni letalniki.
@ -442,13 +457,10 @@ To ne le da je časovno potratno, ampak tudi poveča stroške, saj morajo vse sl
Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje.
V praksi to pomeni, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno.
\todo{TLE MANJKA RELATED WORK ODSTAVEK (nevem kaj je misljeno s tem)}
V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}.
Ta pristop se razlikuje od običajnih metod v smislu strukture in delovanja.
FPI sprejme dva vhodna podatka: sliko, posneto z brezpilotnim letalnikom, in pripadajočo satelitsko sliko.
V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta.
Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo.
Ko sta obe sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije.
Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko.
@ -457,35 +469,36 @@ Ta informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega
Inovacije v znanstvenem raziskovanju pogosto vodijo do nadaljnjih metodoloških izboljšav.
Nadgradnja metode FPI, znana kot WAMF-FPI, je dodatno izboljšala natančnost in učinkovitost lokalizacije brezpilotnih letalnikov \cite{dai2022finding}.
Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije, ob soočanju z izzivi, ki jih predstavljajo razlike med slikami UAV in satelitskimi slikami.
Z uporabo dveh različnih uteži za izvleček značilnosti UAV in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
Ta pristop je integriral koncepte iz območja sledenja objektov za potrebe lokalizacije, ob soočanju z izzivi, ki jih predstavljajo razlike med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami.
Z uporabo dveh različnih uteži za izvleček značilnosti iz slik posnetih z brezpilotnim letalnikom in satelitskih slik, WAMF-FPI omogoča natančnejše in bolj zanesljivo ujemanje slik.
Dodatna optimizacija je bila dosežena z vključitvijo WAMF modula in uporabo Hanningove kriterijske funkcije, ki sta povečala učinkovitost modela.
WAMF-FPI je evolucija osnovne metode FPI in prinaša številne \todo{Tle manjka popravek, stevilne} izboljšave pri procesiranju slik.
Ključna prednost WAMF-FPI je njegova napredna piramidna struktura izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
WAMF-FPI je evolucija osnovne metode FPI. Ključna prednost WAMF-FPI je njegova napredna piramidna struktura izluščenja značilk, ki omogoča bolj natančno in raznoliko analizo vhodnih podatkov.
Z uporabo te piramidne strukture se značilke izluščijo na več različnih ravneh, nato pa se skalirajo in medsebojno primerjajo, kar pridobi bolj robusten in natančen sklop informacij.
Poleg tega WAMF-FPI optimizira kompresijske zmogljivosti, kar pripomore k hitrejšemu in učinkovitejšemu procesiranju podatkov.
Medtem ko je v osnovni FPI metodi končna velikost značilk bila stisnjena na 16-krat manjšo od izvorne satelitske slike, v WAMF-FPI ta kompresijski faktor znaša samo 4-krat manjšo velikost.
To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizacijsko natančnost ob hkratnem zmanjšanju računske obremenitve.
Velik problem nam je predstavljala odsotnost javno dostopnep podatkovne zbirke.
Zaradi te ovire smo se odločili za ustvarjanje lastne zbirke.
To smo storili s pomočjo Google Earth Studio.
Naša zbirka vključuje 11 večjih evropskih mest z raznoliko strukturo.
Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik.
Na primer, zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe.
Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja.
V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}.
Naša zbirka obsega 11 večjih evropskih mest z raznoliko strukturo. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo našega pristopa. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu.
Cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku, in preverili njegovo delovanje.
Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode.
V tej diplomski nalogi bomo podrobno raziskali te tehnike, njihove prednosti in pomanjkljivosti ter potencialne aplikacije in izboljšave za prihodnost.
Analizirali bomo njihovo učinkovitost in natančnost, s poudarkom na njihovi uporabi v realnih scenarijih lokalizacije brezpilotnih letalnikov.
Naš cilj je ponuditi temeljito analizo metode WAMF-FPI in njenih aplikacij, da bi olajšali nadaljnji razvoj in uporabo v industriji brezpilotnih letalnikov.
\todo{Struktura naloge?}
Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku, in preverili njegovo delovanje \cite{wang2023wamf}.
Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode.
Diplomska naloga je razdeljena na pet osnovnih poglavij, ki sledijo po Kazalu, Povzetku in Abstractu.
V Uvodu je predstavljena temeljna izhodišča in namen raziskave.
Metodologija obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja.
Podatkovna množica obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike.
V Rezultatih so predstavljeni rezultati implementacije, optimizacija in pristopi učenja modela.
Zaključne ugotovitve v petem poglavju povzemajo ključne ugotovitve naloge, celotno delo pa se zaključuje z navedbo relevantne literature.
\chapter{Metodologija}
\label{ch0}
\todo[color=green!40]{Tukaj sem izbrisal kar celoten odstavek}
V tem poglavju bomo predstavili osnovne komponente, ki jih uporabljamo v našem modelu.
Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov.
Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu.
@ -528,6 +541,7 @@ Osnovna struktura CNN vključuje štiri glavne vrste plasti: konvolucijsko, akti
\item \textbf{Polno povezane plasti}:
Delujejo kot klasične plasti v običajnih nevronskih mrežah. Vsak nevron je povezan z vsemi izhodi prejšnje plasti.
\todo{Dodaj enacbo}
\end{enumerate}
\subsection{Značilnosti in prednosti}
@ -538,7 +552,7 @@ Ta hierarhična značilnost je tisto, kar omogoča CNN, da doseže izjemno natan
\section{Transformerska arhitektura}
V tem podpoglavju bomo obravnavali razvoj in lastnosti transformerske arhitekture.
Predstavljeno bo ozadje, vključno s prejšnjimi mehanizmi, kot so rekurentne nevronske mreže, ter detajli o njihovi zgradbi in delovanju.
Predstavljeno bo ozadje, vključno s prejšnjimi mehanizmi, kot so rekurentne nevronske mreže, ter podrobnosti o njihovi zgradbi in delovanju.
\subsection{Predhodni mehanizmi}
@ -550,9 +564,7 @@ V tej strukturi je bilo zaporedje vhodnih besed ali kodirano v latentni prostor
Problem s to strukturo je bil, da je bil latentni prostor omejen na velikost fiksne dolžine in je moral vsebovati vse informacije iz izvornega zaporedja, ki so potrebne za generiranje ciljnega zaporedja.
To je omejevalo model pri obvladovanju dolgih zaporedij, saj je bilo težko ohraniti informacije iz zgodnjega dela zaporedja do konca.
Da bi to težavo rešili, so raziskovalci vključili mehanizem pozornosti, ki je omogočil dekodirniku, da se osredotoči na različne dele izvornega zaporedja na različnih stopnjah generiranja ciljnega zaporedja.
To je bil velik napredek, ki je omogočil boljše obvladovanje dolgih zaporedij.
\todo[color=green!40]{Tukaj sem izbrisal kar celoten odstavek}
To je bil velik napredek, ki je omogočil boljše obvladovanje dolgih zaporedij \cite{bahdanau2015neural}.
\subsection{Razlaga RNN kodirnik-dekodirnik arhitekture}
@ -596,7 +608,7 @@ Na sliki \ref{fig:rnn} je prikazana skica RNN modela.
\begin{figure}[h]
\centering
\includegraphics[width=0.6\textwidth]{./img/rnn.pdf}
\includegraphics[width=\textwidth]{./img/rnn.pdf}
\caption{Skica RNN modela}
\label{fig:rnn}
\end{figure}
@ -610,7 +622,7 @@ Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ bloko
\begin{figure}[h]
\centering
\includegraphics[width=0.4\textwidth]{./img/transformer_network.jpg}
\includegraphics[width=0.5\textwidth]{./img/transformer_network.jpg}
\caption{Izgled transformerja, iz članka "Attention is all you need" \cite{vaswani2017attention}.}
\label{fig:transformer_network}
\end{figure}
@ -638,8 +650,7 @@ Za razliko od plasti pozornosti na začetku blokov kodirnika in dekodirnika ta p
\subsection{Utežena točkovna produktna pozornost}
Utežena točkovna produktna pozornot (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju.
Za zdaj bomo razčlenili matematiko za to operacijo, le da dobimo občutek, katera števila gredo kam.
Kasneje se bomo osredotočili na njegove aplikacije v članku.
Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}.
\begin{center}
\begin{equation}
@ -647,11 +658,10 @@ Kasneje se bomo osredotočili na njegove aplikacije v članku.
\end{equation}
\end{center}
Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}.
Edina razlika je, da je vhod v softmax skaliran s faktorjem $\frac{1}{\sqrt{d_k}}$.
Avtorji pozornosti omenjajo, da delijo vhode v softmax funkcijo z $\sqrt(d_k)$, da bi ublažili učinke velikih vhodnih vrednosti, ki bi vodile do majhnih gradientov med učenjem \cite{vaswani2017attention}.
V članku in predhodni literaturi se vrstice \( Q \in \mathbb{R}^{m \times d_k} \) imenujejo poizvedbe, vrstice \( K \in \mathbb{R}^{n \times d_k} \) ključi, in vrstice \( V \in \mathbb{R}^{n \times d_v} \) vrednosti.
V članku \cite{vaswani2017attention} in predhodni literaturi \cite{bahdanau2015neural} se vrstice \( Q \in \mathbb{R}^{m \times d_k} \) imenujejo poizvedbe, vrstice \( K \in \mathbb{R}^{n \times d_k} \) ključi, in vrstice \( V \in \mathbb{R}^{n \times d_v} \) vrednosti.
Upoštevati je potrebno, da se za izvedbo mora število ključev in vrednosti \( n \) ujemati, vendar se lahko število poizvedb \( m \) razlikuje.
Prav tako se mora dimenzionalnost ključev in poizvedb ujemati, vendar se lahko dimenzionalnost vrednosti razlikuje.
@ -752,41 +762,46 @@ Ta pristop je pokazal obetavne rezultate, saj je Vision Transformer dosegel ali
\subsection{Arhitektura ViT}
\begin{itemize}
\item Razdelitev slike na zaplate: Slika velikosti $H \times W \times C$ se razdeli na zaplate velikosti $P \times P$, kjer je $H$ višina, $W$ širina, $C$ število barvnih kanalov in $P$ velikost zaplate.
To ustvari $(H \cdot W) / P^2$ zaplat. Vsaka zaplata se nato zravna v 1D vektor dolžine $P^2 \cdot C$.
\item Linearne projekcije: Vsak 1D vektor $x$ se prenese skozi enostaven linearni model (npr. polno povezano plast), da se pretvori v vektorski vložek. To se lahko zapiše kot:
\begin{align*}
z = Wx + b
\end{align*}
kjer sta $W$ in $b$ uteži in pristranskost linearne plasti.
Arhitektura ViT obravnava slike dimenzij $H \times W \times C$ tako, da jih razdeli na zaplate dimenzij $P \times P$.
Pri tem sta $H$ in $W$ višina in širina slike, $C$ je število barvnih kanalov, $P$ pa predstavlja dimenzijo zaplate.
Kot rezultat tega postopka dobimo $(H \cdot W) / P^2$ zaplat, ki se vsaka zravna v 1D vektor dolžine $P^2 \cdot C$.
\item Dodajanje pozicijskih vložkov: Ker transformerji ne vsebujejo nobene inherentne informacije o relativni ali absolutni poziciji vložkov v zaporedju, se dodajo pozicijski vložki.
To so enaki vektorji, ki se dodajo vložkom zaplat, da bi modelu dali nekaj informacij o tem, kje se zaplata nahaja v sliki.
Če je $z_i$ vložek $i$-te zaplate in $p_i$ pozicijski vložek, potem je končni vložek $e_i$ določen kot:
\begin{align*}
e_i = z_i + p_i
\end{align*}
Vsak 1D vektor $x$ se nato prenese skozi linearni model:
\item Bloki transformerja: Zaporedje vložkov (zdaj z dodanimi pozicijskimi vložki) se nato prenese skozi več blokov transformerja.
Ti bloki vsebujejo večglavo samopozornost in mreže feed-forward, ki omogočajo modelu, da se nauči, kako povezati različne dele slike. Večglava samopozornost se lahko zapiše kot:
\begin{align*}
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O
\end{align*}
kjer je $\text{head}_i = \text{Attention}(QW{Qi}, KW_{Ki}, VW_{Vi})$, $Q$, $K$ in $V$ so poizvedbe, ključi in vrednosti, $W_{Qi}$, $W_{Ki}$, $W_{Vi}$ in $W_O$ so uteži, ki se naučijo, in $\text{Attention}$ je funkcija samopozornosti.
\begin{center}
\begin{equation}
z = Wx + b
\end{equation}
\end{center}
\item Klasifikacijska glava: Na koncu se uporabi klasifikacijska glava (ponavadi ena polno povezana plast), da se izračuna končna napoved za dano nalogo (npr. klasifikacija slik). To se lahko zapiše kot:
\begin{align*}
y = \text{softmax}(W_2\text{ReLU}(W_1e))
\end{align*}
Ker transformerji ne vsebujejo inherentne informacije o poziciji vložkov v zaporedju, je treba dodati pozicijske vložke:
kjer sta $W_1$ in $W_2$ uteži polno povezanih plasti, $e$ je vložek, ki izhaja iz transformerskih blokov, in $\text{ReLU}$ in $\text{softmax}$ sta aktivacijski funkciji.
\end{itemize}
\begin{center}
\begin{equation}
e_i = z_i + p_i
\end{equation}
\end{center}
Zaporedje vložkov se nato prenese skozi bloke transformerja, ki vsebujejo večglavo samopozornost in feed-forward mreže:
\begin{center}
\begin{equation}
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O
\end{equation}
\end{center}
Za končno klasifikacijo slike se uporabi klasifikacijska glava:
\begin{center}
\begin{equation}
y = \text{softmax}(W_2\text{ReLU}(W_1e))
\end{equation}
\end{center}
\section{Piramidni ViT (PVT)}
Piramidni ViT (PVT) \cite{wang2021pyramid} je bil razvit z namenom vključitve piramidne strukture v okviru Transformerja.
Arhitektura PVT je razdeljena na štiri stopnje.
Vsaka od teh stopenj je sestavljena iz plasti za vdelavo zaplat (ang. patch embedding) in iz več plasti Transformer kodirnika.
Vsaka od teh stopenj je sestavljena iz plasti za vdelavo zaplat (ang. patch embedding) in iz več plasti Transformerskega kodirnika.
Značilnost te arhitekture je, da se izstopna ločljivost štirih stopenj postopoma zmanjšuje, kar sledi piramidni strukturi.
Na najvišji stopnji je ločljivost značilnostne mape največja, medtem ko se na najnižji stopnji zmanjša.
@ -814,7 +829,7 @@ Na sliki \ref{fig:pvt} je prikazana skica PVT modela.
\begin{figure}[h]
\centering
\includegraphics[width=0.8\textwidth]{./img/pvt.pdf}
\includegraphics[width=\textwidth]{./img/pvt.pdf}
\caption{Skica PVT modela}
\label{fig:pvt}
\end{figure}
@ -840,6 +855,15 @@ Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiran
Twins-PCPVT združuje prednosti tako PVT-ja kot CPVT-ja, kar ga naredi enostavnega za učinkovito implementacijo.
Eksperimentalni rezultati so pokazali, da ta preprosta zasnova lahko doseže zmogljivost nedavno predlaganega Swin transformerja \cite{liu2021swin}.
Na sliki \ref{fig:twins} je prikazana skica PCPVT modela.
\begin{figure}[h]
\centering
\includegraphics[width=\textwidth]{./img/twins.png}
\caption{Skica PCPVT modela, iz članka o modelu Twins \cite{chu2021twins}}
\label{fig:twins}
\end{figure}
\section{Siamska nevronska mreža za primerjavo vzorcev}
Siamske nevronske mreže predstavljajo sodoben pristop v domeni primerjave vzorcev v računalniškem vidu.
Z zmožnostjo učinkovite primerjave med paroma slik so siamske mreže pridobile pozornost v številnih aplikacijah, kjer je ključnega pomena zanesljiva ocena podobnosti.
@ -871,6 +895,15 @@ Kriterijska funkcija, običajno uporabljena pri učenju siamskih mrež za primer
\end{center}
Kjer $y$ označuje oznako podobnosti (1 za podobne in 0 za različne), $m$ pa je prag, ki določa mejo med podobnimi in različnimi slikami.
Na sliki \ref{fig:twins} je prikazana skica siamske mreže uporabljene za primerjavo podpisov.
\begin{figure}[h]
\centering
\includegraphics[width=\textwidth]{./img/siamese_net.png}
\caption{Skica siamske mreže, model SigNet \cite{dey2017signet}}
\label{fig:twins}
\end{figure}
\subsection{Aplikacije in prednosti}
Siamske mreže za primerjavo vzorcev so se izkazale za izjemno koristne v številnih aplikacijah, kot so prepoznavanje in sledenje objektom, biometrija ter varnost in nadzor.
V primerjavi s tradicionalnimi metodami imajo siamske mreže večjo odpornost na variacije v svetlobi, rotaciji, lestvici in drugih deformacijah.
@ -899,7 +932,7 @@ s čimer zagotavljamo njegovo robustnost in splošno uporabnost.
Za primerjavo, v članku so uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo \cite{dai2022finding, wang2023wamf}.
Ta množica predvsem vsebuje slike stavb večjih kitajskih univerz.
V nasprotju z UL14, naša podatkovna množica ne zajema samo stavb, temveč tudi parke,
zelene površine in druge značilnosti terena, kar prinaša širši spekter značilnosti za analizo, ter predstavlja bolj realne okoliščine.
zelene površine, vodnate površine in druge značilnosti terena, kar prinaša širši spekter značilnosti za analizo, ter predstavlja bolj realne okoliščine.
\section{Slike brezpilotnega letalnika}
Nabor podatkov, ki ga predstavljamo, je bil zasnovan z namenom raziskovanja in analizel lokalizacije brezpilotnih letalnikov v različnih mestnih scenarijih.
@ -937,7 +970,7 @@ Vsaka slika je opremljena z oznakami lokacije kamere v sistemu ECEF. Sistem ECEF
\begin{figure}[h]
\centering
\includegraphics[width=1\textwidth]{./img/cities.png}
\includegraphics[width=0.8\textwidth]{./img/cities.png}
\caption{Slika prikazuje lokacije mest, ki so vključena v nabor podatkov.}
\label{fig:cities}
\end{figure}
@ -963,7 +996,7 @@ Na sliki \ref{fig:drone_image_example} so prikazani raznoliki primeri zajeti z b
\begin{figure}[H]
\centering
\includegraphics[width=1\textwidth]{./img/drone_examples.png}
\caption{Raznoliki primeri slik iz brezpilotnega letalnika.}
\caption{Raznoliki primeri slik zajetih z brezpilotnim letalnikom.}
\label{fig:drone_image_example}
\end{figure}
@ -1666,8 +1699,6 @@ Brez uporabe prednaučene mreže & 8.21 & 0.627 & 0.630 \\
Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretacijo značilnosti iz našega nabora podatkov, kar je vodilo k izboljšanim rezultatom.
To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
\chapter{Sklepne ugotovitve}
Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora.

Binary file not shown.

Before

Width:  |  Height:  |  Size: 4.5 MiB

After

Width:  |  Height:  |  Size: 4.5 MiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 1.3 MiB

After

Width:  |  Height:  |  Size: 1.3 MiB

BIN
img/siamese_net.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 106 KiB

BIN
img/twins.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 391 KiB

View File

@ -132,3 +132,112 @@
note = {Dostopano: 30.08.2023},
url = {https://pytorch.org/}
}
@article{semantic_crossview,
title={Semantic cross-view matching},
author={F. Castaldo, A. Zamir and others},
journal={2015 IEEE International Conference on Computer Vision Workshop (ICCVW)},
year={2015},
doi={https://doi.org/10.1109/iccvw.2015.137}
}
@article{crossview_image,
title={Cross-view image geolocalization},
author={T.-Y. Lin, S. Belongie, and J. Hays},
journal={2013 IEEE Conference on Computer Vision and Pattern Recognition},
year={2013},
doi={https://doi.org/10.1109/cvpr.2013.120}
}
@article{global_vehicle,
title={A framework for global vehicle localization using stereo images and satellite and road maps},
author={T. Senlet and A. Elgammal},
journal={2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops)},
year={2011},
doi={https://doi.org/10.1109/iccvw.2011.6130498}
}
@article{geo_localization,
title={Geo-localization of street views with aerial image databases},
author={M. Bansal, H. S. Sawhney and others},
journal={Proceedings of the 19th ACM international conference on Multimedia - MM '11},
year={2011},
doi={https://doi.org/10.1145/2072298.2071954}
}
@article{location_dependence,
title={On the location dependence of convolutional neural network features},
author={S. Workman and N. Jacobs},
journal={2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)},
year={2015},
doi={https://doi.org/10.1109/cvprw.2015.7301385}
}
@article{wide_area,
title={Wide-area image geolocalization with aerial reference imagery},
author={S. Workman, R. Souvenir, and N. Jacobs},
journal={2015 IEEE International Conference on Computer Vision (ICCV)},
year={2015},
doi={https://doi.org/10.1109/cvpr.2005.202}
}
@article{deep_representations,
title={Learning deep representations for ground-to-aerial geolocalization},
author={T.-Y. Lin, Y. Cui and others},
journal={2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2015},
doi={https://doi.org/10.1109/cvpr.2015.7299135}
}
@article{cvm_net,
title={CVM-net: Cross-view matching network for image-based ground-to-aerial geo-localization},
author={S. Hu, M. Feng and others},
journal={2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2018},
doi={https://doi.org/10.1109/cvpr.2018.00758}
}
@article{optimal_transport,
title={Optimal feature transport for cross-view image geo-localization},
author={Y. Shi, X. Yu and others},
journal={Proceedings of the AAAI Conference on Artificial Intelligence},
year={2020},
volume={34},
number={07},
pages={11 99011 997},
doi={https://doi.org/10.1609/aaai.v34i07.6875}
}
@article{cvusa,
title={Predicting Ground-Level Scene Layout from Aerial Imagery},
author={Liu, Liu and Li, Hongdong},
journal={arXiv preprint arXiv:1612.02709},
year={2016},
url={http://arxiv.org/abs/1612.02709v1}
}
@article{university1652,
title={University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization},
author={Zheng, Zhedong and Ruan, Tao and Wei, Yunchao and Yang, Yi and Yang, Tao Mei},
journal={arXiv preprint arXiv:2002.12186},
year={2020},
url={http://arxiv.org/abs/2002.12186v1}
}
@article{cvact,
title={Lending Orientation to Neural Networks for Cross-view Geo-localization},
author={Liu, Liu and Li, Hongdong},
journal={arXiv preprint arXiv:1903.12351},
year={2019},
url={http://arxiv.org/abs/1903.12351v1}
}
@article{dey2017signet,
title={SigNet: Convolutional Siamese Network for Writer Independent Offline Signature Verification},
author={Dey, Sounak and Dutta, Anjan and Toledo, J. Ignacio and Ghosh, Suman K. and Llados, Josep and Pal, Umapada},
journal={arXiv preprint arXiv:1707.02131},
year={2017},
url={http://arxiv.org/abs/1707.02131v2}
}