diff --git a/diploma.pdf b/diploma.pdf index b3b4596..5f02bb1 100644 Binary files a/diploma.pdf and b/diploma.pdf differ diff --git a/diploma.tex b/diploma.tex index 1c32cba..34d59b7 100644 --- a/diploma.tex +++ b/diploma.tex @@ -344,7 +344,7 @@ This thesis focuses on this issue and proposes a method for localizing UAVs in t \chapter*{Seznam uporabljenih kratic} -\noindent\begin{tabular}{p{0.11\textwidth}|p{.39\textwidth}|p{.39\textwidth}} % po potrebi razširi prvo kolono tabele na račun drugih dveh! +\noindent\begin{tabular}{p{0.15\textwidth}|p{.39\textwidth}|p{.39\textwidth}} % po potrebi razširi prvo kolono tabele na račun drugih dveh! {\bf kratica} & {\bf angleško} & {\bf slovensko} \\ \hline {\bf UAV} & unmanned aerial vehicle & brezpilotni letalnik \\ {\bf SAT} & satellite & satelit \\ @@ -354,6 +354,10 @@ This thesis focuses on this issue and proposes a method for localizing UAVs in t {\bf FPI} & finding point in an image & iskanje tocke v sliki \\ {\bf WAMF} & Weight-Adaptive Multi Feature fusion & Uteženo združevanje več značilk \\ {\bf PCPVT } & Pyramid Vision Transformer with Conditional Positional encodings & Piramidni vision transformer s pogojnimi pozicijskimi kodiranji \\ + {\bf HANN } & Hanning loss function & Hanningova kriterjska funkcija \\ + {\bf GWMSE } & Gaussian Weighted Mean Squared Error & Gaussovo utežena srednja kvadratna napaka \\ + {\bf HWMSE } & Hanning Weighted Mean Squared Error & Hanningovo utežena srednja kvadratna napaka \\ + {\bf CWMSE } & Cross-Weighted Mean Squared Error & Križno utežena srednja kvadratna napaka \\ % \dots & \dots & \dots \\ \end{tabular} @@ -380,7 +384,7 @@ V uvodu je predstavljena osnovna terminologija in koncepti s področja nevronski V metodološkem delu so podrobno razložene konvolucijske nevronske mreže, transformerska arhitektura ter njeni derivati, kot sta Vision Transformer (ViT) in Piramidni vision transformer (PVT). Posebno pozornost je namenjena Siamski nevronski mreži, ki je ključna za primerjavo vzorcev med satelitskimi in slikami iz brezpilotnega letalnika. Podatkovna množica, uporabljena za učenje in testiranje, vključuje slike brezpilotnega letalnika in satelitske slike. -V razdelku rezultatov so predstavljene ključne faze implementacije, učenja modela, izbire kriterijske funkcije ter različne optimizacijske strategije, kot je uporaba Stratificiranega Vzorčenja. +V razdelku rezultatov so predstavljene ključne faze implementacije, učenja modela, izbire kriterijske funkcije ter različne optimizacijske strategije, kot je uporaba stratificiranega vzorčenja. Poudarjena je tudi vloga Hanningovega okna in regularizacijskih tehnik, kot je izpuščanje nevronov. Delo zaključuje s sklepnimi ugotovitvami, ki poudarjajo potencial in učinkovitost predlagane metode za natančno lokalizacijo brezpilotnih letalnikov. @@ -425,6 +429,7 @@ The work concludes with final observations that underscore the potential and eff \pagestyle{fancy} \chapter{Uvod} +\label{ch0} Brezpilotni letalniki so postali nepogrešljivo orodje v številnih sektorjih, od vojaških operacij do kmetijskega nadzora. Kljub njihovi široki uporabi pa se soočajo z izzivi pri avtonomni navigaciji, še posebej v okoljih, kjer je le-ta omejen ali nezanesljiv. @@ -439,7 +444,7 @@ S prihodom globokih konvolucijskih nevronskih mrež (CNN) in njihove dokazane sp Raziskave v \cite{location_dependence} so bile med prvimi, ki so se lotile tega področja z izvlečkom značilnosti za izziv geolokalizacije s pomočjo različnih pogledov, uporabljajoč vnaprej naučen CNN. Ugotovljeno je bilo, da visokonivojske plasti v CNN vsebujejo bogate semantične informacije, ki lahko pripomorejo k boljši geolokalizaciji. Nadaljnje raziskave v \cite{wide_area} so razširile ta koncept z natančnim prilagajanjem predhodno naučenih mrež, da bi zmanjšali razdaljo značilnosti med satelitskimi slikami in slikami iz brezpilotnega letalnika. -V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže. Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami. +V \cite{deep_representations} je bil predstavljen pristop z uporabo modificirane siamske mreže \todo{nimam pojma kaj to pomeni}. Ta pristop uporablja kontrastno izgubo za optimizacijo parametrov mreže, kar omogoča boljše razlikovanje med podobnimi in različnimi lokacijami. V \cite{cvm_net} so bile predstavljene metode, ki so optimizirale opise slik, da so postale odporne na masivne spremembe perspektive, kot je pogled iz zraka proti tlem ali obratno. V \cite{optimal_transport} so predstavljene inovacije, ki uporabljajo prostorske informacije za izboljšanje globalnega koraka agregacije pri izvlečku značilnosti. Z uporabo mehanizma prostorske pozornosti so še dodatno izboljšali natančnost geolokalizacije. @@ -448,7 +453,7 @@ Prvič, potrebujemo ogromno slikovno bazo, ki vključuje kompresirane satelitske Drugič, vsaka posodobitev ali sprememba v osnovni nevronski mreži, ki se uporablja za prepoznavanje slik zahteva ponovno obdelavo celotne slikovne baze. To ne le da je časovno potratno, ampak tudi zviša stroške, saj morajo vse slike ponovno potekati skozi postopek predprocesiranja in razpoznavanja. Tretjič, ko brezpilotni letalnik zajame sliko za primerjavo, mora ta slika biti primerjana z vsako sliko v bazi, da se ugotovi najboljše ujemanje. V praksi to pomeni da, ko imamo bazo sestavljeno iz milijonov slik, bo vsaka nova poizvedovalna slika potrebovala milijone primerjav, kar je zelo časovno potratno in računsko intenzivno. -V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili inovativen pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}. Ta pristop se razlikuje od običajnih metod v smislu strukture in delovanja. +V luči omejitev tradicionalnih metod prepoznavanja slik so raziskovalci razvili pristop, imenovan FPI (Finding Point with Image) \cite{dai2022finding}. FPI sprejme dva vhodna podatka: sliko posneto z brezpilotnim letalnikom in pripadajočo satelitsko sliko. V kontekstu te satelitske slike je mesto, kjer je bila slika iz brezpilotnega letalnika posneta. Za obdelavo vsake slike se uporablja posebna nevronska mreža, kjer vsaka mreža obdeluje svoj nabor podatkov brez deljenja uteži z drugo. Ko sta sliki obdelani in njihove značilke izluščene, se med njima izvede operacija korelacije. Ta mera podobnosti se predstavi v obliki toplotne karte, ki prikazuje stopnjo ujemanja med sliko brezpilotnega letalnika in satelitsko sliko. Najvišja vrednost na toplotni karti natančno označuje mesto, kjer je brezpilotni letalnik posnel svojo sliko na večji satelitski sliki. Informacija se nato neposredno prevede v natančno lokalizacijo brezpilotnega letalnika na satelitski sliki. @@ -468,28 +473,29 @@ To omogoča WAMF-FPI-ju, da ohrani več informacij ter pridobi boljšo lokalizac Kljub številnim obstoječim zbirkam, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letalnik. Na primer, zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe. Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja. -V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}. -Naša zbirka obsega 11 večjih evropskih mest z raznoliko strukturo. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo našega pristopa. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu. +V našem delu smo se soočili z odsotnostjo specifične javno dostopne podatkovne zbirke UL14, katero so uporabili avtorji uporabili v \cite{dai2022finding}. Zaradi te pomanjkljivosti smo se odločili za ustvarjanje lastne zbirke s pomočjo Google Earth Studio \cite{google_earth_studio}. \todo{Tle je use podcrtano in jst nevem s cim zamenjat} +Naša zbirka obsega 11 evropskih mest z raznoliko strukturo. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo pristopov. S tem smo želeli zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu. Cilj izdelave zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI. -Zato smo se odločili, da bomo v tej diplomski nalogi implementirali WAMF-FPI, kakor je opisano v izvornem članku in preverili njegovo delovanje \cite{wang2023wamf}. +V tej diplomski nalogi smo se odločili za implementacijo WAMF-FPI, kot je predstavljeno v izvornem članku \cite{wang2023wamf}, saj metoda velja za najnaprednejšo na področju. Implementirali smo vse, kakor je v članku opisano, z namenom dobiti objektivno sliko o učinkovitosti in natančnosti metode. -Diplomska naloga je razdeljena na pet osnovnih poglavij, ki sledijo po Kazalu, Povzetku in Abstractu. -V Uvodu je predstavljena temeljna izhodišča in namen raziskave. Metodologija obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja. -Podatkovna množica obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike. -V Rezultatih so predstavljeni rezultati implementacije, optimizacija in pristopi učenja modela. -Zaključne ugotovitve v petem poglavju povzemajo ključne ugotovitve naloge, celotno delo pa se zaključuje z navedbo relevantne literature. +Diplomska naloga je razdeljena na pet osnovnih poglavij. +V poglavju \ref{ch0} so predstavljena temeljna izhodišča in namen raziskave. +Poglavje \ref{ch1} obsega podroben pregled uporabljenih tehnik, vključno s konvolucijskimi nevronskimi mrežami in različnimi oblikami Vision Transformerja. +Poglavje \ref{ch2} obravnava izbrane podatkovne vire, predvsem slike brezpilotnih letalnikov in satelitske slike. +V poglavju \ref{ch3} so predstavljeni rezultati implementacije, optimizacija in pristopi učenja modela. +V poglavju \ref{ch4} so povzete ključne ugotovitve naloge, delo pa se zaključuje s seznamom relevantne literature. \chapter{Metodologija} -\label{ch0} +\label{ch1} V tem poglavju bomo predstavili osnovne komponente, ki jih uporabljamo v našem modelu. Začeli bomo s konvolucijskimi nevronskimi mrežami, ki so temeljni gradnik večine modelov za obdelavo slik in nudijo močno orodje za izluščenje značilnosti iz vizualnih podatkov. Nadaljevali bomo s predstavitvijo transformerske arhitekture, ki je revolucionirala področje obdelave naravnega jezika in se v zadnjem času vedno bolj uporablja tudi v računalniškem vidu. Podrobneje se bomo osredotočili na zgradbo transformerja in njegove ključne komponente. V nadaljevanju se bomo posvetili Vision Transformerju (ViT) in njegovi razširjeni verziji - Piramidnem Vision Transformerju (PVT). -Posebno pozornost bomo posvetili tudi prilagojeni različici PVT, ki upošteva lokalne značilnosti, imenovani PCPVT. +Posebno pozornost bomo posvetili prilagojeni različici PVT, imenovani PCPVT, saj njeni deskriptorji zagotavljajo prostorsko skladnost in natančno poravnavo. Zaključili bomo s siamskimi nevronskimi mrežami, ki predstavljajo ključno komponento pri primerjavi vzorcev. Te mreže so še posebej pomembne, ko želimo primerjati dva ali več podobnih vzorcev in ugotoviti, ali med njimi obstajajo razlike. @@ -502,7 +508,7 @@ specializirana za obdelavo vizualnih podatkov, zasnovana tako, da avtomatsko in \subsection{Struktura in delovanje} -Osnovna struktura CNN vključuje štiri glavne vrste plasti: konvolucijsko, aktivacijsko, združevalno (pooling) in polno povezano plast. +Osnovni gradniki CNN obsegajo štiri glavne vrste plasti: konvolucijsko, aktivacijsko, združevalno (pooling) in polno povezano. \begin{enumerate} \item \textbf{Konvolucijska plast}: @@ -533,7 +539,7 @@ Osnovna struktura CNN vključuje štiri glavne vrste plasti: konvolucijsko, akti \end{enumerate} \subsection{Značilnosti in prednosti} -Konvolucijske mreže so sposobne avtomatskega zaznavanja hierarhičnih značilnosti. +Konvolucijske mreže so sposobne avtomatskega zaznavanja hierarhičnih značilnosti \todo{Nimam pojma kaj je tuki}. Na nižjih ravneh mreže se zaznavajo nizkonivojske značilnosti, kot so robovi in teksture, na višjih ravneh pa se zaznavajo kompleksnejše strukture, kot so oblike in objekti. Ta hierarhična značilnost je tisto, kar omogoča CNN, da doseže izjemno natančnost pri različnih nalogah obdelave slik. @@ -596,7 +602,7 @@ Na sliki \ref{fig:rnn} je prikazana skica RNN modela. \begin{figure}[h] \centering -\includegraphics[width=\textwidth]{./img/rnn.pdf} +\includegraphics[width=0.9\textwidth]{./img/rnn.pdf} \caption{Skica RNN modela} \label{fig:rnn} \end{figure} @@ -909,12 +915,13 @@ V primerjavi s tradicionalnimi metodami imajo siamske mreže večjo odpornost na Zaradi globje hierarhične predstavitve slike so sposobne zaznati in primerjati kompleksne značilnosti, ki jih manj kompleksne metode morda ne bi opazile. \chapter{Podatkovna množica} -\label{ch1} +\label{ch2} V svetu raziskovanja je podatkovna množica ključnega pomena za razvoj, testiranje in validacijo modelov. Kljub obstoju številnih zbirk, kot so CVUSA \cite{cvusa}, CVACT \cite{cvact} in University-1652 \cite{university1652}, večina ne zajema vseh realnih situacij, s katerimi se srečuje brezpilotni letalnik. Konkretno, CVUSA se osredotoča na zgradbe, medtem ko University-1652 predstavlja predvsem univerzitetna okolja. +Zaradi pomanjkljivosti obstoječih zbirk in odsotnosti javno dostopne zbirke UL14 iz \cite{dai2022finding}, smo imeli izziv z zbiranjem ustreznih podatkov za analizo. +smo se soočili z izzivom pri zbiranju primerne podatkovne osnove za analizo. -Zaradi pomanjkljivosti obstoječih zbirk in odsotnosti specifične javno dostopne podatkovne zbirke UL14, ki so jo avtorji uporabili v \cite{dai2022finding}, smo se soočili z izzivom pri zbiranju primerne podatkovne osnove za analizo. Da bi premostili to vrzel, smo se odločili za ustvarjanje lastne zbirke. Za pridobivanje slik iz brezpilotnega letalnika smo uporabili orodje Google Earth Studio \cite{google_earth_studio} in pridobili slike iz 11 večjih evropskih mest. Te slike odražajo raznolikost terena, vključno z zgradbami, parki, zelenimi in vodnimi površinami. @@ -928,7 +935,7 @@ Poleg tega smo želeli, da so slike posnete iz zgornjega pogleda, osredotočene Želimo se prepričati, da je naš pristop robusten in da lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu. \section{Slike brezpilotnega letalnika} -Nabor podatkov, ki ga predstavljamo, je bil zasnovan z namenom raziskovanja in analizel lokalizacije brezpilotnih letalnikov v različnih mestnih scenarijih. +Nabor podatkov, ki ga predstavljamo, je bil zasnovan z namenom raziskovanja in analize lokalizacije brezpilotnih letalnikov v različnih mestnih scenarijih. Osredotoča se na dve ključni območji: \begin{enumerate} @@ -944,6 +951,7 @@ Brezpilotni letalniki so bili kalibrirani na višini 150 metrov nad navedeno nad Kamere na brezpilotnih letalnikih imajo vidno polje 80 stopinj in so usmerjene pravokotno na središče Zemlje. Vse slike so bile ustvarjene z uporabo orodja Google Earth Studio \cite{google_earth_studio}. Mesta, vključena v učni nabor podatkov, so: +\todo{Trst je nas} \begin{itemize} \item \textbf{Maribor:} Nadmorska višina: 272m, Višina brezpilotnega letalnika: 150m, Skupaj: 422m nad morsko gladino. @@ -1001,11 +1009,11 @@ Na slikah \ref{fig:drone_image_example_1} in \ref{fig:drone_image_example_2} so \end{figure} \section{Satelitske slike} -Za vsako sliko posneto z brezpilotnim letalnikom smo poiskali ustrezen satelitski "tile" ali ploščico. +Za vsako sliko posneto z brezpilotnim letalnikom smo poiskali ustrezeno satelitsko zaplato. Ta korak je bil ključnega pomena, saj je zagotovil, da so satelitske slike popolnoma usklajene z slikami posnetimi iz brezpilotnega letalnika v smislu geografske lokacije. Ko smo identificirali ustrezno satelitsko ploščico, smo jo prenesli neposredno iz Mapbox API-ja, priznanega vira za visokokakovostne satelitske slike. Da bi zagotovili dodatno globino in kontekst za vsako lokacijo, nismo prenesli samo osrednje ploščice, temveč tudi vse njene sosednje ploščice. -Te sosednje ploščice smo nato združili z osrednjo ploščico za ustvarjanje enotne TIFF datoteke. +Te sosednje ploščice smo nato združili z osrednjo ploščico za ustvarjanje enotne TIFF datoteke. \todo{Verjetno je pomebnen, saj je tako zgrajen dataset} Ko govorimo o ploščicah v kontekstu kartografije in GIS (Geografski informacijski sistem), se običajno nanašamo na kvadratne segmente, ki pokrivajo Zemljo in se uporabljajo za hitrejše in učinkovitejše prikazovanje zemljevidov na spletu. Sistem ploščic je zelo priljubljen v spletnih kartografskih aplikacijah, kot je Google Maps. @@ -1092,7 +1100,7 @@ Na vsaki sliki je s pomočjo rdečega krogeca označen center izreza, ki predsta \end{figure} \chapter{Rezultati} -\label{ch2} +\label{ch3} V tem poglavju so podrobno predstavljeni rezultati, doseženi v različnih fazah implementacije in optimizacije modela WAMF-FPI. Naš izhodiščni korak je bil zagotoviti stabilno osnovo, kar smo dosegli z implementacijo modela skladno z metodologijo, opisano v izvirnem članku. @@ -1114,11 +1122,11 @@ Medtem ko temeljna metoda za iskanje točk znotraj slike izhaja iz metodologije To je posledica različnih perspektiv med predlogo (sliko posneto z brezpilotnim letalnikom) in iskalno sliko (satelitsko sliko), ki povzročajo veliko variacijo. Metoda iskanja točk uporablja satelitsko sliko kot referenčno in sliko iz brezpilotnega letalnika kot poizvedbeno. -Obe sliki – posneto z brezpilotnim letalnikom in satelitsko sliko relevantnega območja – se nato prenesejo v end-to-end omrežje. +Obe sliki – posneto z brezpilotnim letalnikom in satelitsko sliko relevantnega območja – se nato prenesejo v end-to-end mrežo. Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model. Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika. -V FPI avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike \cite{dai2022finding}. -Ekstrahirane značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika. +V FPI \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike . +Izluščene značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika. V FPI je za izračun podobnosti uporabljena zadnja plast zemljevidnih značilnosti \cite{dai2022finding}. Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pozicioniranja. @@ -1139,19 +1147,18 @@ Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu W \subsection{Modul za izluščenje značilnosti} -WAMF-FPI temelji na strukturi, ki je podobna siamski arhitekturi, vendar se od tradicionalnega sledenja objektom loči v ključnih aspektih. +WAMF-FPI temelji na strukturi, ki je podobna siamski arhitekturi \todo{popravi}, vendar se od tradicionalnega sledenja objektom loči v ključnih aspektih. Zaradi občutne razlike med satelitskimi slikami in slikami brezpilotnega letalnika, ki izvirajo iz različnih naprav, veji modela WAMF-FPI za vsako od teh vrst slik ne uporabljata metode deljenja uteži. - -Konkretno, WAMF-FPI kot vhod uporablja satelitske slike dimenzij 400 × 400 × 3 in slike brezpilotnega letalnika dimenzij 128 × 128 × 3. + WAMF-FPI kot vhod uporablja satelitske slike dimenzij 400 × 400 × 3 in slike brezpilotnega letalnika dimenzij 128 × 128 × 3. Značilnosti obeh vrst slik so izluščene s pomočjo PCPVT-S. -Natančneje, v modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko +V modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko 25 x 25 x 256 in 8 x 8 x 320 oziroma. -V primerjavi z Deit-S, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo. +V primerjavi z Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, ima PCPVT-S piramidno strukturo. Ta struktura je bolj prilagodljiva za naloge goste napovedi. Pravzaprav uporaba piramidne strukture zagotavlja osnovo za kasnejšo integracijo modula WAMF. -Poleg tega omrežje z piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi. +Poleg tega Mreža s piramidno strukturo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi. Po izluščanju informacij iz slike s pomočjo PCPVT-S se podobnost neposredno izračuna na zadnjih značilnostnih mapah. Kljub temu je končni izhod stisnjen samo za faktor štiri v primerjavi z vhodom, kar je potem s bikubično interpolacijo povečano nazaj na velikost vhodne satelitske slike. @@ -1162,7 +1169,7 @@ Ker značilnostna mapa z visoko ločljivostjo vsebuje več prostorskih informaci WAMF-FPI uporablja konvolucijske mreže za izluščenje značilnosti iz vhodnih slik. Konvolucija je ključna operacija, ki modelu omogoča, da prepoznava vzorce in značilnosti v slikah. -Prva faza obdelave v WAMF-FPI je uporaba konvolucijskega jedra velikosti ena, ki prilagodi kanalsko dimenzijo tri-stopnjske značilnostne mape, pridobljene s pomočjo PCPVT-S. +Prva faza obdelave v metodi WAMF-FPI je uporaba konvolucijskega jedra velikosti ena, ki prilagodi kanalsko dimenzijo tri-stopnjske značilnostne mape, pridobljene s pomočjo PCPVT-S. Število izhodnih kanalov je bilo nastavljeno na 64, kar zagotavlja kompaktno in učinkovito zastopanje značilnosti. Po tej fazi sledi upsampling operacija na značilnostnih mapah zadnjih dveh stopenj, ki poveča njihovo ločljivost in s tem omogoča bolj precizno lokalizacijo. Te mape se nato kombinirajo z značilnostnimi mapami istega merila iz osnovnega modela. @@ -1217,7 +1224,7 @@ Kjer je $\text{Povečava}$ funkcija, ki poveča prostorsko resolucijo značilnos A3 = \text{corr}(U3_{\text{UAV}}, U3_{\text{SAT}}) \end{equation} \end{center} -Kjer je $\text{corr}$ funkcija za izračun korelacije med dvema značilnostnima mapama. +Kjer je corr funkcija za izračun korelacije med dvema značilnostnima mapama. Korelacija v kontekstu obdelave slik je postopek izračuna podobnosti med dvema slikama ali značilnostnima mapama. V osnovi ena značilnostna mapa (poimenovana poizvedba) drsi čez drugo značilnostno mapo (poimenovana iskalna regija) in izračuna podobnost med njima na vsaki lokaciji. @@ -1244,7 +1251,7 @@ Nazadnje se izvede uteženo združevanje teh treh koreliranih značilnostnih map \end{equation} \end{center} -Za dokončanje postopka se uporabi bikubična interpolacija, da se $\text{združena\_mapa}$ poveča na velikost vhodne satelitske slike. +Za dokončanje postopka se uporabi bikubična interpolacija, da se združena mapa poveča na velikost vhodne satelitske slike. Na izhodu dobimo toplotno karto iste velikosti kot vhodna satelitska slika v WAMF-FPI. \subsection{RDS metrika} @@ -1268,62 +1275,19 @@ Kjer so: \item \( k \) je faktor merila, ki je v tem delu postavljen na 10. \end{itemize} -\subsubsection{Primeri izračuna RDS} - -Za boljše razumevanje, kako se RDS izračuna in kaj nam predstavlja, si oglejmo tri različne primere. - -\textbf{Primer 1:} -Za $w=400px$, $h=400px$, $dx=0px$, $dy=0px$ in $k=10$ dobimo: - -\begin{center} - \begin{equation} - RDS_1 = e^{-10 \times \frac{\sqrt{\left(\frac{0}{400}\right)^2+\left(\frac{0}{400}\right)^2}}{2}} = 1 - \end{equation} -\end{center} - -Ker sta $dx$ in $dy$ oba 0, je $RDS$ za ta primer enak $1$ (kar pomeni, da je napovedana pozicija točno na dejanski poziciji). - -\textbf{Primer 2:} -Za $w=400px$, $h=400px$, $dx=2px$, $dy=0px$ in $k=10$ dobimo: - -\begin{center} - \begin{equation} - RDS_2 = e^{-10 \times \frac{\sqrt{\left(\frac{2}{400}\right)^2+\left(\frac{0}{400}\right)^2}}{2}} = 0.975 - \end{equation} -\end{center} - -Tukaj je napovedana pozicija rahlo odmaknjena samo v vodoravni smeri za 2 piksla. $RDS = 0.975$ kaže na minimalno odstopanje napovedane pozicije od dejanske. - -\textbf{Primer 3:} -Za $w=400px$, $h=400px$, $dx=10px$, $dy=14px$ in $k=10$ dobimo: - -\begin{center} - \begin{equation} - RDS_3 = e^{-10 \times \frac{\sqrt{\left(\frac{10}{400}\right)^2+\left(\frac{14}{400}\right)^2}}{2}} = 0.806 - \end{equation} -\end{center} - -V tem primeru je napovedana pozicija odmaknjena tako v vodoravni kot navpični smeri. $RDS$ vrednost $0.806$ kaže na večjo relativno napako v primerjavi s prejšnjim primerom. - -RDS metrika nam omogoča kvantitativno oceno natančnosti napovedane pozicije v primerjavi z dejansko pozicijo. -Višja kot je vrednost RDS, bližje je napovedana točka dejanski točki. -V obratnem primeru, nižja kot je vrednost RDS, večja je napaka med napovedano in dejansko točko. +Za lažje razumevanje delovanja RDS metrike smo dodali dodatek \ref{appendix:RDS} k diplomskemu delu, ki vsebuje tri primere izračuna metrike. \section{Učenje modela} -Model smo učili na računalniški konfiguraciji, opremljeni z visokozmogljivim procesorjem Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz s 12 jedri. -Dodatno je računalnik vseboval grafično kartico NVIDIA GeForce RTX 3060 s 12 GB pomnilnika, kar je omogočalo efektivno paralelizacijo in optimizacijo operacij, ki jih zahteva model med učenjem. +Model smo učili na računalniški konfiguraciji, opremljeni s procesorjem Intel(R) Xeon(R) CPU E5-2690 v3 @ 2.60GHz z 12 jedri. +Dodatno je računalnik vseboval grafično kartico NVIDIA GeForce RTX 3060 z 12 GB pomnilnika, kar je omogočalo efektivno paralelizacijo in optimizacijo operacij, ki jih zahteva model med učenjem. Naš razvoj je temeljil na platformi Ubuntu z uporabo python knjižnice PyTorch \cite{pytorch}. V času učenja našega modela ni prišlo do povečane energetske porabe, saj je bil naš računalnik neprestano napajan iz lokalne sončne elektrarne. To pomeni, da je bil celoten postopek učenja izveden na okolju prijazen način, brez dodatnega obremenjevanja električnega omrežja ali uporabe fosilnih goriv. -Da bi povečali produktivnost in optimizirali proces, smo razvili avtomatizirane skripte, imenovane \texttt{push-ml-node} in \texttt{train-ml-node}. -Prva skripta je bila uporabljena za sinhronizacijo virov z računalnikom, medtem ko je bila druga skripta uporabljena za zagon samega učenja. - Za dosego optimalnih rezultatov smo uporabili specifične hiperparametre in nastavitve: \begin{description} - \item[Naprava:] Učenje je potekalo na \texttt{cuda:0}, ki se nanaša na uporabo NVIDIA grafične kartice. \item[Hitrost učenja:] Uporabljena sta bila dva različna parametra: $lr\_fusion = 0.0004$ za združevanje in $lr\_backbone = 0.0001$ za osnovno arhitekturo. \item[Prilagajanje hitrosti učenja:] $gamma = 0.2$ z mejniki na epohah 9, 13 in 15. \item[Delovni procesi:] Skupno 24 hkratnih delovnih procesov (\texttt{num\_workers = 24}). @@ -1393,8 +1357,8 @@ Kjer je: \end{figure} -\subsection{Gaussovo utezena srednja kvadratna napaka} -Gaussova utežena srednja kvadratna napaka (Gaussian Weighted Mean Squared Error - GWMSE) je modificirana funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike. Glavna značilnost GWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Hanningovi funkciji izgube. +\subsection{Gaussovo utežena srednja kvadratna napaka} +Gaussovo utežena srednja kvadratna napaka (ang. Gaussian Weighted Mean Squared Error - GWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike. Glavna značilnost GWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Hanningovi funkciji izgube. Namesto enakega pomena vseh pozitivnih vzorcev, GWMSE različnim vzorcem dodeljuje različne uteži glede na njihovo lokacijo. Za normalizacijo teh uteži se uporablja Gaussova funkcija. @@ -1416,7 +1380,7 @@ Gaussova funkcija: \subsection{Hanningovo utežena srednja kvadratna napaka} -Hanningova utežena srednja kvadratna napaka (Hanning Weighted Mean Squared Error - HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike. +Hanningovo utežena srednja kvadratna napaka (ang. Hanning Weighted Mean Squared Error - HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike. Glavna značilnost HWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Gaussovi funkciji izgube. Namesto enakega pomena vseh pozitivnih vzorcev, HWMSE različnim vzorcem dodeljuje različne uteži glede na njihovo lokacijo. Za normalizacijo teh uteži se uporablja Hanningovo okno. @@ -1433,7 +1397,7 @@ Hanningova funkcija je podana kot: \subsection{Križno utežena srednja kvadratna napaka} -Funkcija izgube križno utežena srednja kvadratna napaka (Cross-Weighted Mean Squared Error - CW-MSE) je različica standardne srednje kvadratne napake (Mean Squared Error - MSE), ki vključuje uteževanje dveh različnih skupin vzorcev: tistih, katerih resnična vrednost je večja od 0 (t.i. "resničnih" vzorcev) in tistih, katerih resnična vrednost je manjša ali enaka 0 (t.i. "ne-resničnih" vzorcev). +Funkcija izgube križno utežena srednja kvadratna napaka (ang. Cross-Weighted Mean Squared Error - CWMSE) je različica standardne srednje kvadratne napake (Mean Squared Error - MSE), ki vključuje uteževanje dveh različnih skupin vzorcev: tistih, katerih resnična vrednost je večja od 0 (t.i. "resničnih" vzorcev) in tistih, katerih resnična vrednost je manjša ali enaka 0 (t.i. "ne-resničnih" vzorcev). Končna funkcija izgube se izračuna kot utežena kombinacija srednjih kvadratnih napak za "resnične" in "ne-resnične" vzorce, pri čemer se uteži vzorcev različnih skupin prekrižajo. Ta pristop se formalno izraža z naslednjo enačbo: @@ -1464,10 +1428,10 @@ da je Hanningova kriterijska funkcija optimalna izbira za geolokalizacijo brezpi \hline Kriterijska funkcija & vrednost & $RDS_{\text{train}}$ & $RDS_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ \hline -Hanningova kriterijska funkcija & 8.49 & 0.893 & 0.709 & 43.42 \\ -Gaussovo utezena srednja kvadratna napaka & 0.001 & 0.077 & 0.074 & 234.48 \\ -Hanningovo utežena srednja kvadratna napaka & 4.04e-06 & 0.061 & 0.059 & 232.55\\ -Križno utežena srednja kvadratna napaka & 0.007 & 0.07 & 0.06 & 242.70\\ +HANN & 8.49 & 0.893 & 0.709 & 43.42 \\ +GWMSE & 0.001 & 0.077 & 0.074 & 234.48 \\ +HWMSE & 4.04e-06 & 0.061 & 0.059 & 232.55\\ +CWMSE & 0.007 & 0.07 & 0.06 & 242.70\\ \hline \end{tabular} \caption{Rezultati ob uporabi razlicnih kriterijskih funkij. Kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.} @@ -1542,63 +1506,27 @@ Stratificirano vzorčenje igra ključno vlogo pri ocenjevanju kakovosti modela v V tem podpoglavju bomo raziskali kaj so prednosti in slabosti stratificiranega vzorčenja. \subsection{Stratificirano vzorčenje} -Stratificirano vzorčenje je metoda vzorčenja, pri kateri se celoten nabor podatkov razdeli na ločene podskupine ali strate. -Vsak stratum predstavlja določeno kategorijo ali razred v naboru podatkov. -V kontekstu mest bi lahko vsako mesto predstavljalo svoj stratum. -Namen stratificiranega vzorčenja je zagotoviti, da je vsak vzorec reprezentativen za celoten nabor podatkov. - -Zakaj je stratificirano vzorčenje pomembno? - -\begin{enumerate} - \item \textbf{Ohranjanje Distribucije}: - Stratificirano vzorčenje zagotavlja, da se razmerje vzorcev v vsakem stratumu ohranja enako kot v celotnem naboru podatkov. - To je še posebej pomembno, ko je distribucija podatkov v vsakem stratumu (v tem primeru mesto) ključnega pomena za analizo. - Na primer, če želimo, da je naš vzorec reprezentativen za različna mesta, bi uporabili stratificirano vzorčenje, da zagotovimo, da so vsa mesta ustrezno zastopana. - \item \textbf{Natančnost}: - Stratificirano vzorčenje lahko poveča natančnost ocen, saj zmanjšuje variabilnost znotraj vsakega strata. - To pomeni, da so vzorci iz vsakega strata bolj homogeni, kar lahko vodi do natančnejših rezultatov. -\end{enumerate} - -Slabosti stratificiranega vzorčenja: - -\begin{enumerate} - \item \textbf{Omejena Generalizacija}: - Čeprav stratificirano vzorčenje zagotavlja, da so vse kategorije ali razredi v naboru podatkov ustrezno zastopani v vzorcu, to lahko pomeni, da model morda ni tako dobro pripravljen na povsem nove, nevidene podatke. - Model je lahko optimiziran za specifično distribucijo podatkov, ki je bila uporabljena med učenjem in validacijo. - \item \textbf{"In-Distribution" Validacija} - Ker se vzorci za učenje in validacijo izbirajo iz iste distribucije (stratificirane distribucije), model morda ne bo dobro deloval na "out-of-distribution" podatkih. - To pomeni, da čeprav model morda kaže visoko natančnost na validacijskem naboru, to ne zagotavlja, da bo enako dobro deloval na podatkih, ki se močno razlikujejo od originalne distribucije. -\end{enumerate} +Stratificirano vzorčenje zagotavlja, da so vse podkategorije v populaciji ustrezno zastopane v vzorcu, kar izboljša natančnost ocen. +Vendar pa model morda ni pripravljen na povsem nove, nevidene podatke in se lahko preveč prilagodi specifični distribuciji podatkov. \subsection{Rezultati} \begin{table}[ht] \centering \begin{tabular}{|c|c|c|c|c|} \hline -Način & Hanningova izguba & $RDS_{\text{train}}$ & $RDS_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ +Način & $\text{HANN}_{\text{val}}$ & $\text{RDS}_{\text{train}}$ & $\text{RDS}_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ \hline Originalno učenje & 8.49 & 0.893 & 0.709 & 43.42 \\ -Učenje s stratificiranim vzorčenjem & 3.17 & 0.750 & 0.731 & 17.89 \\ +Učenje s strat. vzorčenjem & 3.17 & 0.750 & 0.731 & 17.89 \\ \hline \end{tabular} -\caption{Rezultati ob uporabi stratificiranega uzorcenja. Kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.} +\caption{Rezultati ob uporabi stratificiranega vzorčenja. Kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.} \label{tab:stratified} \end{table} -Iz rezultatov \ref{tab:stratified} je razvidno, da je uporaba stratificiranega vzorčenja pozitivno vplivala na rezultate. - -Za boljše razumevanje uspešnosti modelov je ključno upoštevati tudi njihovo zmogljivost na validacijskih naborih podatkov. -To je še posebej pomembno, saj nam validacija daje vpogled v to, kako dobro model predvideva rezultate na nevidenih podatkih. -Če primerjamo rezultate $RDS_{\text{val}}$ med obema pristopoma, opazimo, da je model, -ki je bil naučen s stratificiranim vzorčenjem, dosegel rahlo višjo uspešnost (0.731) v primerjavi z modelom, ki je bil naučen s tradicionalno metodo "train-test split" (0.709). -To kaže, da se je model, ki je bil naučen s stratificiranim vzorčenjem, nekoliko bolje spoprijel s generalizacijo na nevidenih podatkih. -To dejstvo podkrepi tudi zmanjšana razlika med uspešnostjo na učni in validacijski množici v primeru stratificiranega vzorčenja. -Večja konsistentnost rezultatov med učno in validacijsko množico je lahko pokazatelj, da model ni pretirano prilagojen in se lahko bolje generalizira na nove podatke. -Torej, medtem ko je originalna metoda dosegla višjo uspešnost na učni množici, se zdi, -da stratificirano vzorčenje ponuja bolj zanesljive in stabilne rezultate na validacijski množici, kar je ključnega pomena za ocenjevanje realne zmogljivosti modela. -V našem primeru se zdi, da stratificirano vzorčenje ponuja bolj robusten in stabilen model za obravnavane satelitske slike. -Vendar pa je pomembno upoštevati tudi omejitve stratificiranega vzorčenja, kot so omejena generalizacija in potencialne težave pri "out-of-distribution" podatkih. - +Iz rezultatov \ref{tab:stratified} je razvidno, da stratificirano vzorčenje pozitivno vpliva na natančnost modela. +Model, naučen s to metodo, je dosegel rahlo višjo uspešnost na validacijski množici in boljšo generalizacijo. +Kljub temu je treba upoštevati omejitve stratificiranega vzorčenja, kot so omejena generalizacija in težave pri podatkih, ki se močno razlikujejo od originalne distribucije. \section{Vpliv velikosti Hanningovega okna} @@ -1613,15 +1541,9 @@ Nasprotje predstavlja preveliko okno, ki zajema široko paleto vzorcev. Kljub š \subsection{Eksperimentalni rezultati} -Pogoji eksperimenta so bili naslednji: - -\begin{itemize} - \item Vsak model je bil posebej natreniran z različno velikostjo Hanningovega okna. To smo storili, da bi preverili vpliv različnih velikosti oken na uspešnost in natančnost modela. - \item Po treniranju vsakega modela smo za testiranje uporabili enostaven primer kombinacije slike zajete z brezpilotnim letalnikom in satelitske slike. - To nam je omogočilo direktno primerjavo delovanja modelov na isti vhodni podatki in tako odpravilo morebitne nejasnosti ali napake, ki bi jih prinesli različni vhodni podatki. - \item Referenčni sliki, ki smo ju uporabili za testiranje, je prikazana na sliki \ref{fig:sat_drone}. - Slika brezpilotnega letanika predstavlja tipičen primer slike, s katero se naš model srečuje v praksi in vsebuje različne značilnosti terena, ki so pomembne za lokalizacijo. -\end{itemize} +V eksperimentu smo vsak model posebej natrenirali z različnimi velikostmi Hanningovega okna, da bi ocenili vpliv velikosti oken na modelovo natančnost. +Za testiranje smo uporabili kombinacijo slike iz brezpilotnega letalnika in satelitske slike, zagotavljajoč enake vhodne podatke za vse modele. +Referenčni sliki za testiranje sta prikazani na sliki \ref{fig:sat_drone}. \begin{figure}[h] \centering @@ -1747,21 +1669,21 @@ mlp\_drop2 & 0.15 & 0.05 & - \\ pos\_drops & 0.1 & 0.05 & - \\ \hline \end{tabular} -\caption{Parametri z neuravnovesenim izpustom nevronov.} +\caption{Parametri z neuravnovešenim izpuščanjem nevronov.} \end{table} \begin{table}[ht] \centering \begin{tabular}{|c|c|c|c|c|} \hline -Način & Hanningova izguba & $RDS_{\text{train}}$ & $RDS_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ +Način & $\text{HANN}_{\text{val}}$ & $\text{RDS}_{\text{train}}$ & $\text{RDS}_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ \hline -Brez izpuscanja & 8.49 & 0.893 & 0.709 & 43.42 \\ -Z uravnovesenim izpuscanjem & 5.49 & 0.725 & 0.690 & 21.67\\ -Z neuravnovesenim izpuscanjem & 5.42 & 0.725 & 0.719 & 18.11\\ +Brez izpuščanja & 8.49 & 0.893 & 0.709 & 43.42 \\ +Uravnovešeno izpuščanje & 5.49 & 0.725 & 0.690 & 21.67 \\ +Neuravnovešeno izpuščanje & 5.42 & 0.725 & 0.719 & 18.11 \\ \hline \end{tabular} -\caption{Rezultati ob uporabi razlicnih izpustov. Kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.} +\caption{Rezultati ob uporabi različnih izpuščanj nevronov. Kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.} \label{tab:izpuscanje} \end{table} @@ -1781,10 +1703,10 @@ To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične nalo \centering \begin{tabular}{|c|c|c|c|c|} \hline -Način & Hanningova izguba & $RDS_{\text{train}}$ & $RDS_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ +Način & $\text{HANN}_{\text{val}}$ & $\text{RDS}_{\text{train}}$ & $\text{RDS}_{\text{val}}$ & $\overline{\Delta_m}$ [m] \\ \hline Prednaučena mreža & 8.49 & 0.893 & 0.709 & 43.42 \\ -Brez uporabe prednaučene mreže & 8.21 & 0.627 & 0.630 & 60.23 \\ +Brez prednaučene mreže & 8.21 & 0.627 & 0.630 & 60.23 \\ \hline \end{tabular} \caption{Rezultati ob uporabi razlicnih izpustov. Kjer je $\overline{\Delta_m}$ povprečna napaka v metrih.} @@ -1795,6 +1717,7 @@ Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretac To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah. \chapter{Sklepne ugotovitve} +\label{ch4} Brezpilotni letalniki predstavljajo revolucionarni korak v tehnologiji, ki je našel svojo uporabo v številnih sektorjih, od vojaških operacij do kmetijskega nadzora. Kljub njihovi široki uporabi pa se soočajo z več ključnimi izzivi, zlasti na področju avtonomne navigacije. @@ -1803,11 +1726,11 @@ Spodaj so izpostavljene naše glavne ugotovitve in predlogi: \begin{enumerate} \item \textbf{Učinkovitost in natančnost metode}: - Naša implementacija WAMF-FPI je pokazala, da je metoda izjemno obetavna. + Naša implementacija WAMF-FPI je pokazala, da je metoda obetavna. Ugotovili smo, da je sama arhitektura izredno učinkovita in da lahko zagotovi natančno lokalizacijo brezpilotnih letalnikov tudi v zahtevnih pogojih. \item \textbf{Potencial za izboljšave}: Kljub izjemni učinkovitosti metode WAMF-FPI smo identificirali nekaj ključnih področij, kjer bi se lahko izvedle izboljšave. - Eden od predlogov je uporaba močnejše nevronske mreže za izluščenje značilnosti. + Eden od predlogov je uporaba bolj"se nevronske mreže za izluščenje značilnosti. Morda bi bile konvolucijske nevronske mreže novejše generacije ali nekatere druge arhitekture bolj primerne za ta namen. \item \textbf{Optimizacija združevanja značilnosti}: Med našo analizo smo opazili, da bi lahko del združevanja značilnosti optimizirali z uporabo metode pozornosti, kar bi omogočilo še boljše ujemanje med slikami zajetimi z brezpilotnim letalnikom in satelitskimi slikami. @@ -1832,6 +1755,50 @@ Metoda WAMF-FPI predstavlja pomemben korak naprej v lokalizaciji brezpilotnih le Kljub obetavni učinkovitosti metode pa obstajajo še nekateri izzivi in priložnosti za izboljšave. Naša raziskava je postavila trdne temelje za nadaljnji razvoj in implementacijo metode v realnih sistemih brezpilotnih letalnikov. Naslednji koraki bi vključevali nadaljnje optimizacije modela, razširitev podatkovnih zbirk in končno implementacijo na dejanskih brezpilotnih letalnikih. +\todo{add uporaba casovne nevem kaj, feedback loop} + +\appendix +\chapter{Primeri izračuna RDS} +\label{appendix:RDS} +Za boljše razumevanje, kako se RDS izračuna in kaj nam predstavlja, si oglejmo tri različne primere. + +\textbf{Primer 1:} +Za $w=400px$, $h=400px$, $dx=0px$, $dy=0px$ in $k=10$ dobimo: + +\begin{center} + \begin{equation} + RDS_1 = e^{-10 \times \frac{\sqrt{\left(\frac{0}{400}\right)^2+\left(\frac{0}{400}\right)^2}}{2}} = 1 + \end{equation} +\end{center} + +Ker sta $dx$ in $dy$ oba 0, je $RDS$ za ta primer enak $1$ (kar pomeni, da je napovedana pozicija točno na dejanski poziciji). + +\textbf{Primer 2:} +Za $w=400px$, $h=400px$, $dx=2px$, $dy=0px$ in $k=10$ dobimo: + +\begin{center} + \begin{equation} + RDS_2 = e^{-10 \times \frac{\sqrt{\left(\frac{2}{400}\right)^2+\left(\frac{0}{400}\right)^2}}{2}} = 0.975 + \end{equation} +\end{center} + +Tukaj je napovedana pozicija rahlo odmaknjena samo v vodoravni smeri za 2 piksla. $RDS = 0.975$ kaže na minimalno odstopanje napovedane pozicije od dejanske. + +\textbf{Primer 3:} +Za $w=400px$, $h=400px$, $dx=10px$, $dy=14px$ in $k=10$ dobimo: + +\begin{center} + \begin{equation} + RDS_3 = e^{-10 \times \frac{\sqrt{\left(\frac{10}{400}\right)^2+\left(\frac{14}{400}\right)^2}}{2}} = 0.806 + \end{equation} +\end{center} + +V tem primeru je napovedana pozicija odmaknjena tako v vodoravni kot navpični smeri. $RDS$ vrednost $0.806$ kaže na večjo relativno napako v primerjavi s prejšnjim primerom. + +RDS metrika nam omogoča kvantitativno oceno natančnosti napovedane pozicije v primerjavi z dejansko pozicijo. +Višja kot je vrednost RDS, bližje je napovedana točka dejanski točki. +V obratnem primeru, nižja kot je vrednost RDS, večja je napaka med napovedano in dejansko točko. + %\cleardoublepage %\addcontentsline{toc}{chapter}{Literatura} diff --git a/img/model.pdf b/img/model.pdf index 7ab24cb..dfce09d 100644 Binary files a/img/model.pdf and b/img/model.pdf differ diff --git a/literatura.bib b/literatura.bib index b8f7c1f..236e5b0 100644 --- a/literatura.bib +++ b/literatura.bib @@ -241,3 +241,10 @@ url={http://arxiv.org/abs/1707.02131v2} } +@article{touvron2020training, + title={Training data-efficient image transformers \& distillation through attention}, + author={Touvron, Hugo and Cord, Matthieu and Douze, Matthijs and Massa, Francisco and Sablayrolles, Alexandre and Jégou, Hervé}, + journal={arXiv preprint arXiv:2012.12877}, + year={2020}, + url={http://arxiv.org/abs/2012.12877v2} +}