Popravki sestra

main
Gašper Spagnolo 2023-09-10 11:11:22 +02:00
parent 3c2fe6e30f
commit 5ff2726a75
No known key found for this signature in database
GPG Key ID: 2EA0738CC1EFEEB7
2 changed files with 18 additions and 29 deletions

Binary file not shown.

View File

@ -478,14 +478,13 @@ večina ne zajema vseh realnih situacij s katerimi se srečuje brezpilotni letal
Zbirka CVUSA \cite{cvusa} je osredotočena predvsem na zgradbe.
Zbirka University-1652 \cite{university1652} uporablja posnetke univerz, vendar nima dovolj raznolikih posnetkov, saj je omejena le na univerzitetna okolja.
Poleg tega so objekti v sredini slike.
Podatkovna zbirka UL14, omenjena v \cite{dai2022finding}, je edina s pogledom od zgoraj navzdol, vendar avtorji zbirke žal niso javno delili.
Podatkovna zbirka UL14, omenjena v \cite{dai2022finding}, je edina s pogledom od zgoraj navzdol, vendar avtorji zbirke niso javno delili.
Zato smo se odločili za ustvarjanje lastne zbirke, osredotočene na pogled iz brezpilotnega letalnika, z uporabo Google Earth Studia\footnote{Google Earth Studio: \url{https://www.google.com/earth/studio/}}.
Naša zbirka obsega 11 evropskih mest. Glavni cilj izdelave te zbirke je bil zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo pristopov. S tem smo nameravali zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih morebiti sreča brezpilotni letalnik v realnem svetu.
Cilj izdelave zbirke je zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Naša zbirka obsega 11 evropskih mest. Glavni cilj izdelave zbirke je zagotoviti raznolike podatke, ki bi služili kot robustna osnova za testiranje in validacijo pristopov. S tem smo nameravali zagotoviti, da naša implementacija lahko obravnava različne scenarije, ki jih morebiti sreča brezpilotni letalnik v realnem svetu.
Cilj diplomske naloge je raziskati in implementirati metodo WAMF-FPI, predstavljeno v \cite{wang2023wamf},
saj je ta metoda trenutno prepoznana kot vodilna in najnaprednejša na področju geolokalizacije brezpilotnih letalnikov, ter
dobro izhodišče za nadaljnje raziskave, žal pa avtorji niso javno delili implementacije metode.
dobro izhodišče za nadaljnje raziskave, avtorji pa niso javno delili implementacije metode.
Poleg tega smo želeli tudi ustvariti podatkovno zbirko, ki bo omogočala nadaljnje raziskave na tem področju.
Diplomska naloga je razdeljena na šest osnovnih poglavij.
@ -580,22 +579,21 @@ Tako večglav sloj pozornosti kot polno povezana plast sledita koraku \textit{Do
ki doda vhod vsake plasti na izhod, \textit{normiraj} pa se nanaša na normalizacijo plasti.
Ko je vhod prešel skozi vse bloke kodiranja, ostane kodirana predstavitev $\vec{F}$.
Dekodirnik pa sestoji iz treh korakov: maske večglave samopozornosti,
Dekodirnik sestoji iz treh korakov: maske večglave samopozornosti,
večglave plasti pozornosti, ki povezuje kodirano izvorno predstavitev z dekodirnikom, in polno povezane plasti z aktivacijami ReLU.
Tako kot v kodirniku, vsaki plasti sledi plast \textit{Dodaj in Normiraj}.
Dekodirnik sprejme vse ciljne besede $\vec{E} = (e_0, ..., e_m)$ kot vhod.
V procesu napovedovanja besede $e_i$ ima dekodirnik dostop do prej generiranih besed.
Ne more pa imeti dostopa do besed, ki sledijo $e_i$, saj te še niso bile generirane.
Dostopa do besed, ki sledijo $e_i$ ne more imeti, saj te še niso bile generirane.
Obstaja nekaj ključnih razlik v primerjavi s kodirnikom - ena je, da so vhodi v prvo operacijo pozornosti v blokih dekodirnika maskirani, zato tudi ime plasti.
To pomeni, da se lahko katera koli beseda v ciljnem izhodu nanaša samo na besede, ki so prišle pred njo.
Razlog za to je preprost: med sklepanjem generiramo predvideni prevod $\vec{E}$ besedo za besedo z uporabo izvornega stavka $\vec{F}$.
Druga razlika od kodirnika je druga večglava plast pozornosti, ki se imenuje tudi plast pozornosti kodirnika-dekodirnika.
Za razliko od plasti pozornosti na začetku blokov kodirnika in dekodirnika ta plast ni plast samopozornosti.
Za razliko od plasti pozornosti na začetku blokov kodirnika in dekodirnika, ni plast samopozornosti.
\subsection{Utežena točkovna produktna pozornost}
Utežena točkovna produktna pozornost (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju.
Utežena točkovna produktna pozornost je skoraj identična točkovni produktni pozornosti, že omenjenem v \cite{bahdanau2015neural}.
Utežena točkovna produktna pozornost (ang. Scaled Dot-Product Attention) se uporablja v vseh plasteh pozornosti v transformerju, in je skoraj identična točkovni produktni pozornosti, že omenjeni v \cite{bahdanau2015neural}.
\begin{equation}
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
@ -625,7 +623,7 @@ Večglava pozornost, ključna komponenta v arhitekturi transformatorja, je razš
V večglavi pozornosti se vhodni podatki (poizvedbe, ključi in vrednosti) najprej transformirajo v več različnih prostorov z uporabo linearnih preslikav.
Nato se za vsak niz izračuna utežena točkovna produktna pozornost.
Rezultati teh funkcij pozornosti se nato združijo skupaj v eno matriko.
Končno se ta matrika preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti.
Ta matrika se preslika nazaj v izviren prostor z uporabo druge linearne preslikave, da se pridobi končni rezultat večglave pozornosti.
Avtorji to izrazijo v spodnji obliki \cite{vaswani2017attention}:
\begin{equation}
@ -706,7 +704,6 @@ Piramidni ViT (PVT) \cite{wang2021pyramid} je bil razvit z namenom vključitve p
Arhitektura PVT je razdeljena na štiri stopnje.
Vsaka od teh stopenj je sestavljena iz plasti za vdelavo zaplat (ang. patch embedding) in iz več plasti transformerskega kodirnika.
Značilnost te arhitekture je, da se izstopna ločljivost štirih stopenj postopoma zmanjšuje, kar sledi piramidni predstavitvi.
Na najvišji stopnji je ločljivost mape značilnosti največja, medtem ko se na najnižji stopnji zmanjša.
Za boljše razumevanje si poglejmo podrobneje prvo stopnjo: vhodna slika velikosti $ H \times W \times 3 $ je razdeljena na zaplate velikosti $4 \times 4 \times 3$.
To pomeni, da je število zaplat enako $ HW/4^2 $. Vsaka zaplata je nato sploščena in prenesena v linearno projekcijo, kar rezultira v vdelavi zaplat velikosti
@ -726,7 +723,7 @@ Ta pristop omogoča PVT-ju, da učinkovito obdela značilnostne mape visoke loč
V primerjavi z ViT, PVT prinaša večjo prilagodljivost, saj lahko generira značilnostne mape različnih meril/kanalov v različnih fazah.
Poleg tega je bolj vsestranski, saj se lahko enostavno vključi in uporabi v večini modelov za spodnje naloge.
Prav tako je bolj prijazen do računalniških virov in spomina, saj lahko obdela značilnostne mape višje ločljivosti.
Bolj je prijazen do računalniških virov in spomina, saj lahko obdela značilnostne mape višje ločljivosti.
Na sliki \ref{fig:pvt} je prikazana skica PVT modela.
@ -818,7 +815,7 @@ Zbirka vsebuje posnetke s pogledom od zgoraj navzdol in je osredotočena na pogl
Skupno naša podatkovna baza vključuje več kot 11.000 slik. Slike so bile pridobljene s simulacijo letenja in so razvrščene v koherentnem časovnem zaporedju.
V članku \cite{dai2022finding, wang2023wamf} so avtorji uporabili podatkovno množico UL14, ki vključuje 6.768 slik za učenje in 2.331 slik za validacijo.
Ta zbirka se osredotoča večinoma na slike stavb večjih kitajskih univerz. V nasprotju s tem naša zbirka ponuja širši spekter značilnosti za analizo in bolje odraža realne okoliščine.
Cilj izdelave naše zbirke je bil zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Z zbirko želimo zagotoviti raznolike podatke, ki bi lahko služili kot robustna osnova za testiranje in validacijo naše implementacije WAMF-FPI.
Poleg tega je bil namen, da so slike posnete iz zgornjega pogleda, osredotočene na pogled brezpilotnega letalnika.
Želimo se prepričati, da je naš pristop robusten in da lahko obravnava različne scenarije, ki jih lahko sreča brezpilotni letalnik v realnem svetu.
@ -856,7 +853,7 @@ Mesta, vključena v nabor podatkov, so:
\item \textbf{Ljubljana:} nadmorska višina: 295~m, višina brezpilotnega letalnika: 150~m, skupaj: 445~m nad morsko gladino.
\end{itemize}
Na Sliki \ref{fig:region_structures} je prikazana razdelitev zelenih površin in stavb za različna mesta, temelječa na analizi slik, ki smo jih zajeli v našem podatkovnem naboru.
Na Sliki \ref{fig:region_structures} je prikazana razdelitev zelenih površin in stavb za različna mesta, ki smo jih zajeli v našem podatkovnem naboru.
Vsako mesto razkriva svojo edinstveno strukturo in raven urbanizacije.
Te razlike so ključnega pomena pri razumevanju izzivov, s katerimi se srečujejo brezpilotni letalniki pri lokalizaciji in navigaciji v različnih mestnih okoljih.
@ -951,14 +948,14 @@ Na vsaki sliki je s pomočjo rdečega kroga označen center izreza, ki predstavl
\begin{figure}[h]
\centering
\includegraphics[width=1\textwidth]{./img/drone_sat_example_19.png}
\caption{Leva slika prikazuje Gradec z dvakratno povečavo slike iz brezpilotnega letalnika, desna pa Trst z 2,5-kratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Gradec z 2-kratno povečavo slike iz brezpilotnega letalnika, desna pa Trst z 2,5-kratno povečavo slike iz brezpilotnega letalnika.}
\label{fig:drone_sat_example_19}
\end{figure}
\begin{figure}[h]
\centering
\includegraphics[width=1\textwidth]{./img/drone_sat_example_37.png}
\caption{Leva slika prikazuje mesto Szombathely z 1,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa z dvakratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje mesto Szombathely z 1,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa z 2-kratno povečavo slike iz brezpilotnega letalnika.}
\label{fig:drone_sat_example_37}
\end{figure}
@ -972,18 +969,17 @@ Na vsaki sliki je s pomočjo rdečega kroga označen center izreza, ki predstavl
\begin{figure}[h]
\centering
\includegraphics[width=1\textwidth]{./img/drone_sat_example_55.png}
\caption{Leva slika prikazuje Benetke s trikratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z dvakratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Benetke s 3-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z 2-kratno povečavo slike iz brezpilotnega letalnika.}
\label{fig:drone_sat_example_55}
\end{figure}
\begin{figure}[h]
\centering
\includegraphics[width=1\textwidth]{./img/drone_sat_example_82.png}
\caption{Leva slika prikazuje Trst s 3,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z enkratno povečavo slike iz brezpilotnega letalnika.}
\caption{Leva slika prikazuje Trst s 3,5-kratno povečavo slike iz brezpilotnega letalnika, desna pa mesto Pula z 1-kratno povečavo slike iz brezpilotnega letalnika.}
\label{fig:drone_sat_example_82}
\end{figure}
\chapter{Implementacija}
\label{ch3}
@ -1014,7 +1010,7 @@ Na sliki \ref{fig:fpi_model} je prikazana skica modela FPI \cite{dai2022finding}
\end{figure}
V FPI je za izračun podobnosti uporabljena zadnja plast zemljevidnih značilnosti \cite{dai2022finding}.
Zaradi tega, ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pri določanju lokacije.
Ker je izhodna toplotna karta 16-krat manjša od vhodne satelitske slike, model izgubi veliko prostorskih informacij, kar vodi v znatno izgubo natančnosti pri določanju lokacije.
Da bi izboljšali lokalizacijske sposobnosti modela, smo uporabili predstavitev piramidnih značilnosti (Twins-PCPVT) in modul utežno prilagodljivega združevanja večznačilnostnih lastnosti (WAMF).
K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših PCPVT-S modulov za izluščenje značilnosti iz slik brezpilotnega letalnika in satelitskih slik.
@ -1326,7 +1322,6 @@ vrednost 0.709, to kaže, da se je znanje dobro preneslo na validacijsko množic
V spodnjem razdelku so na slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5}
predstavljeni primeri lokalizacije z modelom WAMF-FPI na vzorcu iz podatkovne množice za Ljubljano.
Ti izbrani primeri osvetljujejo uspešnost in pomanjkljivosti modela pri obvladovanju kompleksnih scenarijev lokalizacije.
S pomočjo teh primerov lahko podrobneje razumemo zmogljivosti in omejitve uporabljenega modela v praksi.
Na vsaki sliki je z rdečim krogcem označena dejanska lokacija (ang. ground truth), medtem ko je z modrim krogcem označena predikcija modela, ki predstavlja najvišjo točko v toplotni karti.
@ -1445,7 +1440,7 @@ Eksperimenti so bili izvedeni z različnimi velikostmi oken, da bi ugotovili nji
Podatki kažejo na optimalno ravnovesje med velikostjo oken in natančnostjo modela.
Najboljše uspešnosti so bile dosežene z okni velikosti 31 in 33. Te velikosti sovpadajo s priporočili iz literature, kjer je bila optimalna velikost okna določena na 33 \cite{wang2023wamf}.
Čeprav imajo nekatera druga okna boljšo vrednost kriterijske funkcije (vidno v Dodatku \ref{appendix:primerjava3d}), je analiza slik pokazala, da je najmanj šuma prav pri oknih velikosti 31 in 33.
Čeprav imajo nekatera okna boljšo vrednost kriterijske funkcije (vidno v Dodatku \ref{appendix:primerjava3d}), je analiza slik pokazala, da je najmanj šuma prav pri oknih velikosti 31 in 33.
Okna, ki imajo manjše ali večje jedro od teh velikosti, začnejo vnašati šum na različnih lokacijah, kar vodi do zmanjšane natančnosti pri lokalizaciji. Ta šum lahko moti interpretacijo satelitskih slik in zmanjša zanesljivost modela.
Zaključimo lahko, da je izbira prave velikosti Hanningovega okna ključna za doseganje optimalnih rezultatov.
@ -1483,10 +1478,6 @@ V modelu smo uporabili izpuščanje nevronov na več ključnih mestih:
Z dodajanjem izpuščanja nevronov po vsaki konvolucijski plasti smo zmanjšali to tveganje in povečali robustnost modela.
\end{enumerate}
Izpuščanje nevronov je ena izmed najbolj učinkovitih tehnik regularizacije za nevronske mreže.
Z njegovo uporabo v modelu smo zagotovili, da je model bolj robusten in manj nagnjen k prekomernemu prilagajanju na učne podatke.
V kompleksnih modelih, kot je Twins, kjer je veliko komponent, ki se lahko prekomerno prilagodijo podatkom, je uporaba izpuščanja nevronov ključnega pomena za zagotavljanje natančnih in zanesljivih rezultatov.
\subsection{Rezultati}
\begin{table}[H]
@ -1552,7 +1543,7 @@ Zlasti v kontekstu globokih nevronskih mrež so prednaučeni modeli dragoceni, s
\subsection{Rezultati}
Naši rezultati \ref{tab:prednaucena} in \ref{tab:prednaucena_m} kažejo, da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične naloge.
To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične naloge, kar potrjuje, da so prednaučeni modeli lahko zelo koristni v scenarijih, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
\begin{table}[ht]
\centering
@ -1582,8 +1573,6 @@ Neprednaučena mreža & 34.98 & 34.45 & 53.43 & 64.79 \\
\label{tab:prednaucena_m}
\end{table}
Uporaba prednaučene mreže Twins je omogočila boljše zajemanje in interpretacijo značilnosti iz našega nabora podatkov, kar je vodilo k izboljšanim rezultatom.
To potrjuje, da so prednaučeni modeli lahko zelo koristni v nekaterih scenarijih, še posebej, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
\chapter{Sklepne ugotovitve}
\label{ch5}