Compare commits

...

2 Commits

Author SHA1 Message Date
Gašper Spagnolo de4ae4d9a0
dd 2023-09-10 21:42:28 +02:00
Gašper Spagnolo e5ed859e81
Update 2023-09-10 20:12:34 +02:00
2 changed files with 44 additions and 34 deletions

Binary file not shown.

View File

@ -563,7 +563,7 @@ Rešitev je prinesel mehanizem pozornosti, ki je omogočil boljše obvladovanje
\section{Zgradba transformerja}
Avtorji v članku \cite{vaswani2017attention} so predstavili novo arhitekturo za strojno prevajanje, ki se osredotoča na mehanizme pozornosti in se izogiba omejitvam RNN.
Glavna inovacija je zamenjava RNN in njihovih skritih stanj z bolj učinkovitimi operacijami na osnovi pozornosti.
Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni, vidno na sliki \ref{fig:transformer_network}.
Transformer model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni, vidno na Sliki \ref{fig:transformer_network}.
\begin{figure}[h]
\centering
@ -579,8 +579,7 @@ Tako večglav sloj pozornosti kot polno povezana plast sledita koraku \textit{Do
ki doda vhod vsake plasti na izhod, \textit{normiraj} pa se nanaša na normalizacijo plasti.
Ko je vhod prešel skozi vse bloke kodiranja, ostane kodirana predstavitev $\vec{F}$.
Dekodirnik sestoji iz treh korakov: maske večglave samopozornosti,
večglave plasti pozornosti, ki povezuje kodirano izvorno predstavitev z dekodirnikom, in polno povezane plasti z aktivacijami ReLU.
Dekodirnik sestoji iz treh korakov: maske večglave samopozornosti,\\ večglave plasti pozornosti, ki povezuje kodirano izvorno predstavitev z dekodirnikom, in polno povezane plasti z aktivacijami ReLU.
Tako kot v kodirniku, vsaki plasti sledi plast \textit{Dodaj in Normiraj}.
Dekodirnik sprejme vse ciljne besede $\vec{E} = (e_0, ..., e_m)$ kot vhod.
V procesu napovedovanja besede $e_i$ ima dekodirnik dostop do prej generiranih besed.
@ -725,7 +724,7 @@ V primerjavi z ViT, PVT prinaša večjo prilagodljivost, saj lahko generira zna
Poleg tega je bolj vsestranski, saj se lahko enostavno vključi in uporabi v večini modelov za spodnje naloge.
Bolj je prijazen do računalniških virov in spomina, saj lahko obdela značilnostne mape višje ločljivosti.
Na sliki \ref{fig:pvt} je prikazana skica PVT modela.
Na Sliki \ref{fig:pvt} je prikazana skica PVT modela.
\begin{figure}[h]
\centering
@ -754,7 +753,7 @@ CPE = f(PEG(E_1, E_2, ..., E_n))
Kjer je CPE pogojno pozicijsko kodiranje, $ f $ je funkcija, ki generira kodiranje na podlagi vhodnih značilnosti, in $E_i$ so značilnosti iz različnih stopenj kodirnika.
Twins-PCPVT združuje prednosti tako PVT-ja kot CPVT-ja, kar ga naredi enostavnega za učinkovito implementacijo.
Eksperimentalni rezultati so pokazali, da ta preprosta zasnova lahko doseže zmogljivost nedavno predlaganega Swin transformerja \cite{liu2021swin}.
Na sliki \ref{fig:twins} je prikazana skica PCPVT modela.
Na Sliki \ref{fig:twins} je prikazana skica PCPVT modela.
\begin{figure}[H]
\centering
@ -790,7 +789,7 @@ Kriterijska funkcija, običajno uporabljena pri učenju siamskih mrež za primer
\end{equation}
kjer $y$ označuje oznako podobnosti (1 za podobne in 0 za različne), $m$ pa je prag, ki določa mejo med podobnimi in različnimi slikami.
Na sliki \ref{fig:siamese} je prikazana skica siamske mreže uporabljene za primerjavo podpisov.
Na Sliki \ref{fig:siamese} je prikazana skica siamske mreže uporabljene za primerjavo podpisov.
\begin{figure}[h]
\centering
@ -876,7 +875,7 @@ Takšne razlike lahko vplivajo na algoritme lokalizacije in navigacije brezpilot
\label{fig:region_structures}
\end{figure}
Na slikah \ref{fig:drone_image_example_1} in \ref{fig:drone_image_example_2} so prikazani raznoliki primeri zajeti z brezpilotnim letalnikom.
Na Slikah \ref{fig:drone_image_example_1} in \ref{fig:drone_image_example_2} so prikazani raznoliki primeri zajeti z brezpilotnim letalnikom.
\begin{figure}[H]
\centering
@ -920,7 +919,7 @@ Pretvorbo geografskih koordinat (latitudo in longitudo) v zaplatne koordinate (x
\end{align*}
\end{itemize}
Na slikah \ref{fig:sat_examples_grid_1} in \ref{fig:sat_examples_grid_2} so prikazani primeri pripadajočih satelitskih slik za slike zajete z brezpilotnim letalnikom.
Na Slikah \ref{fig:sat_examples_grid_1} in \ref{fig:sat_examples_grid_2} so prikazani primeri pripadajočih satelitskih slik za slike zajete z brezpilotnim letalnikom.
\section{Oznake}
@ -928,7 +927,7 @@ V okviru raziskave smo iz visokoločljivostnih satelitskih slik naključno izrez
Pri vsaki iteraciji je bil izrez drugačen, s poudarkom na vključevanju referenčne točke lokalizacije v izrez.
Ta pristop zagotavlja izpostavljenost modela različnim scenarijem ob ohranjanju natančnosti lokalizacijskih podatkov.
Slike, pridobljene z brezpilotnimi letalniki, so bile obdelane s tehniko \textit{osrednjega izreza} in različnimi stopnjami povečave, združujoč detajlnost teh slik z obsežnostjo satelitskih posnetkov.
Spodaj na slikah \ref{fig:drone_sat_example_19}, \ref{fig:drone_sat_example_21}, \ref{fig:drone_sat_example_37}, \ref{fig:drone_sat_example_55} in \ref{fig:drone_sat_example_82} je prikazanih nekaj primerov takšnih izrezov.
Spodaj na Slikah \ref{fig:drone_sat_example_19}, \ref{fig:drone_sat_example_21}, \ref{fig:drone_sat_example_37}, \ref{fig:drone_sat_example_55} in \ref{fig:drone_sat_example_82} je prikazanih nekaj primerov takšnih izrezov.
Na vsaki sliki je s pomočjo rdečega kroga označen center izreza, ki predstavlja referenčno točko lokalizacije iz brezpilotnega letalnika, s čimer je omogočeno lažje prepoznavanje osredotočenosti izreza.
\begin{figure}[h]
@ -998,9 +997,9 @@ Metoda iskanja točk uporablja satelitsko sliko kot referenčno in sliko iz brez
Obe sliki -- posneti z brezpilotnim letalnikom in satelitsko sliko relevantnega območja -- se nato preneseta v mrežo od začetka do konca (ang. end-to-end).
Po obdelavi je rezultat toplotna karta, kjer točka z najvišjo vrednostjo predstavlja lokacijo brezpilotnega letalnika, kot jo predvideva model.
Lokacijo nato preslikamo na satelitsko sliko, pri čemer položaj brezpilotnega letalnika določimo na podlagi geografske širine in dolžine, ki jih vsebuje satelitska slika.
V \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike.
V \cite{dai2022finding} avtorji kot modul za izluščenje značilnosti uporabljajo dva modela Deit-S \cite{touvron2020training} brez deljenih uteži za vertikalne poglede slike brezpilotnega letalnika in satelitske slike.
Izluščene značilnosti nato uporabimo za izračun podobnosti in izdelavo toplotne karte. Lokacijo z najvišjo vrednostjo toplotne karte nato preslikamo na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika.
Na sliki \ref{fig:fpi_model} je prikazana skica modela FPI \cite{dai2022finding}.
Na Sliki \ref{fig:fpi_model} je prikazana skica modela FPI \cite{dai2022finding}.
\begin{figure}[h]
\centering
@ -1017,7 +1016,7 @@ K osnovnemu modelu so bile dodane izboljšave z vključitvijo dveh močnejših P
Da bi bolje zajeli informacije na različnih ločljivostih in ohranili več prostorskih informacij, so bile prvotno izluščene značilnosti poslane v mrežo piramidne predstavitve za nadaljnjo obdelavo.
Modul WAMF je bil nato uporabljen za izračun podobnosti in združevanje različnih značilnosti.
Končne združene značilnosti so bile razširjene za izdelavo končne izhodne napovedne mape.
Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu WAMF-FPI. Na sliki \ref{fig:model_architecture} je prikazana skica arhitekture modela WAMF-FPI.
Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu WAMF-FPI. Na Sliki \ref{fig:model_architecture} je prikazana skica arhitekture modela WAMF-FPI.
\begin{figure}[h]
\centering
@ -1029,11 +1028,11 @@ Rezultat je toplotna karta iste velikosti kot vhodna satelitska slika v modelu W
\subsection{Modul za izluščenje značilnosti}
WAMF-FPI kot vhod uporablja satelitske slike dimenzij 400 × 400 × 3 in slike brezpilotnega letalnika dimenzij 128 × 128 × 3.
Značilnosti obeh vrst slik so izluščene s pomočjo PCPVT-S.
V modelu smo odstranili zadnjo stopnjo PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
Značilnosti obeh vrst slik so izluščene s pomočjo modela PCPVT-S.
V modelu smo odstranili zadnjo stopnjo modela PCPVT-S in uporabili samo prve tri stopnje za izluščene značilnosti. Pri dimenzijah vhodnih slik 400 x 400 x 3 in 128 x 128 x 3 oba pristopa pridobita značilnostne mape z obliko
25 x 25 x 320 in 8 x 8 x 320.
V primerjavi z Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, PCPVT-S uporablja piramidno predstavitev.
V primerjavi z modelom Deit-S \cite{touvron2020training}, ki je bil uporabljen v FPI \cite{dai2022finding}, model PCPVT-S uporablja piramidno predstavitev.
Ta struktura je bolj prilagojena za naloge goste napovedi.
Pravzaprav uporaba piramidne predstavitve zagotavlja osnovo za kasnejšo integracijo modula WAMF.
Poleg tega mreža s piramidno predstavitvijo lahko zmanjša obseg potrebnih izračunov in s tem izboljša hitrost procesiranja, kar je ključno za učinkovito uporabo metode v praksi.
@ -1165,7 +1164,7 @@ Predvidevamo, da bo Hanningovo okno kot kriterijska funkcija prineslo najboljše
V članku WAMF-FPI \cite{wang2023wamf} so avtorji predlagali uporabo Hanningove kriterijske funkcije.
Prvi pomemben vidik te funkcije izgube je dodelitev uteži vzorcem.
Namesto enakega pomena vseh pozitivnih vzorcev, kriterijska funkcija Hanning dodeli različne uteži glede na lokacijo vzorca.
Namesto enakega pomena vseh pozitivnih vzorcev, kriterijska funkcija Hanning dodeli različne uteži glede na lokacijo vzorca. Na Sliki \ref{fig:gt_heatmap_with_label} je prikazan primer vzorca.
\begin{figure}[h]
\centering
@ -1202,6 +1201,7 @@ kjer je:
\item \textbf{NW} je normalizacijski faktor
\item \textbf{HN(n)} je vrednost Hanningove funkcije na lokaciji.
\end{itemize}
Na Sliki \ref{fig:hann_kernel} je prikazana vizualizacija Hanningovega jedra.
\begin{figure}[h]
\centering
@ -1225,6 +1225,8 @@ Gaussova funkcija:
\end{cases}.
\end{equation}
Na Sliki \ref{fig:gauss_kernel} je prikazana vizualizacija Gaussovega jedra.
\begin{figure}[h]
\centering
\includegraphics[width=0.45\textwidth]{./img/3d_gaussian_kernel.png}
@ -1232,9 +1234,9 @@ Gaussova funkcija:
\label{fig:gauss_kernel}
\end{figure}
\subsection{Hanningovo utežena srednja kvadratna napaka}
\subsection{Hanningova utežena srednja kvadratna napaka}
Hanningovo utežena srednja kvadratna napaka (ang. Hanning Weighted Mean Squared Error -- HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike.
Hanningova utežena srednja kvadratna napaka (ang. Hanning Weighted Mean Squared Error -- HWMSE) je spremenjena funkcija izgube, namenjena izboljšanju modelov, ki obravnavajo podatke, kot so satelitske slike.
Glavna značilnost HWMSE je dodeljevanje uteži vzorcem na zelo podoben način kot pri Gaussovi funkciji izgube.
Namesto enakega pomena vseh pozitivnih vzorcev, HWMSE različnim vzorcem dodeljuje različne uteži glede na njihovo lokacijo.
Za normalizacijo teh uteži se uporablja Hanningovo okno.
@ -1292,7 +1294,7 @@ CWMSE & 0.007 & 0.07 & 0.06 & 242.70\\
\label{tab:metode}
\end{table}
V tabeli \ref{tab:metode_m} prikazujemo napako v odstotkih za različne kriterijske funkcije glede na razdaljo. Iz tabele je razvidno, kolikšen delež primerov ima napako manjšo od določene razdalje.
V Tabeli \ref{tab:metode_m} prikazujemo napako v odstotkih za različne kriterijske funkcije glede na razdaljo. Iz Tabele je razvidno, kolikšen delež primerov ima napako manjšo od določene razdalje.
\begin{table}[ht]
\centering
@ -1317,7 +1319,7 @@ Hanningova kriterijska funkcija, ki je značilna po dodeljevanju uteži vzorcem
vrednost 0.893. Kljub temu, da je na validacijski množici dosegla nekoliko nižjo $RDS_{\text{val}}$
vrednost 0.709, to kaže, da se je znanje dobro preneslo na validacijsko množico. Zaradi teh pozitivnih rezultatov smo Hanningovo kriterijsko funkcijo uporabljali v nadaljnjem testiranju.
V spodnjem razdelku so na slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5}
V spodnjem razdelku so na Slikah \ref{fig:drone_net_example_0}, \ref{fig:drone_net_example_1}, \ref{fig:drone_net_example_2}, \ref{fig:drone_net_example_3}, \ref{fig:drone_net_example_4} in \ref{fig:drone_net_example_5}
predstavljeni primeri lokalizacije z modelom WAMF-FPI na vzorcu iz podatkovne množice za Ljubljano.
S pomočjo teh primerov lahko podrobneje razumemo zmogljivosti in omejitve uporabljenega modela v praksi.
Na vsaki sliki je z rdečim krogcem označena dejanska lokacija (ang. ground truth), medtem ko je z modrim krogcem označena predikcija modela, ki predstavlja najvišjo točko v toplotni karti.
@ -1409,7 +1411,7 @@ Učenje s strat. vzorčenjem & 71.11 & 81.18 & 87.97 & 95.35 \\
\label{tab:stratified_m}
\end{table}
Iz rezultatov \ref{tab:stratified} in \ref{tab:stratified_m} je razvidno, da stratificirano vzorčenje pozitivno vpliva na natančnost modela.
Iz rezultatov v Tabelah \ref{tab:stratified} in \ref{tab:stratified_m} je razvidno, da stratificirano vzorčenje pozitivno vpliva na natančnost modela.
Model, naučen s to metodo, je dosegel rahlo višjo uspešnost na validacijski množici in boljšo generalizacijo.
Kljub temu je treba upoštevati omejitve stratificiranega vzorčenja, kot so omejena generalizacija in težave pri podatkih, ki se močno razlikujejo od originalne distribucije.
@ -1424,7 +1426,8 @@ Nasprotje predstavlja preveliko okno, ki zajema široko paleto vzorcev. Kljub š
V eksperimentu smo vsak model posebej naučili z različnimi velikostmi Hanningovega okna, da bi ocenili vpliv velikosti oken na modelovo natančnost.
Za testiranje smo uporabili kombinacijo slike iz brezpilotnega letalnika in satelitske slike, zagotavljajoč enake vhodne podatke za vse modele.
Referenčni sliki za testiranje sta prikazani na sliki \ref{fig:sat_drone}.
Referenčni sliki za testiranje sta prikazani na Sliki \ref{fig:sat_drone}.
Na Sliki \ref{fig:plot_different_hann_kernels} je prikazana primerjava rezultatov ob uporabi različnih velikosti Hanningovega okna.
\begin{figure}[h]
\centering
@ -1433,22 +1436,22 @@ Referenčni sliki za testiranje sta prikazani na sliki \ref{fig:sat_drone}.
\label{fig:sat_drone}
\end{figure}
Eksperimenti so bili izvedeni z različnimi velikostmi oken, da bi ugotovili njihov vpliv na uspešnost modela. Primeri so prikazani na slikah \ref{fig:heatmaps3d_1}.
Podatki kažejo na optimalno ravnovesje med velikostjo oken in natančnostjo modela.
Najboljše uspešnosti so bile dosežene z okni velikosti 31 in 33. Te velikosti sovpadajo s priporočili iz literature, kjer je bila optimalna velikost okna določena na 33 \cite{wang2023wamf}.
Čeprav imajo nekatera okna boljšo vrednost kriterijske funkcije (vidno v Dodatku \ref{appendix:primerjava3d}), je analiza slik pokazala, da je najmanj šuma prav pri oknih velikosti 31 in 33.
Okna, ki imajo manjše ali večje jedro od teh velikosti, začnejo vnašati šum na različnih lokacijah, kar vodi do zmanjšane natančnosti pri lokalizaciji. Ta šum lahko moti interpretacijo satelitskih slik in zmanjša zanesljivost modela.
Zaključimo lahko, da je izbira prave velikosti Hanningovega okna ključna za doseganje optimalnih rezultatov.
\begin{figure}[h]
\begin{figure}[H]
\centering
\includegraphics[width=\textwidth]{./img/plot_different_hann_kernels.png}
\includegraphics[width=0.95\textwidth]{./img/plot_different_hann_kernels.png}
\caption{Primerjava rezultatov ob uporabi različnih velikosti Hanningovega okna, na celotni validacijski množici.}
\label{fig:plot_different_hann_kernels}
\end{figure}
Eksperimenti so bili izvedeni z različnimi velikostmi oken, da bi ugotovili njihov vpliv na uspešnost modela. Primeri so prikazani na slikah v Dodatku \ref{appendix:primerjava3d}.
Podatki kažejo na optimalno ravnovesje med velikostjo oken in natančnostjo modela.
Najboljše uspešnosti so bile dosežene z okni velikosti 31 in 33. Te velikosti sovpadajo s priporočili iz literature, kjer je bila optimalna velikost okna določena na 33 \cite{wang2023wamf}.
Čeprav imajo nekatera okna boljšo vrednost kriterijske funkcije, je analiza slik pokazala, da je najmanj šuma prav pri oknih velikosti 31 in 33.
Okna, ki imajo manjše ali večje jedro od teh velikosti, začnejo vnašati šum na različnih lokacijah, kar vodi do zmanjšane natančnosti pri lokalizaciji. Ta šum lahko moti interpretacijo satelitskih slik in zmanjša zanesljivost modela.
Zaključimo lahko, da je izbira prave velikosti Hanningovega okna ključna za doseganje optimalnih rezultatov.
\section{Regularizacija}
V tem podpoglavju raziskujemo tehniko izpuščanja nevronov kot sredstvo regularizacije v nevronskih mrežah.
@ -1494,6 +1497,7 @@ pos\_drops & 0.05 & 0.05 & - \\
\hline
\end{tabular}
\caption{Parametri z uravnovešenim izpustom nevronov.}
\label{tab:param_1}
\end{table}
\begin{table}[H]
@ -1513,6 +1517,7 @@ pos\_drops & 0.1 & 0.05 & - \\
\hline
\end{tabular}
\caption{Parametri z neuravnovešenim izpuščanjem nevronov.}
\label{tab:param_2}
\end{table}
\begin{table}[H]
@ -1530,6 +1535,11 @@ Neuravnovešeno izpuščanje & 5.42 & 0.725 & 0.719 & 18.11 \\
\label{tab:izpuscanje}
\end{table}
Uporaba uravnovešenega izpuščanja nevronov je privedla do vrednosti $\text{RDS}_{\text{val}}$ 0.690,
medtem ko je neuravnovešeno izpuščanje doseglo vrednost 0.719, kar kaže na izboljšano robustnost modela v primerjavi z modelom brez izpuščanja,
ki je dosegel vrednost 0.709, kot je prikazano v Tabeli \ref{tab:izpuscanje}.
Parametri za izpuščanje nevronov so podrobno predstavljeni v Tabelah \ref{tab:param_1} in \ref{tab:param_2}.
\section{Uporaba prednaučene mreže}
V tem podpoglavju raziskujemo vpliv uporabe prednaučene mreže Twins za izluščenje značilnosti pred združitvijo v modulu za združevanje značilnosti.
Cilj je oceniti, kako uporaba prednaučene mreže vpliva na uspešnost modela WAMF-FPI.
@ -1539,7 +1549,7 @@ Uporaba prednaučenih modelov v strojnem učenju omogoča izkoristek že obstoje
Zlasti v kontekstu globokih nevronskih mrež so prednaučeni modeli dragoceni, saj lahko pomagajo modelom hitreje konvergirati in v nekaterih primerih doseči boljše rezultate.
\subsection{Rezultati}
Naši rezultati \ref{tab:prednaucena} in \ref{tab:prednaucena_m} kažejo, da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
Naši rezultati v Tabelah \ref{tab:prednaucena} in \ref{tab:prednaucena_m} kažejo, da je uporaba prednaučene mreže Twins privedla do boljših rezultatov v primerjavi z modelom, ki ni uporabljal prednaučene mreže.
To poudarja prednost prenosa znanja iz prednaučenih modelov na specifične naloge, kar potrjuje, da so prednaučeni modeli lahko zelo koristni v scenarijih, ko želimo izkoristiti že obstoječe znanje za izboljšanje uspešnosti na novih nalogah.
\begin{table}[ht]