Genral fixes

2023-08-23 20:30:16 +02:00 · 2023-08-23 20:30:16 +02:00 · 8b9f03ed05
parent 6e9bd2516e
commit 8b9f03ed05
2 changed files with 41 additions and 19 deletions
--- a/diploma.pdf
+++ b/diploma.pdf
--- a/diploma.tex
+++ b/diploma.tex
@ -286,14 +286,18 @@ Besedilo je oblikovano z urejevalnikom besedil \LaTeX.}
 \bigskip
 \noindent\textbf{Opis:}\\
-todo
+V zadnjem času postaja uporaba brezpilotnih letalnikov vse bolj razširjena in se uporablja v različnih področjih, kot so agrikultura, kartiranje, vojaške operacije in še mnogo drugih. 
 Kljub njihovi vsestranskosti pa se poraja ključno vprašanje: kako se droni obnašajo, ko izgubijo stik z GPS sistemom? 
 Diplomska naloga se osredotoča na to tematiko in predlaga metodo za lokalizacijo brezpilotnih letalnikov ob izgubi GPS signala.
 \bigskip
 \noindent\textbf{Title:} UAV localization
 \bigskip
 \noindent\textbf{Description:}\\
-todo
+In recent times, the use of unmanned aerial vehicles (UAVs) has become increasingly prevalent, finding applications in various fields such as agriculture, mapping, military operations, and many others.
 Despite their versatility, a critical question arises: how do drones behave when they lose connection to the GPS system?
 This thesis focuses on this issue and proposes a method for localizing UAVs in the event of a GPS signal loss.
 \vfill
@ -423,7 +427,7 @@ Metoda prepoznavanja slik je na nekaterih naborih podatkov dosegla odlične rezu
 \begin{itemize}
    \item Pred praktično uporabo je treba vnaprej pripraviti slikovno bazo za prepoznavanje, in vse slike v bazi so poslane modelu za izvleček značilnosti.
-    \item Za doseganje bolj natančne pozicioniranja, mora baza pokrivati čim večji obseg in slika poizvedbe mora biti izračunana z vsemi slikami v bazi. To prinaša večji skladiščenjski in računalniški pritisk na računalnik.
+    \item Za doseganje bolj natančnega pozicioniranja, mora baza pokrivati čim večji obseg in slika poizvedbe mora biti izračunana z vsemi slikami v bazi. To prinaša večji skladiščenjski in računski pritisk na računalnik.
    \item Ko se model posodobi, je treba posodobiti tudi ustrezno bazo.
 \end{itemize}
 Povzemajoč, metoda prepoznavanja slik zahteva veliko predobdelovalnih operacij. Hkrati pa so tudi zahteve za skladiščno zmogljivost in računalniško moč precej velike.
@ -475,12 +479,12 @@ Prav tako se pojavljajo vprašanja glede zasebnosti in varnosti, saj lahko nepoo
 \subsection{Iskanje tocke v sliki}
-Iskanje točke v sliki je postopek identifikacije in določanja posebnih točk ali predmetov v določeni sliki ali seriji slik.
+Iskanje točke v sliki (ang. Finding Point in Image, FPI)je postopek identifikacije in določanja posebnih točk ali predmetov v določeni sliki ali seriji slik.
 Ta tehnologija se je izkazala za pomembno v različnih aplikacijah, vključno z navigacijo in geolokalizacijo.
 FPI je pozicijski standard, kjer je vhodna slika, ki jo je treba pozicionirati, poimenovana kot \textit{query}, in slika, ki jo je treba pridobiti, se imenuje \textit{search map}.
 Ta proces se lahko uporablja za različne naloge lokalizacije, kot so lokalizacija brezpilotnih letalnikov (UAV) in prečno geolokalizacijo. Glavni cilj je najti ustrezno lokacijo v iskalnem zemljevidu.
-FPI neposredno vnese poizvedbo in iskalni zemljevid v model, ki nato izpiše zemljevid toplote, ki predstavlja napovedano lokacijsko porazdelitev poizvedbe v iskalnem zemljevidu.
+FPI neposredno vnese poizvedbo in iskalni zemljevid v model, ki nato napove toplotno karto, ki predstavlja napovedano lokacijsko porazdelitev poizvedbe v iskalnem zemljevidu.
 Ena od ključnih prednosti metode FPI je, da ne zahteva veliko pripravljalnih podatkov ali operacij ekstrakcije značilnosti vnaprej. Edino shranjevanje, ki je potrebno, je iskalni zemljevid.
 Ta metoda omogoča hitro in natančno določanje lokacij v kompleksnih slikah in lahko služi številnim namenom.
 Na primer, v scenarijih brezpilotnih letalnikov bi FPI lahko uporabili za identifikacijo in sledenje specifičnih lokacij ali objektov na tleh iz zraka.
@ -490,17 +494,17 @@ Ponuja elegantno rešitev za težave, ki jih lahko tradicionalne metode imajo pr
 \subsection{Konvolucijska nevronska mreza}
-Konvolucijska nevronska mreža (CNN - Convolutional Neural Network) je posebna vrsta umetnih nevronskih mrež, zasnovana za obdelavo vizualnih podatkov.
+Konvolucijska nevronska mreža (CNN - Convolutional Neural Network) je posebna vrsta nevronskih mrež, zasnovana za obdelavo vizualnih podatkov.
 S svojo zmožnostjo avtomatičnega in prilagodljivega učenja hierarhičnih značilnosti iz vhodnih podatkov se CNN pogosto uporablja v nalogah strojnega vida, kot so razpoznavanje vzorcev, klasifikacija slik in iskanje točk v slikah.
 Struktura CNN vključuje konvolucijske plasti, ki izvajajo konvolucijsko operacijo s pomočjo majhnih filtrirnih matrik za odkrivanje lokalnih značilnosti, kot so robovi, teksture in oblike.
 To sledi združevalnim plastem, ki zmanjšajo dimenzionalnost slike, hkrati pa ohranijo pomembne informacije.
-Na koncu se uporabljajo popolnoma povezane plasti, ki združijo lokalne značilnosti v globalno razumevanje slike, kar omogoča klasifikacijo ali regresijo.
+Na koncu se uporabljajo polno povezane plasti, ki združijo lokalne značilnosti v globalno razumevanje slike, kar omogoča klasifikacijo ali regresijo.
 CNN se izkaže za zelo učinkovito v primerjavi z drugimi tipi nevronskih mrež v nalogah, povezanih z obdelavo slik, zlasti zaradi sposobnosti zajemanja prostorskih hierarhij značilnosti.
 To pomeni, da so sposobne razumeti in reprezentirati sliko na več ravneh abstrakcije.
 \subsection{Siamska nevronska mreža}
 Siamska nevronska mreža (Siamese Neural Network) je posebna vrsta nevronske mreže, ki se uporablja predvsem za primerjavo ali razlikovanje med dvema vhodoma. 
-Glavna značilnost siamske nevronske mreže je, da ima dva ali več identičnih podmrež, ki delijo iste uteži in parametre. 
+Glavna značilnost siamske nevronske mreže je, da vsebuje dve ali več identičnih podmrež, ki delijo iste uteži in parametre. 
 Te podmreže vzporedno obdelujejo vhodne podatke in na koncu se rezultati združijo, da se določi razlika ali podobnost med vhodnimi podatki.
 Struktura:
@ -587,10 +591,10 @@ Vendar je to zgolj matematična formulacija koncepta. Dejanski detajli, kot so v
 \section{Zgradba transformerja}
 V kontekstu strojnega prevajanja so avtorji v članku "Attention is all you need" \cite{vaswani2017attention} o pozornosti predstavili novo vrsto arhitekture, ki se loteva mnogih pasti modelov, ki temeljijo na RNN. 
-Kljub vsem napredkom pri kodirnikih-dekodirnikih RNN, ki smo jih obravnavali zgoraj, je ostalo dejstvo, da so RNN težko paralelizabilni(parallel), ker zaporedno obdelujejo vhod. 
+Kljub vsem napredkom pri kodirnikih-dekodirnikih RNN, ki smo jih obravnavali zgoraj, je ostalo dejstvo, da so RNN težko paralelizabilni, ker zaporedno obdelujejo vhod. 
 Ključna inovacija tega članka je, da so RNN in njihova skrita stanja v celoti nadomeščena z operacijami na osnovi pozornosti, ki so v mnogih problematičnih režimih bolj učinkovite. 
-Transformerski model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni.
+Transformerski model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ blokov na levi, dekodirnik pa $N$ blokov na desni, vidno na sliki \ref{fig:transformer_network}.
 \begin{figure}[h]
 \centering
@ -602,13 +606,13 @@ Transformerski model je model kodirnika-dekodirnika. Kodirnik sestavljajo $N$ bl
 Med ucenjem se vhodne besede $\vec{F} = (f_0, ..., f_n)$ hkrati prenesejo v prvi blok kodirnika, izhod tega bloka pa se nato prenese v njegovega naslednika. 
 Postopek se ponavlja, dokler vseh $N$ blokov kodirnika ni obdelalo vhoda. 
-Vsak blok ima dve komponenti: plast večglave samopozornosti, ki ji sledi popolnoma povezana plast z aktivacijami ReLU, ki obdeluje vsak element vhodne sekvence vzporedno. 
+Vsak blok ima dve komponenti: plast večglave samopozornosti, ki ji sledi polno povezana plast z aktivacijami ReLU, ki obdeluje vsak element vhodne sekvence vzporedno. 
-Tako večglavi sloj pozornosti kot popolnoma povezana plast sledita koraku \textit{Dodaj in Normiraj} - \textit{dodaj} se nanaša na residualno povezavo, 
+Tako večglavi sloj pozornosti kot polno povezana plast sledita koraku \textit{Dodaj in Normiraj} - \textit{dodaj} se nanaša na residualno povezavo, 
 ki doda vhod vsake plasti na izhod, \textit{normiraj} pa se nanaša na normalizacijo plasti.
 Ko je vhod prešel skozi vse bloke kodiranja, ostane kodirana predstavitev $\vec{F}$. 
 Dekodirnik pa sestoji iz treh korakov: maske večglave samopozornosti, 
-večglave plasti pozornosti, ki povezuje kodirano izvorno predstavitev z dekodirnikom, in popolnoma povezane plasti z aktivacijami ReLU.
+večglave plasti pozornosti, ki povezuje kodirano izvorno predstavitev z dekodirnikom, in polno povezane plasti z aktivacijami ReLU.
 Tako kot v kodirniku, vsaki plasti sledi plast \textit{Dodaj in Normiraj}. 
 Dekodirnik sprejme vse ciljne besede $\vec{E} = (e_0, ..., e_m)$ kot vhod. 
 V procesu napovedovanja besede $e_i$ ima dekodirnik dostop do prej generiranih besed. 
@ -633,7 +637,7 @@ Kasneje se bomo osredotočili na njegove aplikacije v članku \cite{vaswani2017a
    \end{equation}
 \end{center}
-Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention, omenjenem prej pri Luongu \cite{bahdanau2015neural}. 
+Scaled Dot-Product Attention je skoraj identičen Dot-Product Attention-u, omenjenem prej pri Luongu \cite{bahdanau2015neural}. 
 Edina razlika je, da je vhod v softmax skaliran s faktorjem $\frac{1}{\sqrt{d_k}}$. 
 V članku in predhodni literaturi se vrstice $Q \in \mathbb{R}^{m \times d_k}$ imenujejo "poizvedbe", vrstice $K \in \mathbb{R}^{n \times d_k}$ "ključi", in končno vrstice $V \in \mathbb{R}^{n \times d_v}$ "vrednosti".
@ -653,7 +657,7 @@ Izpeljimo izracun pozornosti. Zaceli bomo z zapisom posameznih vrstic $Q$ in $K$
 \end{center}
-Nato pridobimo naše uteži pozornosti tako, da vsak element delimo z $\sqrt{d_k}$ in uporabimo funkcijo softmax na vrstico:
+Nato pridobimo naše uteži pozornosti tako, da vsak element delimo z $\sqrt{d_k}$ in uporabimo funkcijo softmax nad vsako vrstico:
 \begin{center}
    \begin{equation}
    \begin{aligned}
@ -708,7 +712,7 @@ To pomeni, da če sta dva vektorja bolj poravnana (manjši kot med njima), bo nj
 To je smiselno, saj želimo, da model daje večjo pozornost tistim ključem, ki so bolj relevantni za dano poizvedbo.
 Zato je bližje kot sta si ključ $\vec{k}_j$ in poizvedba $\vec{q}_i$ po kotu, večja je njihova zastopanost v vektorju pozornosti.
-Še ena pomanjkljivost, ki so jo raziskovalci opazili pri modelih, ki temeljijo na RNN (Recurrent Neural Networks), je, da imajo težave z uporabo informacij iz elementov, ki so bili opaženi daleč v preteklosti. 
+Še ena pomanjkljivost, ki so jo raziskovalci opazili pri modelih, ki temeljijo na RNN (Recurrent Neural Networks) arhitekturi, je, da imajo težave z uporabo informacij iz elementov, ki so bili opaženi daleč v preteklosti. 
 To je posledica tega, kar se imenuje "problem dolgih časovnih razdalj", kjer se informacije iz preteklih korakov postopoma izgubljajo skozi čas.
 Bolj splošno, RNN imajo težave z povezovanjem zaporednih informacij, ki so med seboj daleč narazen. Tehnike, kot so pozornost na skritih stanjih (attention on hidden states) in dvosmerni modeli (bidirectional models), so bili poskusi za odpravo te težave in so služili kot naravni prehod v tehnike v tem članku.
@ -1009,11 +1013,11 @@ To je zato, ker sta predloga (dronska slika) in iskalna slika (satelitske slike)
 Metoda iskanja točk z uporabo slike uporablja satelitsko sliko kot iskalno sliko in dronsko sliko kot poizvedbeno sliko. 
 Nato se slike, posnete z dronom, in satelitske slike ustreznih območij prenesejo v end-to-end (celovito?) omrežje. 
-Po obdelavi je rezultat toplotni zemljevid, točka z najvišjo vrednostjo na toplotnem zemljevidu pa je lokacija drona, kot jo napove model.
+Po obdelavi je rezultat toplotna karta, točka z najvišjo vrednostjo na toplotni karti pa je lokacija drona, kot jo napove model.
 Nato to lokacijo preslikamo na satelitsko sliko. Položaj drona lahko določimo glede na informacije o geografski širini in dolžini, ki jih ohranja satelitska slika. 
 V FPI avtorji uporabljajo dva Deit-S brez deljenih uteži kot modula za ekstrakcijo značilnosti za vertikalne poglede slik drona in satelitskih slik \cite{dai2022finding}.
-Nato se ekstrahirane značilnosti podvržejo izračunu podobnosti, da se pridobi toplotni zemljevid. 
+Nato se ekstrahirane značilnosti podvržejo izračunu podobnosti, da se pridobi toplotna karta. 
-Končno preslikamo lokacijo z najvišjo vrednostjo toplotnega zemljevida na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika. 
+Končno preslikamo lokacijo z najvišjo vrednostjo toplotne karte na satelitsko sliko, da določimo lokacijo brezpilotnega letalnika. 
 V FPI se za izračun podobnosti uporablja zadnja plast zemljevidnih značilnosti \cite{dai2022finding}. 
 Ker je končni izhodni zemljevid stisnjen 16-krat, model izgubi veliko prostorskih informacij. 
@ -1342,6 +1346,24 @@ Slabosti stratificiranega vzorčenja:
 \subsection{Rezultati}
 todo
 \section{Vpliv velikosti Hanningovega okna na rezultate}
 Velikost Hanningovega okna igra ključno vlogo pri določanju uteži vzorcev. Zaradi narave Hanningove kriterijske funkcije velikost okna neposredno vpliva na razporeditev in obliko uteži, dodeljenih vzorcem v satelitskih slikah.
 \subsection{Dinamika različnih velikosti Hanningovih oken}
 Ko je velikost okna majhna, bo okno zajelo ožji del vzorcev, kar lahko povzroči težave s povratnim razširjanjem med učenjem modela. Če je obmocje, ki ga pokriva okno, premajhno, kriterijska funkcija ne more efektivno vplivati na celotno mrežo, kar vodi do potencialno slabše uspešnosti modela.
 Nasprotno, preveliko okno lahko privede do izgube natančnosti. Čeprav kriterijska funkcija zajema širši del vzorcev, lahko pomembni detajli postanejo zamegljeni, kar vodi do manj natančnih rezultatov.
 \subsection{Eksperimentalni rezultati}
 V naših testiranjih smo ugotovili, da je najbolje najti uravnoteženo velikost Hanningovega okna, ki omogoča modelu, da efektivno uči in hkrati ohranja natančnost pri predikcijah. V ta namen smo izvedli več iteracij, kjer smo eksperimentirali z različnimi velikostmi oken.
 \subsection{Praktična uporaba in priporočila}
 Pri uporabi Hanningove kriterijske funkcije je nujno, da se nenehno prilagajamo in testiramo različne velikosti oken. To zagotavlja, da model ohranja optimalno ravnotežje med učenjem in natančnostjo. Poleg tega je priporočljivo uporabljati metode kot so prečna validacija za oceno in primerjavo učinkovitosti modela pri različnih velikostih oken.
 Zaključek tega odseka je, da je prilagajanje velikosti Hanningovega okna ključno za doseganje optimalnih rezultatov, saj moramo najti pravo ravnovesje med učenjem in natančnostjo.
 \section{Regularizacija v modelu z uporabo izpuščanja nevronov}
 \subsection{Izpuščanje nevronov}