Adaptive computation methods in digital image sequence analysis

Kasprzak, W.

Artykuł - szczegóły

Tytuł artykułu

Adaptive computation methods in digital image sequence analysis

Autorzy

Kasprzak W.

Identyfikatory

Warianty tytułu

Języki publikacji

Abstrakty

In this work adaptive computation techniqucs are applied for digital image sequence analysis, organized by a hierarchy of data abstraction levels (ranging from the signal level over the iconic, segmentation and object recognition levels to the cognittive level). The applied methodology focuses on the biologically-motivated connectionism theory (i.e. artificial neural networks and semantic networks) and on dynamic system theory (tracking, recursive estimation). The meaning of the term ''adaptive" in this work is twofold and it corresponds to two modes of image sequence analysis. In the case of a limited-length image sequence, called a N-image: a stationary scene (environment) is usually expected a batch analysis mode is defined. For unlimiteed-length image sequences (in general a sequence of N-images) a non-stationary scene environment (with moving objects) is usually expected - a recursive analysis mode is defined. Thus, at first a general scheme for batch mode analysis of N-images is proposed in the paper. This solution scheme is based on appropriately designed ANN-learning algorithms. Such kinds of biologically-motivated methods may bee seen as computational counterparts of the human visual perception mechanism. Three implementations of this scheme are developed and tested for particular analysis tasks at the lower levels of image analysis, i.e. adaptive algorithms for the problem of many image source restoration from their mixtures (on the signal processing Ievel), an adaptive image compression and classification approach (on the ironic level) and a visual motion detection/estimation (on the segmentation level). In the second part of this work, a general scheme for the recursive analysis of infinite N-image sequences is developed. This solution scheme is based on the dynamic system theory, where the previous N-image results are adapted in the course of current N-image analysis of the sequence. This scheme, called adaptive object recognition, solves by general terms the problem of searching for the best, consistent set of object hypotheses, that are generated and tracked in the image sequence. Finally, three implementations of this scheme are developed and tested a model-independent 2-D object tracking in traffic scenes (on the segmentation level), model-based road following and 3-D vehicle recognition for autonomous navigation and a traffic scene recognition system (on the scene interpretation level). This kind of application requires highly sophisticated sensors and computation methods and it constitutes a real challenge for image analysis systems.

Celem pracy było sformułowanie ogólnych zasad stosowania adaptacyjnych technik obliczeniowych w systemach komputerowej analizy sekwencji obrazów cyfrowych oraz implementacja tych zasad dla wybranych problemów analizy, po jednym przykładowym problemie dla każdego poziomu abstrakcji danych. Praca stanowi również uogólnienie i podsumowanie dorobku autora w tej dziedzinie. We wstępie pracy zaproponowano dwa sposoby klasyfikacji procesów w systemie analizy obrazów - według poziomu abstrakcji danych, na których te procesy operują i według rodzaju danych wejściowych - skończona lub nieskończona sekwencja obrazów. Wyróżniono hierarchię danych obejmującą pięć poziomów: sygnałowy, ikoniczny, segmentacji obrazu, rozpoznawania obiektów i opisu sceny. We wstępie zaproponowano również oparcie stosowanej metodologii badań o teorię systemów konekcjonistycznych i teorię dynamicznych systemów. Pierwsza z nich posiada biologiczną motywację i zajmuje się wypracowaniem mechanizmów łączących sztuczne sieci neuronowe (SzSN) i sieci semantyczne, badając struktury sieci i ich algorytmy uczące oraz mechanizmy aktywacji. Jak pokazują liczne zastosowania sieci neuronowych i sieci semantycznych w problemach analizy obrazów, w tym również szereg prac autora, jak dotąd oba narzędzia są niezależne od siebie. Sieci neuronowe stosowane są głównie do zadań analizy na niskich poziomach abstrakcji danych, podczas gdy sieci semantyczne modelują złożoną analizę symboliczną i interpretację lingwistyczną obrazu. Teoria dynamicznych systemów daje zaś właściwe narzędzia techniczne dla opisu niestacjonarnego środowiska (śledzenie i rekursywna estymacja obiektów). W ślad za przyjętą metodologią w tej pracy wyróżnia się dwa znaczenia pojęcia "adaptacyjny". W przypadku sekwencji obrazów o ograniczonej długości oczekuje się opisu stacjonarnego środowiska. Dla tej klasy problemów proponuje się w pracy rozwiązanie zwane analizą w "trybie wsadowym" oparte na zastosowaniu odpowiednich SzSN i ich algorytmów uczących. W przypadku analizy sekwencji o nieskończonej długości oczekuje się stworzenia opisu niestacjonarnego środowiska (złożonego z ruchomych obiektów). W pracy proponuje się rozwiązanie takich zadań w oparciu o teorię dynamicznych systemów. Mówimy o tzw. "rekursywnym trybie analizy", w którym wyniki dla poprzedniego obrazu (lub N obrazów) są adaptowane do opisu następnego obrazu w sekwencji. W zależności od konkretnego zastosowania traktujemy metody analizy w trybie wsadowym bądź to jako realizujące samodzielne zadanie, bądź to jako realizujące specyficzne "pomiary danych" wymagane przez metody rekursywnej analizy. Pierwsza część pracy obejmująca rozdziały 2.-5 dotyczy zagadnień stosowania algorytmów uczących do analizy sekwencji obrazów w trybie wsadowym. Odnosi się do najnowszych doświadczeń autora w dziedzinie przetwarzania obrazów na niskim poziomie abstrakcji danych: rekonstrukcji obrazu na poziomie sygnału, segmentacji i detekcji ruchu w obrazie oraz kompresji i klasyfikacji obrazów. Metody tego rodzaju posiadają biologiczną motywację i stanowią zwiastuny komputerowych odpowiedników mechanizmu percepcji wizyjnej człowieka. W rozdziale 2. zaproponowano ogólny schemat analizy sekwencji obrazów w trybie wsadowym, oparty o uczenie w sztucznych sieciach neuronowych. Na wstępie wyróżniono trzy główne struktury sztucznych sieci neuronowych; jedno-warstwowe sieci typu "feed-forward" i liniowe rekurencyjne, wielowarstwowe sieci typu "feed-forward" oraz nieliniowe sieci rekurencyjne. Dla tych sieci podano zasadnicze techniki ich uczenia - uczenie z nadzorem i bez nadzoru. Następnie podano ogólny schemat analizy N obrazów, w którym wyróżniono moduł sterujący i wiele modułów adaptacyjnej analizy (AAM). Pojedynczy AAM posiada cztery układy: sterowanie, blok główny oparty na sieci neuronowej odpowiedniego typu, przetwarzanie wstępne i przetwarzanie końcowe. Omówienie tego schematu analizy uzupełnione zostaje w rozdziałach 3.-5. opisem trzech zrealizowanych przez autora przykładowych implementacji schematu na niższych poziomach danych (na poziomie sygnałowym, ikonicznym i segmentacji). W rozdziale 3. zaproponowano i przetestowano algorytmy uczące (bez nadzoru) dla SzSN rozwiązujących problem ślepej separacji obrazów z ich mieszanin (BSS), w warunkach gdy nie jest znana dokładna liczba oryginalnych obrazów. (Problem BSS.) Załóżmy, że istnieje m sygnałów źródeł s1(t),... ,sM(t) o zerowej składowej stałej i wzajemnie statycznie niezależnych w badanym przedziale czasu. Te oryginalne sygnały si(t) nie są znane obserwatorowi, ale znanych mu jest n sygnałów xi(t),... ,xn(t) będących zaszumionymi liniowo zmieszanymi źródłami (zwykle n > m). Zadaniem metody BSS jest odtworzenie sygnałów źródeł {si(L)} (z dokładnością do skali amplitudy) na podstawie ich mieszanin xj(t) i (zwykle) podanej liczby m ilości źródeł. W postaci wektorowej model (nieznanego obserwatorowi) mieszania źródeł wynosi: x(t) = As(t)+n(t) =sigma si(t)ai + n(t) W pracy podano i przetestowano trzy adaptacyjne metody rozwiązania podstawowego zagadnienia BSS, wykorzystujące techniki uczenia bez nadzoru wag SzSN: 1. Jedno-warstwowa sieć typu " feed-forward" wykorzystująca algorytm uczący separacji globalnej: deltaW =ni [I-f(y)g(y)T]W. 2. Wielokrotna warstwa typu "feed-forward" dla prostego algorytmu uczącego separacji lokalnej:deltaW = ni[l - f(y)g(y)T]. 3. Dwu-warstwowa sieć typu "feed-forward" z pierwszą warstwą realizującą kompresję i ortogo-nalizację (v = Vx = VAs] oraz drugą warstwą realizującą separację y = Wv z regułą uczącą tzw. nieliniowego PCA: deltaW = nif(y) [vT - f(y)TW] ~ ni[f(y)yT - yf(y)T] W. Obok podstawowego zagadnienia, dla którego addytywny szum jest mały w porównaniu z sygnałem użytecznym, zaproponowano modele separacji i usuwania dużego szumu o charakterze konwolucyjnym. W podstawowym modelu wymagane jest jednoczesne uczenie wag sieci neu- ronowej W i zespołu filtrów typu FIR H(z) służących do usuwania szumu. Sygnał wyjściowy dany jest wzorem: y(t)=Wx(t)-H(z)nr(t) gdzie H (z) = [h1(z), ...,hn(z}]T zawiera wektory współczynników hi(z) = hio + hi1z + hi2z + ... + him, a z1 jest jednostkowym opóźnieniem. W tym modelu zakłada się pomiar szumu nr(t) będącego obrazem konwolucyjnym (splotem) nieznanego szumu środowiska ffl(t), vr(t) zakłócającego także sygnały wejściowe: nr(t)=sigmabrjvr(t-jT)=br(z)vr(t) Podczas uczenia wag W stosuje się jedną z trzech reguł separacji, zaś dla nauczenia wag H zaproponowano wykorzystanie adaptacyjnej reguły "delta". Na koniec rozdziału 3. podano przypadki szczególne i zaproponowano sposób rozwiązania problemu w sytuacji niedomiaru mieszanin (tzw. problem BSE).W rozdziale 4. zaproponowano i przetestowano algorytmy uczące dla problemów kompresji obrazów i klasyfikacji obrazów (na poziomie ikonicznym analizy). Zdefiniowano przekształcenie DKL - wektorowego sygnału wejściowego X(t) w wyjściowy Z (t) jako: Z = DWX, gdzie przekształcenie KL jest wynikiem kompresji typu PCA lub PSA: Y = WX, a następne przekształcenie D jest klasyfikacją według analizy dyskryminacyjnej DA: Z = DY . W celu kompresji obrazów metodami PCA i PSA (tzw. komponentów i podprzestrzeni głównych) zaproponowano i zrealizowano efektywne i dokładne neuronowe algorytmy uczące (bez nadzoru). Dla analizy PCA powstała metoda CRLS PCA, która w odróżnieniu od znanej metody Sangera (wykorzystującej tzw. regułę Oja): (1) wylicza składowe główne po kolei pobierając resztkowy sygnał wejściowy ej zamiast oryginalnego wejścia x(k) (deflacja sygnału wejściowego): ej(k=ej-i(k) Wj, (2) parametr szybkości uczenia nij jest każdorazowo inicjalizowany odpowiednio do spodziewanej wariancji sygnału resztkowego: nij(O)=q2[ej-1]/N=E[yj-1] (3) parametr nij ma charakter adaptacyjny - zanika według metody RLS: ni(k)yj(k)+nij(k-1) Następujący po redukcji przestrzeni reprezentacji etap klasyfikacji wektora realizowany jest dzięki neuronowej metodzie analizy dyskryminacyjnej - wykorzystującej algorytm uczenia kwantyzacji wektorowej z nadzorem. Pojedynczy krok uczący polega na wybraniu dwóch wyjść k, l posiadających wektory wag wejściowych wt, wi najbliższe aktualnej próbce na wejściu xp i porównaniu etykiet reprezentowanych przez nie klas Ck i Ci z etykietą dp aktualnego wejścia oraz zastosowanie reguły: jeśli Ck nie równa się dp i dp= Ci1 to w1(t+1) = w1(t)+ni[xp(t)-w1(t), wk(t+1)=wk(t)-wk(t) Oznacza to przesunięcie właściwego wektora wag wi "w kierunku" wektora wejściowego, zaś odsunięcie od xp wektora wag wk związanego z niewłaściwą klasą. Rozdział 5. dotyczy zagadnień detekcji ruchu w płaszczyźnie i klasyfikacji segmentów obrazu w oparciu o mapę ruchu (poziom segmcntacji obrazu). Zaprezentowano implementacje kilku detektorów ruchu na poziomie pikseli obrazu. Zaproponowano także algorytm relaksacyjny dla nieliniowej sieci rekurencyjnej, w celu estymacji ruchu w obrazie. Metody detekcji i estymacji ruchu w obrazie mają zasadniczo zastosowanie w analizie sekwencji pochodzącej z nieruchomej kamery. Przetestowano również dokładność tych metod dla obrazów pochodzących z ruchomej kamery. W celu wykorzystania mapy ruchu dla segmentacji obrazu na ruchome obiekty i nieruchome podłoże zaproponowano dwie metody korekcji geometrii obrazów. W drugiej części pracy, obejmującej rozdziały 6. -9., skoncentrowano się na analizie sekwencji obrazów o nieskończonej długości. Odzwierciedla ona dorobek autora w zakresie modelowania analizy sekwencji obrazów - sposoby reprezentacji wiedzy i strategie sterowania analizą oraz zagadnienie śledzenia i estymacji stanu systemów dynamicznych - a także doświadczenie w tworzeniu konkretnego systemu przeznaczonego do dynamicznej analizy obrazów ruchu drogowego. W rozdziale 6. zdefiniowano schemat rekursywnego rozpoznawania obiektów dla analizy w trybie rekursywnym sekwencji obrazów o nieskończonej długości. Jest to najbardziej dojrzała wersja schematu, rozwijanego przez autora podczas swoich prac nad rozpoznawaniem sekwencji obrazów. Jedynie elementy tego schematu publikowane już były w pracach autora. Wyróżniono dwa stopnie złożoności modelu rozpoznawania obiektów: (1) śledzenie pojedynczego dynamicznego obiektu i (2) poszukiwanie zgodnego opisu obrazu przy jednoczesnym występowaniu wielu obiektów dynamicznych. Zagadnienie śledzenia pojedynczego obiektu sprowadza się do dokonania właściwego pomiaru występowania obiektu w pojedynczym obrazie i do odświeżenia estymowanego wektora stanu obiektu. Pokazano, że może tu znaleźć zastosowanie jeden z dwóch rekursywnych estymatorów, (a) zgodny z rozszerzonym filtrem Kalmana dla nieliniowych systemów, gdy można jednoznacznie określić wiarygodność każdego pomiaru, lub (w przeciwnym razie) (b) filtr minimalizujący różnicę (błąd) między pomiarem a estymacją stanu zgodnie z zasadą minimalizacji błędu kwadratowego RLS. Z uwagi na nieuchronną niedokładność przypisania pomiaru w obrazie do modelu obiektu konieczne jest tworzenie wielu hipotez danego obiektu. W sytuacji, gdy z założenia w obrazie może wystąpić tylko pojedynczy obiekt, wybór najlepszej hipotezy nie nastręcza trudności. Sytuacja zmienia się, gdy w obrazie może pojawić się z góry nieznana liczba obiektów. Potrzebny jest dodatkowy krok analizy - poszukiwanie największego zgodnego podzbioru hipotez obiektów. Sytuację dodatkowo może skomplikować fakt istnienia modeli obiektów o złożonej strukturze, tzn. obiektów dla których wyróżniono pod-obiekty (np. obiekt "koło" jest pod-obiektem "pojazdu kołowego") lub obiekty bardziej specjalizowane; np. "samochód osobowy" jest wersją specjalizacją obiektu "samochód"). Dlatego też podano w pracy ogólne rozwiązanie wspomnianego kroku analizy w postaci algorytmu optymalnego przeszukiwania przestrzeni (grafu) możliwych rozwiązań częściowych, reprezentujących możliwe dopasowania segmentów obrazu do obiektów zawartych w bazie modeli systemu. W pracy zaproponowano i opisano kilka algorytmów optymalnego przeszukiwania grafów, zwanych A, B, C, D. W końcowej części pracy, w rozdziałach 7. - 9., opisane są projekty trzech zrealizowanych implementacji powyższego schematu rozpoznawania obiektów w ramach systemu analizy obrazów ruchu drogowego w warunkach ruchu własnego. Omówiono w pracy metody zrealizowane przez autora, zwracając szczególną uwagę na ich implementacje ogólnego schematu rozpoznawania obiektów. Te trzy aplikacje dotyczą trzech wyższych poziomów abstrakcji danych systemu analizy (segmentacja, rozpoznawanie obiektu i opis sceny). W rozdziale 7. zaimplementowano generalny schemat rozpoznawania, dla śledzenia 2-wymiarowych segmentów w obrazie i rozpoznawania punktu zbieżności drogi w płaszczyźnie obrazu (poziom scgmentacji obrazu), W rozdziale 8. zaimplemontowano schemat rozpoznawania w dwóch rozwiązaniach opartych na modelach rozpoznawanego zakresu świata - rozpoznawanie drogi i ruchomych 3-wymiarowych obiektów (poziom rozpoznawania obiektów) Trzecia implementacja schematu rozpoznawania obiektów ma miejsce na poziomie interpretacji scen {rozdział 9). Dla generacji opisów scen ruchu drogowego zaproponowano aplikacyjny system z bazą wiedzy oparty o reprezentacje proceduralnych sieci semantycznych. Zdefiniowano system użytkowy w specyficznym systemie-matce ERNEST, po uzupełnieniu go o nadążny algorytm sterowania analizą sekwencji obrazów. W tym celu bazowy algorytm sterowania rozszerzono o mechanizm przenoszenia wyników analizy i uwzględniono nową regułę inferencji zwaną odświeżaniem, realizującą modyfikację i predykcję śledzonych obiektów. Następnie zaproponowano sieć semantyczną reprezentującą model opisywanego świata. Pojęcie obiektu w takim systemie w sposób naturalny odnosi się do egzemplarzy jednostek opisu, generowanych podczas analizy.

Słowa kluczowe

techniki obliczeniowe obraz cyfrowy analiza komputerowa

Wydawca

Oficyna Wydawnicza Politechniki Warszawskiej

Czasopismo

Prace Naukowe Politechniki Warszawskiej. Elektronika

Rocznik

2000

Tom

z. 127

Strony

3--170

Opis fizyczny

Bibliogr. 222 poz., rys., schem.

Twórcy

autor

Kasprzak W.

Instytut Automatyki i Informatyki Stosowanej Politechniki Warszawskiej

Bibliografia

Typ dokumentu

Bibliografia

Identyfikator YADDA

bwmeta1.element.baztech-article-PWA2-0020-0004