Wrocław, 9 czerwca 2008r.

Raport opracowany na zaliczenie przedmiotu: ARE3513 "Metody i algorytmy sztucznej inteligencji".

Autor: Filip Romanowski, nr albumu 140401, specjalność Robotyka (ARR).

Rozpoznawanie niektórych znaków polskiego jednoręcznego alfabetu palcowego

Wroclaw, June 9 2008

This report has been prepared as a requirement for the course: ARE3513 "Methods and algorithms of artificial intelligence."

Author: Filip Romanowski.

Identification several letters of polish sign language

Abstract

The aim of this research study was to build a vision-based hand gesture recognizer. I have implemented one simple method - recognizing using artificial neural network with monocular camera image input. Whole thing works quite simply: the resolution of captured image is changed form 320x240 to 30x20 (that gives us 30*20 = 660 input neurons) and this image is transformed from BGR to gray-scale. That image (image can be represented by a matrix) is connected to an input layer of artificial neural network - each of 660 pixels is attached to one of 660 inputs of the network. For image processing I have choosen OpenCV library, and for artificial neural network implementation, I have choosen FANN library.

Spis Treści

1. Cel projektu.

2. W kilku słowach o sztucznych sieciach neuronowych - biblioteka FANN.

3. Zwięźle o bibliotece OpenCV.

4. Krótko o polskim jednoręcznym alfabecie palcowym.

5. Sposób realizacji.

6. Eksperymentalne obieranie architektury sieci.

7. Eksperymenty i wnioski.

8. Literatura i przydatne linki.

9. Zdjęcia stanowiska do badań.

1. Cel projektu.

Projekt miał za zadanie stworzenie aplikacji do rozpoznawania gestów niektórych znaków polskiego jednoręcznego alfabetu palcowego w układzie wizyjnym. Aplikacja potrafi:

pobierać obraz z kamery internetowej;
przetwarzać pobrany obraz (zmiana z kolorowego na szary);
na podstawie dostarczonego obrazu uczyć sieć neuronową;
przy użyciu nauczonej wcześniej sieci neuronowej, rozpoznawać kilka znaków alfabetu palcowego.

2. W kilku słowach o sztucznych sieciach neuronowych - biblioteka FANN.

Całą wiedzę teoretyczną na temat sztucznych sieci neuronowych można zdobyć korzystając z zasobów sieci (patrz odnośniki na końcu niniejszego raportu), wiec nie będę jej w tym miejscu przytaczał. FANN (Fast Artificial Neural Network) jest to biblioteka, napisana w języku C, implementująca sztuczną sieć neuronową. Biblioteka ma zaimplementowany algorytm uczenia z propagacją wsteczną (odmiany: RPROP, Quickprop, Batch, Incremental). Całość jest łatwa w użyciu (zaledwie kilka instrukcji by tworzyć, trenować czy testować sieć). Sieć posiada kilka rodzajów funkcji aktywacji. Bardzo przydatną funkcją jest możliwość wczytywania i zapisywania całej sieci w jednym pliku tekstowym (możliwość podglądu zawartości). Ponadto w wersji FANN 2.1 dostępny jest także interfejs graficzny pozwalający wizualizować powstałą sieć. Program został napisany przy użyciu środowiska DEV C++. Pojawił się problem z załączaniem plików nagłówkowych do programu, który rozwiązałem przez bezpośrednie dołączenie zawartości biblioteki do programu (instrukcją #include "lib/doublefann.c").

3. Zwięźle o bibliotece OpenCV.

OpenCV, czyli Open Source Computer Vision Library, to biblioteka napisana w C/C++, która znacznie ułatwia projekty związane z przetwarzaniem obrazów. Jest ona zoptymalizowana pod kątem operacji w czasie rzeczywistym. Posiada własny system zarządzania okienkami, niezależny od systemu operacyjnego. Biblioteka posiada wiele przydatnych funkcji, pozwalających m.in. na:

przechwytywanie strumieni obrazów z kamer;
pobieranie z tychże strumieni obrazów pojedynczych klatek;
zapis i odczyt strumieni obrazów a także pojedynczych klatek na/z dysku;
wykonywanie różnych operacji na obrazach (operacje logiczne, splot, zmiana przestrzeni kolorów, np. BGR -> HSV);
wyświetlanie wyników w oknach;
rysowanie w obrazach zarówno figur geometrycznych jak i dowolnych kształtów.

4. Krótko o polskim jednoręcznym alfabecie palcowym.

W mojej aplikacji wykorzystałem tylko 6 znaków. Nauczona siec neuronowa potrafiła rozpoznawać znaki
'A', 'C', 'L', 'O', 'R', 'W',
co daje w rezultacie umiejętność wypisania na ekranie np. słowa 'WROCLAW'.

Użyte znaki: (obrazki pochodzą ze strony link)

5. Sposób realizacji.

Aplikacja została stworzona z myślą o testowaniu samej sieci neuronowej, nie rozwijałem interfejsu graficznego, gdyż w tym projekcie jest to całkowicie zbędne. Zrezygnowałem też z kłopotliwego problemu dowolnego tła, pozostając przy tle stałym, czarnym. Etapy działanie programu:

generowanie pliku treningowego (podawanie kolejnych próbek znaków na wejście);
nauczanie sieci;
testowanie wytrenowanej sieci (można pominąć dwa poprzednie etapy, wtedy program działa na sieci wytrenowanej i nauczonej przy poprzednim uruchomieniu).

Obróbka obrazu: obraz z kamery internetowej (320x240) jest wyświetlany na ekranie, a następnie poddawany zmianie rozdzielczości na rozdzielczość 30x22 co daje 660 punktów na klatkę. Tak spróbkowany obraz BGR (kolejność kolorów w OpenCV jest odwrotna niż na ogół) jest zamieniany na obraz w skali szarości. Tak przetworzona klatka obrazu podawana jest na wejście sieci neuronowej (tak więc na wejścia sieci podawane są wartości z zakresu 0 - 255). Jeśli znak jest rozpoznawany przez sieć, na jednym z jej sześciu wyjść (6 wyjść dlatego że sieć potrafi rozpoznać 6 znaków) pojawi się wartość 1, a na pozostałych -1. Program interpretuje ciąg wartości na wyjściu sieci i wyświetla odpowiednią, wcześniej przypisaną literkę. W kodzie programu zmieniać można parametry sieci neuronowej. Schemat działania aplikacji przedstawia poniższy rysunek.

Do uczenia sieci trzeba przygotować po jednym wzorcu dla każdego z rozpoznawanych znaków. Podawanie więcej niż jednego wzorca nie przyniosło spodziewanych rezultatów - sieć trudno było wtedy dobrze nauczyć, prawie zawsze się myli. Po zapisaniu pliku uczącego można przystąpić do uczenia. Wskazujemy z którego pliku sieć ma się uczyć, sieć robi to sama aż do osiągnięcia zadanego jej błędu (u mnie 0.00000001).

6. Eksperymentalne obieranie architektury sieci.

Po napisaniu prototypowego programu, przystąpiłem do fazy testów sieci. Na początku stworzyłem układ próbny, który rozpoznawał białe figury geometryczne na czarnym tle. Obraz po zmianie rozdzielczości oraz zmianie na skalę szarości poddawany był także binaryzacji. Na wejście sieci podawane były dane dwuwartościowe {-1,1}. W wersji końcowej aplikacji z binaryzacji zrezygnowano i na wejście sieci podawałem obraz w skali szarości. Sieć neuronowa miała ustawione następujące parametry:

liczba wejść: 320 (obraz próbkowany był do rozdzielczości 20x16, co później okazało się za mało);
liczba wyjść: 6;
liczba warstw ukrytych: 1;
liczba neuronów w sieci ukrytej: 80;
funkcja aktywacji: sigmoidalna symetryczna.

Tak przygotowana sieć potrafiła rozpoznać większość podanych na wejście figur, jednak często myliła ze sobą podobne figury. Już na tym etapie zauważyłem, że faza uczenia sieci jest fazą kluczową dla działania całej aplikacji - niewłaściwie nauczona sieć (niestarannie przygotowane dane uczące), bardzo często myli ze sobą figury.

Do aplikacji wprowadzono więc kilka zmian:

zwiększono rozdzielczość obrazka podawanego na wejście (początkowo do rozdzielczości 40x32 co daje 1280 punktów, jednak sieć o tak dużej ilości wejść nie dała się poprawnie nauczyć, tak więc przyjąłem rozdzielczość 30x20);
obraz podawany na wejście sieci nie był binarny, tylko w skali szarości (pozwoliło to na spostrzeganie różnic między wejściami, których sieć z wejściem binarnym nie mogła zauważyć).

Zmieniono także parametry samej sieci neuronowej. Sieć po zmianach:

liczba wejść: 660;
liczba wyjść: 6;
liczba warstw ukrytych: 1;
liczba neuronów w sieci ukrytej: 300;
funkcja aktywacji: sigmoidalna symetryczna.

Dla tak przygotowanego programu przeprowadziłem ostateczne testy.

7. Eksperymenty i wnioski.

Eksperymenty przeprowadzono dla następującej sieci:

liczba wejść: 660;
liczba wyjść: 6;
liczba warstw ukrytych: 1;
liczba neuronów w sieci ukrytej: 300;
uczenie aż do osiągnięcia błędu: 0.00000001;
funkcja aktywacji: sigmoidalna symetryczna.

Wnioski:

zwiększanie liczby neuronów ma znaczący wpływ na długość uczenia się sieci (przykładowo, końcowa sieć mająca 660 wejść, 300 neuronów w warstwie ukrytej, 6 wyjść, uczy się około 800 epok, natomiast sieć z 320 wejściami oraz 80 neuronami ukrytymi i 6 wyjściami uczy się około 300 epok);
sieci można trochę pomóc i ułatwić jej zadanie odpowiednio sprytnie ją ucząc: aby łatwo odróżnić znak L od C wystarczy podawać jeden ze znaków obrócony względem drugiego, wtedy możliwość pomylenia tych dwóch znaków jest mniejsza (jednocześnie należy zauważyć że jest to trochę bez sensu bo celem tego zadania było nauczenie sieci odróżniania od siebie znaków, nawet jeśli są one do siebie podobne);
newralgicznym punktem całej sieci jest moment uczenia: źle nauczona sieć będzie często się myliła; należy w bardzo staranny sposób tworzyć pliki uczące, tak aby już na etapie uczenia sieć mogła łatwo odróżnić poszczególne znaki;
podobne znaki alfabetu palcowego są ze sobą mylone (najczęściej C z L oraz znak A, który zawiera się w wielu innych znakach, tzn. na przykład znak C zawiera znak A i ma dodatkowo wysunięte dwa palce);
dobrze nauczona sieć rzadko (około 95% skuteczności) się myli gdy poda jej się na wejście znak bardzo podobny do wzorca uczącego(najczęściej przy zmianie ułożenia dłoni z jednego znaku w inny), a jakość rozpoznawania mocno zależy od oświetlenia sceny (aby tego uniknąć należałoby wprowadzić algorytmy rozpoznające skórę; pewnym udogodnieniem mogłoby być przejście z przestrzeni BGR do przestrzeni HSV).
cały program, mimo że dość złożony obliczeniowo (operacje na obrazach, zwłaszcza kolorowych, są dużym obciążeniem dla procesora), działał płynnie na nienajnowszym laptopie Compaq Armada (Pentium II, 300MB RAM - widoczny na zdjęciu); świadczy to o dobrze napisanych bibliotekach FANN oraz OpenCV.
w projekcie nie udało się zrealizować rozpoznawania znaków języka palcowego z satysfakcjonującym rezultatem - sieć nie zawsze działała poprawnie; przyjęta przeze mnie metoda jest prosta, ale jednocześnie tak prymitywna (podawanie kolejnych pikseli obrazu na wejście sieci) i podatna na zakłócenia, że często się myli; błąd leży prawdopodobnie w źle przyjętej metodzie działania - należało raczej wybrać wektor cech z obrazu i te cechy podawać na wejście sieci (patrz obrazek poniżej);

przy odpowiednio dobranych cechach, można by skuteczniej rozpoznawać znaki (a także inne obrazy), nie przejmując się rozkładem oświetlenia, nasyceniem barw etc.

8. Literatura i przydatne linki.

Literatura:

Tadeusiewicz Ryszard, "Sieci neuronowe", Warszawa, Akademicka Oficyna Wydawnicza, 1993;
Anna Bartkowiak, "Sieci neuronowe";
Tadeusiewicz Ryszard, "Komputerowa analiza i przetwarzanie obrazów", Kraków, Wydawnictwo Fundacji Postępu Telekomunikacji, 1997.

Przydatne linki:

sztuczne sieci neuronowe (ANN)

Adres odnośnika	Opis
www.kik.pcz.czest.pl	Znajdują się tu informacje, które pomogą zapoznać się z podstawami sieci neuronowych.
leenissen.dk	Strona domowa biblioteki FANN.
www.lukas-home-page.ovh.org	Krótko i zwięźle o sieciach.
edward_ch.republika.pl	Znajdują się tu informacje, które pomogą zapoznać się z podstawami sieci neuronowych.
panda.bg.univ.gda.pl	Podstawy sieci neuronowych.
nrn.prv.pl	Chyba najlepsza polska strona o tematyce sieci neuronowych. Także w wersji off-line.
aragorn.pb.bialystok.pl	Wykłady z Politechniki Białostockiej o sieciach.
saturn.mech.pk.edu.pl	Sztuczne sieci neuronowe w Matlabie - przykłady.
prdownloads.sourceforge.net	Dokumentacja biblioteki. Pełny opis wraz z wyczerpującymi przykładami.

OpenCV (wszystkie materiały po angielsku)

Adres odnośnika	Opis
www.cs.iit.edu	Wprowadzenie do programowania używając OpenCV.
www.site.uottawa.ca	Pomocny przewodnik krok po kroku po OpenCV
opencvlibrary.sourceforge.net	Dokumentacja biblioteki (bardzo przydatny opis instalacji).
www.xpercept.com	Opis najczęściej używanych funkcji.
www.seas.upenn.edu	CV Manual.
www710.univ-lyon1.fr	Opis najczęściej używanych funkcji.
vision.cis.udel.edu	Opis najczęściej używanych funkcji.

polski jednoręczny alfabet palcowy

Adres odnośnika	Opis
21wdw.staszic.waw.pl	Kompletny zbiór rysunków ze znakami polskiego jednoręcznego alfabetu palcowego.
www.pzg.org.pl	Animacja pokazująca wszystkie znaki polskiego jednoręcznego alfabetu palcowego. Przydatna aby nauczyć się także znaków dynamicznych.

pozostałe (podobne raporty)

Adres odnośnika	Opis
sequoia.ict.pwr.wroc.pl	Gra z komputerem w popularną grę Papier, Kamień, Nożyce.
www.statsoft.pl	Rozpoznawanie znaków Polskiego Alfabetu Palcowego.
www.isep.pw.edu.pl	Rozpoznawanie dłoni.
www.euron.org	Visual Perception System for a Social Robot (VISOR) - Final Report.

9. Zdjęcia stanowiska do badań.

Widok stanowiska do testów (jako czarne tło zaadaptowano ring do walk robotów minisumo):

Widok pulpitu podczas testów: