RdE

El Reconeixedor d'Edificis

View the Project on GitHub gdsa-upc/RdE

Què és?

RdE és un programa basat en la visió per computadora que té com a objectiu reconèixer els edificis de Terrassa havent proporcionat una sola imatge capturada amb el teu mòbil, càmera o dispositiu digital. Un software en producció, que canviarà la forma de veure i relacionar-nos amb aquesta ciutat, estructurat en 4 grans blocs

1. Base de Dades. Creació d'una base de dades i recopilació mostres representatives dels edificis de la ciutat per poder partir des d'una base real i optimitzar els nostres resultats.

2. Extractor de característiques. Extracció de la informació de la imatge a partir de d'un codi Payton d'extracció de característiques que ens trobarà els punts d'interès de la imatge i generarem un vector de característiques.

3. Aplicació. En funció del resultat que esperem aconseguir haurem d'utilitzar una part de l'aplicació o una altra. En aquest cas en tenim dues: el classificador i el buscador. La primera ens dirà a quin edifici pertany la imatge, i la segona ens treurà el nom de les imatges de la base de dades que més s'assemblin.

4. Resultat. I finalment ja podrem mostrar el resultat a qui així ho desitgi.

El nostre projecte pas a pas

Aquí podreu trovar els links que us rediccionaran a les presentacions setmanals on és mostra el treball realitzat setmana per setmana.

Progress Report Demo
Sessió 3 Demo
Sessió 4 Demo
Sessió 5 Demo
Sessió 6 Demo
Sessió 7 [Search] [Classifier] [Feature]

Entenem el projecte?

El nostre projecte es basa en la tecnología de l'extracció de característiques. Sigui quina sigui l'aplicació començarem per l'anàlisi d'una, o varies imatges per extreure'n els seus punts d'interé i emmaguetzarem en un descriptor. Aquests descriptor serà el que comparant-los amb les imatges de la base de dades ens donaran els resultats.

La part de l'extracció de característiques queda subdividida en 4 passos, que aquí trobareu explicat més detalladament :

Get Local Features - Train Codebook - Assignments - Create a BoW

Després arribem a les dues aplicacions del nostre projecte.

Cercador

Donada una imatge aquesta aplicació mostrarà per pantalla les imatges que més s'assemblin a aquesta i ordenades per ordre descendent en similitud. Això ho aconseguim a base de calcular la distància entre descriptors de les diferents imatges i fent un ranking de totes les mostres de la nostra base de dades.

(imatges)

Un cop feta l'evaluació d'aquesta part ens dona un resultat general del valor de: Mean Average Precision(MAP): 0.2375

Classificador

Donada una, o varies, imatges ens les classificarà en les diferents classes d'edificis de Terrassa en funció de la seva semblança a les imatge de la nostra base de dades. Per arribar a assolir-ho entrenarem un classificador amb totes les imatges de les que disposem perquè sigui el més robuste possible a la fase d'entrenament(train_classifier). I un cop fet això classificarem les imatge en base a aquest classificador

Un cop evaluat aquest apartat ens han donat els següents resultats:

Mesura Valor
F1_Score 0.4178
Accuracy 0.4555
Precision 0.4774
Recall 0.4555

Qui som?

Aquest projecte l'estem preparant 4 estudiants de 3er d'Enginyeria de Sistemes Audiovisuals de l'Escola d'Enginyeria de Terrassa. A l'assignatura de Gestió i Distribució de Senyals Audiovisuals amb els professors Xavier Giró i Amaia Salvador. Nosaltres som el Gerard Rosell, l'Ariadna Xicota, el Mateo Montón i l'Abdessadek El Atiki.

Gràcies per visitar el nostre web.