[MÚSICA] Hola. Bienvenidos al curso de clasificación de imágenes de Coursera y la Universidad Autónoma de Barcelona. Primero que todo, muchas gracias por vuestro interés en este curso. Espero que lo encontréis interesante y satisfaga vuestras expectativas. Yo soy Jordi Gonzalez, profesor de la Universidad Autónoma de Barcelona y os explicaré esta semana las principales estrategias de fusión más interesantes y útiles que se han propuesto los últimos años. El objetivo de esta semana es sentar las bases teóricas que permitirán entender las ventajas e inconvenientes de la combinación de distintas fuentes de información a distintos niveles de representación, siempre dentro del esquema de bag of words del curso. El objetivo será poder mejorar el rendimiento de los algoritmos que habéis visto hasta ahora, además de potenciar la capacidad de representación y de discriminación de los descriptores de imágenes vistos anteriormente. Empezaremos definiendo el concepto de fusión. Este término genérico abarca una variedad muy amplia de algoritmos que por lo general combinan información de distintas fuentes. La literatura en este campo es inmensa ya que la fusión se utiliza en muchas ramas de la ingenierÃa desde hace décadas. Sobre todo, lo veréis relacionado con la integración de información generada por sensores de diferentes tipos. Un ejemplo tÃpico de aplicación para entender el concepto de fusión serÃa en el reconocimiento biométrico, en el que, para identificar a una persona se puede utilizar distintas fuentes, ya sean las huellas dactilares o la voz o el análisis de la firma. AsÃ, para resolver un problema de ingenierÃa, se analiza primero la posibilidad de disponer de distintas fuentes que aporten información complementaria. En el ejemplo anterior hablarÃamos de imágenes dactilares, la señal acústica o incluso la dinámica de la firma. En este curso, centrado en el esquema de bag of words, lo veremos aplicado de 3 maneras diferentes. Primero, veremos cómo se pueden combinar distintos descriptores para que nos aporten información complementaria sobre una imagen. Después, nos centraremos en cómo se puede extender el vocabulario visual del bag of words para mejorar las propiedades discriminativas de los histogramas que se utilizan para representar las imágenes. Y finalmente, veremos cómo se pueden combinar distintos clasificadores que nos permitirá trabajar con clasificadores muy especializados en tipos de información especÃfica, y después analizaremos las respuestas o confidencias de cada clasificación para tomar la decisión final. En el ámbito de la visión por computador la fusión es un paso muy recomendable, debido a la naturaleza tan compleja de los datos con los que trabajamos. Es decir, hay clases de objetos o escenas para las que su distribución de muestras es altamente compleja y variada. Es decir, no existe un único patrón concreto que pueda representar dicha clase. Por ejemplo, si el objetivo fuera clasificar imágenes que contengan el objeto bicicleta, observamos una alta variabilidad en la apariencia de las bicicletas que aparecen en estas imágenes, por ejemplo. Aunque una bicicleta es un objeto rÃgido y muy bien definido, fácilmente identificable por su apariencia, en principio podÃamos pensar, utilicemos descriptores de forma. Pero, como vemos en las imágenes, las condiciones de adquisición difieren enormemente en cada imagen, y de alguna manera, deforman en extremo el espectro del objeto dificultando asà el aprendizaje de un clasificador a partir de descriptores de apariencia o de forma. En este otro ejemplo, no existe un patrón claro que represente la clase ciudad, ya que existe un alto nivel de variabilidad entre imágenes urbanas. Analizando mejor estas imágenes, se acostumbra aparecer formas rectangulares, ángulos rectos, asà como una presencia destacable de regiones azules correspondientes al cielo. Por último, aquà vemos imágenes que representan, dirÃamos, la clase más estudiada de visión por computador, las persona humanas. De naturaleza articulada, una persona aparece en una amplia variedad de formas, colores, texturas, lo que dificulta abordar el problema teniendo en cuenta únicamente un único tipo de descriptor. Por tanto, no podemos confiar en que exista un único de descriptor que sea tan potente como para describir de manera única, todas las imágenes donde aparece un mismo tipo de objeto, debido a condiciones de adquisición muy diferentes. Además, los descriptores acostumbran a ser genéricos, es decir, que pueden ser definidos para representar objetos de cualquier tipo, por lo que, de alguna manera, pierden el poder discriminativo de distinguir a una clase de otra. Por otra parte, hemos visto en semanas anteriores que el uso de vocabularios visuales permite representar en forma de histograma aquellos descriptores que son comunes en imágenes de una misma clase. Pero como ya hemos visto, por ejemplo para la clase ciudad, existen categorÃas para las que la variabilidad de las imágenes es tan alta, que son más las regiones diferentes entre imágenes de una misma clase, que no aquellas regiones o formas comunes entre imágenes que nos permita generar una representación robusta. Por último, aunque el uso de clasificadores complejos como las máquinas de lectores de soporte, con kernels no lineales muy complejos, nos permiten discriminar distribuciones con muestras muy diferentes, la mayorÃa de veces aprender un único clasificador por clase, no será suficiente. Pensemos, por ejemplo, la clase persona en la que un único clasificador es claramente insuficiente para aprender a la vez una cara, o un torso o en general cualquier postura que pueda adoptar un cuerpo humano. AsÃ, esta semana veremos cómo aprovechar el uso de diferentes modelos que, combinados todos ellos, permitirán representar mejor tanta variabilidad, haciendo que el rendimiento de un clasificador mejore cuando combinamos estos modelos ya que haremos que cada uno de ellos se especialice en una fuente de información determinada. Como hemos dicho anteriormente, la fusión se presenta en esta semana dentro del contexto de la bag of words. Aquà podemos ver el esquema básico que se explicó en la primera semana de curso. Básicamente, primero extraemos unos descriptores de la imagen para después representarlos de forma compacta utilizando un vocabulario visual. Es decir, generando un histograma por imagen que permita representar cuántas veces aparecen regiones similares entre imágenes en una misma clase. Este histograma es la base de un clasificador que, a su vez, permite generar un modelo que asocia los histogramas generados de todas las imágenes a una etiqueta común. Este esquema nos ayudará para representar los distintos niveles en los que vamos a aplicar la fusión como veremos a continuación. El primer tipo de fusión que veremos es el que combina distintos tipos de descriptores extraÃdos a partir de la imagen. Por ejemplo, vemos en estas imágenes cómo el objeto a clasificar mantiene constante el color y la forma en todas las imágenes. AsÃ, el color blanco de una oveja, permite diferenciar esta clase de, por ejemplo, la categorÃa perro. En el caso de las flores, el descriptor de forma es suficientemente representativa para esta clase, pero el color amarillo, hay que tenerlo en cuenta porque nos permite diferenciarla de, por ejemplo, otras flores como una rosa. AsÃ, vemos que para estas categorÃas, tiene sentido no solo utilizar un único descriptor, ya sea o de color o de forma, sino tener en cuenta ambos, ya que permiten extraer información caracterÃstica y discriminativa del objeto. Por otra parte, existen ciertos tipos de clases para los que es imposible determinar forma y color que sean constantes para todas las imágenes de una misma categorÃa. Por ejemplo, vemos en estas imágenes de motocicletas y coches, que aunque la forma se mantiene constante para cualquier instancia de estas clases, el color puede ser tan diferente que combinar el descriptor de color con el de la forma nos harÃa perder el potencial discriminativo del descriptor. Coches pueden ser de distintos colores. Para estos casos, tendrá sentido calcular el vocabulario visual independientemente para cada tipo de descriptor que consideremos y después, los combinaremos como veremos a nivel del histograma. AsÃ, entrenamos el clasificador con histogramas que contendrán una parte común para todas la imágenes de una clase, por ejemplo representando las ruedas, que nos permitirá especializar y discriminar mejor el objeto, pero además de la forma, los histogramas contendrán parte correspondiente al color que nos permitirá generalizar al clasificador para que pueda identificar correctamente la categorÃa del objeto, aunque el color sea diferente pero esté dentro de un rango de valores determinados. Por último, cuando la variabilidad de las imágenes para una misma clase sea tan alta que no se identifiquen caracterÃsticas comunes para todas la imágenes, es decir, que sean diferentes en forma, en textura, en color, como por ejemplo vemos en estas imágenes de la clase tren y botella, para estos casos, una buena estrategia será aprender un clasificador para cada tipo de caracterÃstica, o incluso, varios clasificadores juntos. De esta forma, podemos llegar a especializar uno o varios clasificadores para un tipo concreto de imágenes dentro de una misma clase, donde el objeto acostumbrará tener una apariencia similar y posteriormente los combinaremos todos. La gran mayorÃa de la literatura sobre fusión se centra en este último paso, por lo que veremos en los dos últimos vÃdeos de esta semana diferentes estrategias de combinación de clasificadores con las que obtendremos los mejores resultados. Resumiendo, en esta semana veremos 3 estrategias de fusión. En el siguiente vÃdeo veremos cómo combinar distintos descriptores antes de construir el vocabulario. Esto se llama Early Fusion o fusión temprana. Posteriormente, se explicará cómo combinar distintos vocabularios visuales generados a partir de descriptores de distintos tipos que nos permitirá identificar regiones comunes entre imágenes de una misma clase, a la vez, permitirá un cierto grado controlado de generalización en la representación. Esta estrategia se acostumbra llamar fusión intermedia o Intermediate Fusion. Y finalmente, en los dos últimos vÃdeos de esta semana, veremos cómo combinar distintos clasificadores que previamente se habrán especializado en diferentes aspectos de las imágenes de una misma clase. Esta familia de estrategias, llamadas Late Fusion o fusión tardÃa, nos permitirá que se pueda modelizar una gran variabilidad de contenido visual para una misma clase. Finalizamos este vÃdeo repasando los conceptos más importantes que se han presentado. En primer lugar, se ha puesto de relieve que no existe un único descriptor, ni un único vocabulario visual, ni un único clasificador, que sean lo suficientemente potentes como para modelizar la altÃsima variabilidad que existen en las imágenes correspondientes a determinadas clases visuales. Por este motivo, se ha justificado que existe la necesidad de combinar distintas fuentes de información para incrementar el rendimiento de la clasificación de imágenes, ya que muchas veces resulta beneficioso tener en cuenta distintos aspectos de una imagen para poder mejorar la representatividad de una clase concreta. Y finalmente, hemos visto las 3 estrategias básicas de fusión que veremos durante esta semana. Será la Early, a nivel de descriptor, Intermediate, a nivel de vocabulario y la Late a nivel de clasificador. Empecemos pues.