X hits on this document

75 views

0 shares

0 downloads

0 comments

7 / 35

Estado actual de los algoritmos de Reconocimiento de Rostro usando Tecnologı´a GPU

3

doble precisio´n IEEE-754 del punto flotante a la capacidad de la aritme´tica comparable a la proporcionada por la instruccio´n de la CPU.

2.1.

Arquitectura de la GPU

Desde la perspectiva fı´sica de estos dispositivos o hardware se puede afirmar que una unidad de procesamiento gra´fico o GPU (Graphic Processing Units) se compone de un nu´mero limitado de multiprocesadores, cada uno de ellos consta de un conjunto de procesadores

´ simples que operan de la forma Unica Instruccio´n, Mu´ltiples Datos o SIMD, es decir,

todos los procesadores de un multiprocesador ejecutan de manera sincronizada la misma aritme´tica o la operacio´n lo´gica al mismo tiempo, operando potencialmente sobre datos diferentes. Por ejemplo, la GPU de la generacio´n ma´s reciente GeForce GTX 295 con dos GPU y 30 multiprocesadores de 8 unidades de procesamiento cada uno, resumiendo un importe total de 480 procesadores dentro de una GPU. Su nivel de proceso alcanza casi los 2 teraflops, lo que la convierte en la tarjeta ma´s ra´pida y potente dise˜nada hasta el momento. La GPU GTX 295 es la nueva generacio´n de la arquitectura de NVIDIA Tesla, incorporado en la GeForce GTX serie 2x0. La arquitectura de la GPU GTX295 es similar en muchos aspectos a sus predecesores G80 y G92, que fueron los primeros con soporte para NVIDIA CUDA (Compute Unified Device Architecture) para el ca´lculo de la GPU. Al igual que con los dise˜nos de la generacio´n anterior, GTX 295 esta´ compuesto de un gran nu´mero de unidades de procesamiento programable que se agrupan y comparten recursos. Los multiprocesadores en un grupo de procesador de textura se ejecutan completamente independiente el uno del otro, aunque comparten algunos recursos. La transmisio´n de los multiprocesadores de la GTX295 y sus predecesores aplican una sola instruccio´n de mu´ltiples hilos de ejecucio´n (SIMT) a una unidad de instruccio´n para lograr un uso eficiente.

Un rasgo clave de la arquitectura de las GPUs modernas es la utilizacio´n de mu´ltiples sistemas de memoria de alto ancho de banda para mantener la gran variedad de unidades de procesamiento con los datos suministrados. La arquitectura GTX295 es compatible con un gran ancho de banda de (223.8 GB/s). El sistema de memoria principal es complemen- tado con hardware dedicado a texturas que ofrecen las unidades de almacenamiento en cache´ de so´lo lectura, con soporte de hardware para la localidad espacial multidimensional de referencia, de mu´ltiples texturas de filtrado y modos de interpolacio´n. La capacidad de 64 KB de cache´ constante es un medio eficaz de transmisio´n de so´lo lectura de los ele- mentos ide´nticos de datos a todos los temas dentro de un multiprocesador de transmisio´n a la velocidad de registro. El recuerdo constante puede ser una herramienta eficaz para lograr un alto rendimiento de los algoritmos que requieren recorrer y leer datos ide´nticos solamente. Como sus predecesores, la arquitectura GTX 295 incorpora un a´rea de 16 KB de memoria compartida en cada uno de los multiprocesadores. Los subprocesos que se eje- cutan en el mismo multiprocesador pueden cargar y manipular los bloques de datos en este registro usando la ra´pida velocidad de la memoria compartida, evitando costosos accesos a la memoria global. Los accesos a la zona de memoria compartida son coordinados a trave´s del uso de una barrera de sincronizacio´n del hilo de ejecucio´n primitivo, garantizando que todas las peticiones han terminado sus actualizaciones de memoria compartida antes de iniciar las discusiones de otros resultados para acceder a la misma. La memoria compartida

Document info
Document views75
Page views75
Page last viewedTue Dec 06 16:46:38 UTC 2016
Pages35
Paragraphs855
Words14967

Comments