X hits on this document

82 views

0 shares

0 downloads

0 comments

11 / 35

Estado actual de los algoritmos de Reconocimiento de Rostro usando Tecnologı´a GPU

7

Las FPGA al igual que las GPU tienen varias diferencias te´cnicas de las cuales sobresalen, el ca´lculo del los puntos flotantes por la GPU, mientras que en las FPGA son ma´s adecuadas para adaptar los puntos fijos o fixed-point.

Un artı´culo muy interesante donde establecen una comparacio´n entre varios dispositivos de aceleracio´n de algoritmos paralelos por hardware es [24], en el cual se evalu´a el modelo SPICE en varias ocasiones para todos los dispositivos en el circuito. El compilador escogido usa estrategias de la arquitectura especı´fica de paralelizacio´n como: OpenMP para multi- core, PThreads para Cell, CUDA para la GPU y VLIW para FPGA. Cuando el co´digo que se producen para estas arquitecturas diferentes, los autores del artı´culo, automa´tica- mente exploran las diferentes configuraciones para la aplicacio´n usando su sintonizador para identificar la mejor configuracio´n posible para cada arquitectura. Alcanzando valores de aceleraciones de 3-182x en un Xilinx Virtex5 LX 330T, 1.3-33x para un IBM Cell, y de un 3-131x en la GPU NVIDIA GeForce GT 9600 sobre en una CPU a 3 GHz Intel Xeon 5160 para una variedad de modelos de dispositivos de simple precisio´n. En [24] los autores muestran varios resultados del modelo SPICE implementado para varias arquitecturas, a continuacio´n se muestran cuatro tablas de comparacio´n de estos dispositivos en cuanto: al auto sincronizacio´n de para´metros, el ma´ximo valor alcanzado de los puntos flotantes, el

ambiente de software y el modelo de costo de los FPGA. Tabla 1. Auto-Tuning Parameters publicada en [24]

Architecture Parameter Intel Loop-Unrool Factor MKL Vector NVIDIA GPU Loop-Unrool Factor Threads per block IBM Cell Loop-Unrool Factor FPGA Loop-Unrool Facto Operator per PE

Range (Step) 1-5 (1) True/False 1-2 (1) 1-2 (1) 1-3 (1) 1-15 (5) 8-64 (2*)

BFT Rent Parameter 0.0-1.0 (0.1)

Chip

5160

965

LX760

PS3

9600 GT

AMD 9270

Tecnology

65 nm

45 nm

40 nm

65 nm

65

55 nm

Clock

3 GHz

3.2 GHz

200 MHz

3.2 GHz

1.625 GHz

750 MHz

Double-Precision

12

25.6

26

10.5

-

240

AMD GPU

51.2

75.6

2004.8

312

1200

130 Watts 20-30 Watts 135 Watts 59-96 Watts 160-220 Watts

GFLOPS Single-Precision GFLOPS

24

Power

80 Watts

Tabla 2. Peak Floating-Point publicada en [24]

Family

Intel Xeon Intel Core i7 Xilinx V6

IBM Cell NVIDIA GPU

Tabla 3. Software Enviroments publicada en [24]

Arch

Compiler

Libraries

Intel

Gcc-4.3 (-O3)

Libm, Intel MKL 10.1

NVIDIA GPU

Nvcc CUDA SDK 2.1 [1]

CUDA libraries

Timing PAPI 3.6.2 [26] PAPI flops() cudaEventRecord()

IBM Cell Xilinx FPGA

Spu-gcc ppu-gcc Cell SDK 3.1 [20]

Simdmath, MASS

Synplify Pro 9.6.1 Xilinx ISE 10.1 CoreGen, Arenaire [2] [15]

Gettimeofday() -

Document info
Document views82
Page views82
Page last viewedThu Dec 08 04:19:13 UTC 2016
Pages35
Paragraphs855
Words14967

Comments