Compilation et optimisation statique des communications hôte-accélérateur

Mehdi Amini; Fabien Coelho; François Irigoin; Ronan Keryell

doi:10.3166/tsi.31.1205-1232

Article Dans Une Revue Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques Année : 2012

Compilation et optimisation statique des communications hôte-accélérateur

(1) , (1) , (1) , (2, 3)

1
2
3

Mehdi Amini

Fonction : Auteur
PersonId : 927334

Centre de Recherche en Informatique

Fabien Coelho

Fonction : Auteur
PersonId : 4312
IdHAL : fabien-coelho
IdRef : 08330794X

Centre de Recherche en Informatique

François Irigoin

Fonction : Auteur
PersonId : 3234
IdHAL : francois-irigoin
IdRef : 076958639

Centre de Recherche en Informatique

Ronan Keryell

Fonction : Auteur

HPC PROJECT

Laboratoire Informatique et Télécommunications

Résumé

La puissance de calcul disponible dans les machines hybrides à base d'accélérateurs matériels de type GPU nécessite de réécrire les programmes selon un modèle complexe et réparti : les données traitées doivent être copiées entre mémoire de l'hôte et mémoire de l'accélérateur. Cette contrainte est régulièrement identifiée comme le goulot d'étranglement. Nous proposons une transformation automatique qui génère statiquement des instructions de copies entre l'hôte et l'accélérateur selon deux stratégies " au plus tôt " et " au plus tard ". De plus, les communications inutiles ou redondantes sont évitées. Nous présentons les résultats obtenus avec des tests pris parmi les Polybench 2.0, les Rodinia, et sur une simulation numérique réelle. Nous obtenons une accélération moyenne de 4 à 5 par rapport à une parallélisation naïve sur un GPU moderne avec PAR4ALL, HMPP, et PGI ; et de 3.5 par rapport à une version OPENMP avec une machine équipée de 12 coeurs.
Title: Static compilation analysis for host-accelerator
Abstract: We present an automatic, static program transformation that schedules and generates efficient memory transfers between a computer host and its GPU like hardware accelerator, addressing a well-known performance bottleneck. Our static automatic approach uses two simple heuristics: to perform transfers to the accelerator as early as possible and to delay transfers back from the accelerator as late as possible. In the generated code, redundant communications due to data reuse between kernel executions are avoided. We present experimental results obtained with the Polybench 2.0, some Rodinia benchmarks, and with a real numerical simulation. We obtain an average speedup of 4 to 5 when compared to a naïve parallelization using a modern GPU with PAR4ALL, HMPP, and PGI, and 3.5 when compared to an OPENMP version using a 12-core multiprocessor.

Mots clés

parallélisation automatique optimisation de communication compilation source-à- source architecture parallèle hétérogène GPGPU<br/>Keywords:<br/>automatic parallelization communication optimization source-to-source compilation heterogeneous parallel architecture GPGPU

Domaines

Compilation Parallélisation

Claire Medrala : Connectez-vous pour contacter le contributeur

https://minesparis-psl.hal.science/hal-00826545

Soumis le : lundi 27 mai 2013-17:13:43

Dernière modification le : vendredi 19 avril 2024-16:18:57

Dates et versions

hal-00826545 , version 1 (27-05-2013)

Identifiants

HAL Id : hal-00826545 , version 1
DOI : 10.3166/tsi.31.1205-1232

Citer

Mehdi Amini, Fabien Coelho, François Irigoin, Ronan Keryell. Compilation et optimisation statique des communications hôte-accélérateur. Revue des Sciences et Technologies de l'Information - Série TSI : Technique et Science Informatiques, 2012, 31 (8-10), pp.1205-1232. ⟨10.3166/tsi.31.1205-1232⟩. ⟨hal-00826545⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

INSTITUT-TELECOM ENSMP ENSMP_CRI PARISTECH PSL ENSMP_DR

68 Consultations

0 Téléchargements

Compilation et optimisation statique des communications hôte-accélérateur

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Altmetric

Partager