نقد و بررسی
مقاله LA-LLC : آگاهی محدوده ی بین هسته ای حافظه ی سطح بالا به منظور بهره برداری از ترافیک موجود در GPGPUs
چکیده فارسی :
شبکه ی پاسخ یک تنگراه اجرائی سخت گیر در واحد پردازش گرافیکی هدف (GPGPUs) می باشد. به طوریکه مسیر ارتباطی از کنترل کنندگان حافظه ( MC ) به سمت هسته ها اغلب شلوغ است. در این مقاله , ما در یافته ایم که به جای تکیه بر مسیر ارتباطی شلوغ بین MCs ها و هسته ها , مسیر ارتباطی هسته به هسته ی از دست رفته , می تواند به منظور ارسال بلاک های داده ای بین هسته ها به کار گرفته شود. طبق نظر ما , آگاهی محدوده ی بین هسته ای حافظه ی سطح بالا (GPGPUs) , تنها نیاز به جند بیت در هر بلوک حافظه ی پنهان داشته و هسته را قادر به واکشی داده ی به اشتراک گذارده شده از هسته ی محلی دیگر حافظه ی پنهان , به جای LLC می کند. با اتفاق افتادن نفوذ ارتباط بین هسته ای , LA-LLC , ارتباط اندک به چند را به چند به چند تبدیل می کند, در نتیجه , تنگنای شبکه ی پاسخ اتفاق می افتد. برای مجموعه ای از برنامه های کاربردی ارائه شده در درجات مختلف از محدوده ی بین هسته ای , LA-LLC به کاهش زمان تاخیر دسترسی به حافظه پرداخته و مقدار کارایی با میانگین 21.1 و بالای 68 درصد را با هزینه ی سخت افزاری ناچیز افزایش می دهد.
واژگان کلیدی : GPGPU , NoC , محدوده ی بین هسته ای , LLC
چکیده انگلیسی:
The reply network is a severe performance bottleneck in General Purpose Graphic Processing Units (GPGPUs), as the communication path from memory controllers (MC) to cores is often congested. In this paper, we find that instead of relying on the congested communication path between MCs and cores, the unused core-to-core communication path can be leveraged to transfer data blocks between cores. We propose the inter-core Locality-Aware Last-Level Cache (LA-LLC), which requires only few bits per cache block and enables a core to fetch shared data from another core’s private cache instead of the LLC. Leveraging inter-core communication, LA-LLC transforms few-to-many traffic to many-to- many traffic, thereby mitigating the reply network bottleneck. For a set of applications exhibiting varying degrees of inter-core locality, LA-LLC reduces memory access latency and increases performance by 21.1 percent on average and up to 68 percent, with negligible hardware cost.
0دیدگاه کاربران