نقد و بررسی
مقاله استنتاج مدلهای رفتاری نرمافزار در MapReduce
چکیده فارسی :
در عملکرد جهان واقعی، سیستمهای نرمافزاری اغلب بدون توسعه هیچ مدل پیشفرض صریح ایجاد میشوند. این امر میتواند مسائلی جدی ایجاد کند که ممکن است مانع تکامل تقریبا اجتنابناپذیر آینده شوند، زیرا در بهترین حالت، تنها مستندسازی درباره نرمافزار، شکلی از تفاسیر کد منبع است. برای رفع این مشکل، تحقیقات باید روی استنتاج خودکار مدلها با استفاده از الگوریتمهای یادگیری ماشین برای اجرای دستورات متمرکز باشند. با این حال، دستورات (لاگهای) تولید شده توسط سیستم نرمافزاری واقعی ممکن است بسیار بزرگ باشند و الگوریتم استنتاج میتواند از ظرفیتی پردازش کامپیوتر منفرد تجاوز کند.این مقاله رویکرد کلی مقیاسپذیری را برای استنتاج مدلهای رفتای ارائه میدهد که میتوانند دستورات بزرگ اجرا را از طریق الگوریتمهای موازی و توزیع شده پیادهسازی شده با استفاده از مدل برنامهنویسی MapReduce و اجرا شده روی خوشهای از گرههای اجرای متصل به هم انجام دهد. این رویکرد شامل دو مرحله توزیع شده است که ترکیب مدل و برش مسیر (برش ردیابی) را انجام میدهند. برای هر مرحله، الگوریتم توزیع شدهای با استفاده از MapReduce ایجاد میشود. با ظرفیت پردازش داده موازی MapReduce، مساله استنتاج مدلهای رفتاری از دستورات (لاگهای) بزرگ را میتوان به طور کارامدی حل کرد. این تکنیک در بالای Hadoop اجرا میشود. آزمایشهای روی خوشههای آمازون، کارایی و مقیاسپذیری رویکرد ما را نشان میدهند.
کلمات کلیدی: استنتاج مدل، ردیابی پارامتری، تجزیه و تحلیل لاگ، MapReduce.
چکیده انگلیسی:
In the real world practice, software systems are often built without developing any explicit upfront model. This can cause serious problems that may hinder the almost inevitable future evolution, since at best the only documentation about the software is in the form of source code comments. To address this problem, research has been focusing on automatic inference of models by applying machine learning algorithms to execution logs. However, the logs generated by a real software system may be very large and the inference algorithm can exceed the processing capacity of a single computer.
This paper proposes a scalable, general approach to the inference of behavior modelsthat can handle large execution logs via parallel and distributed algorithms implemented using the MapReduce programming model and executed on a cluster of interconnected execution nodes. The approach consists of two distributed phases that perform trace slicingand model synthesis. For each phase, a distributed algorithm using MapReduce is developed. With the parallel data processing capacity of MapReduce, the problem of inferring behavior models from large logs can be efficiently solved. The technique is implemented on top of Hadoop. Experiments on Amazon clusters show efficiency and scalability of our approach.
Keywords: Model inference , Parametric trace, Log analysis, MapReduce
0دیدگاه کاربران