آشنایی با Weka برای یادگیری ماشین
Weka شامل دسته ای از الگوریتم های یادگیری ماشین است که قادرند مجموعه ایی از داده های کاربردی را به طور مستقیم مورد بررسی قرار دهد.
یادگیری ماشین چیزی جز یک گونه ای از هوش مصنوعی که در آن کامپیوتر قادر خواهد بود بدون بهره گیری از برنامه ای صریح و روشن بیاموزد ، نیست. هنگامی که سیستم یادگیری ماشین از طریق کاوش در داده ، الگو را می یابد به تنظیم رفتار برنامه می پردازد. داده کاوی(Data mining) به چشم انداز های متفاوت تجزیه وخلاصه سازی قسمت های سودمند اطلاعات اشاره می کند. شیوه های یادگیری ماشین همانند داده کاوی (Data mining)می باشد ولی تفاوت داده کاوی (Data mining) در بیرون کشیدن اطلاعات برای درک و تفهیم انسان ها است. داده کاوی (Data mining) با بهره گیری از زبان ماشین ، اطلاعات با ارزش را از حجم وسیعی از داده ها می یابد.
Weka
Weka نرم افزار داده کاوی ای (Data mining) است که به استفاده از الگوریتم های یادگیری ماشین می پردازد.Weka مجموعه ای از ابزارهاست برای :
- Regression
- Clustering
- Association
- Data pre-processing
- Classification
- Visualization
در شکل زیر ویژگی های Weka آمده است :
نصب و راه اندازی
می توانید از سایت رسمی، Weka را دانلود کنید.
دستورات زیر برای تنظیم متغیر محیطی برای جاوا می باشد :
setenv WEKAHOME /usr/local/weka/weka-3-0-2 setenv CLASSPATH $WEKAHOME/weka.jar:$CLASSPATH
پس از اتمام دانلود، فایل exe را اجرا کرده و default set-up را انتخاب کنید تا نصب شود.
Weka application interfaces
در مجموع پنج Interface برای برنامه Weka در دسترس است. در شکل زیر صفحه نمایش رابط کاربری گرافیکی(GUI) و Interface موجود برنامه نشان داده شده است :
فرمت های داده Weka
Weka به طور پیش فرض از ویژگی ارتباط فرمت فایل برای تجزیه و تحلیل استفاده می کند.در لیست زیر ، برخی از فرمت ها که Weka قابلیت پشتیبانی آن ها را دارد آمده است :
- CSV
- ARFF
- Database using ODBC
Attribute Relation File format (ARFF)
دو بخش دارد:
- بخش header نام رابطه(مجموعه داده) ، نام ویژگی و نوع مشخص می شود.
- بخش داده که از نمونه داده هاست.
یک فایل ARFF به بیان رابطه ، ویژگی و داده نیاز دارد. در شکل زیر نمونه ایی از چنین فایلی آمده است.
- @relation : اولین خط در هر فایل ARFF است که پس از نام مجموعه ایی رابطه / داده در بخش header نوشته می شود. نام رابطه می بایست یک رشته باشد و اگر دارای فضای خالی است ، باید از دابل کوتیشن استفاده کنیم.
- @attribute : این بخش با اعلام نام خودش و نوع و محدوه در header شروع می شود که از داده های زیر برای ویژگی ها استفاده می کند :
- Numeric
- <nominal-specification>
- String
- Date
- @data :در بخش داده تعریف شده و به دنبال لیستی از تمامی داده ها است.
Weka Explorer
شامل شش tab هست که در زیر می بینید:
- Preprocess : به ما اجازه ی انتخاب فایل را می دهد.
- Classify : به ما اجازه اجرا و آزمایش الگوریتم های متفاوت در فایل های داده به صورت پیش فرض را می دهد.
- Cluster : به ما اجازه اجرا ابزار های مختلف clustering که شناسایی clusters در فایل داده ها است را می هد.
- Association : به ما اجازه برای استفاده از قوانین association برای شناسایی ارتباط در داده را می دهد.
- Select attributes : به ما اجازه مشاهده تغییرات ورود و خروج در صفات آزمایش را می دهد.
- Visualize : به ما اجازه مشاهده ، تصور شدنی ساخته شده در مجموعه ی داده ها که به صورت طرح پراکنده و نمودار میله ای است را ، در قالب دوبعدی می دهد.
کاربر نمی تواند بین tab های مختلف که پیش پردازش اولیه از مجموعه داده های تکمیل شده در حال اجراست ، حرکت کند.
هدف این مقاله آشنایی با نرم افزار Weka بوده که در داده کاوی (Data mining) بسیار کاربرد دارد.
مطالب زیر را حتما مطالعه کنید
کتابخانههای برتر پایتون برای پردازش زبان طبیعی
یادگیری ماشین به زبان ساده – بخش دوم
آشنایی با Numpy، کتابخانهی ریاضیات در پایتون
رسم نمودار و مصور سازی دادهها در پایتون با استفاده از Matplotlib
آشنایی با سیستم های توصیه گر (Recommender Systems) و عملکرد آنها
آشنایی با Pandas، کتابخانهی تجزیه و تحلیل داده
3 Comments
Join the discussion and tell us your opinion.
دیدگاهتان را بنویسید لغو پاسخ
برای نوشتن دیدگاه باید وارد بشوید.
بسیار علاقه داشتم درمورد نرم افزاری برای فهم کاربردی داده کاوی بدونم
بغیر از weka نرم افزار دیگری هم هست؟
میشه در مورد علم داده کاوی هم اگر لینک مفیدی میشناسین معرفی کنین؟
متاسفانه با نرم افزار دیگری کار نکردم که به شما توصیه کنم و لی می توانید از این سایت دانش خوبی رو بدست بیارید
https://www.udacity.com/
بسیار ممنون از مقاله خوبتون