تحقیق در آمار کاربردی و یادگیری آماری به بررسی فن آوری ها و روش شناسی ها در حوزه علم داده می پردازد. این به افزایش ارزش کسب و کار، بهبود تصمیم گیری، درک روابط انسانی و تبدیل داده ها به دانش کمک می کند.
آمار کاربردی و یادگیری آماری (ASSL) فرآیند استفاده از روابط دادهها و مدلهای کامپیوتری برای هدایت ارزش تجاری، بهبود تصمیمگیری و درک روابط انسانی است.
تحقیقات ASSL به فناوری ها و روش شناسی ها در حوزه علم داده می پردازد. این حوزه بر روی طراحی الگوریتم ها و تجزیه و تحلیل در مدل سازی آماری، داده کاوی و تجزیه و تحلیل پیش بینی تمرکز می کنیم.
تحقیقات اخیر
تحقیقات اخیر در تجزیه و تحلیل و آمار شامل موارد زیر است:
- الگوریتم ها و تجزیه و تحلیل مدل های پیش بینی آموزش در مجموعه داده های بسیار بزرگ
- روش های آماری برای طراحی و تجزیه و تحلیل آزمایش های شبیه سازی کامپیوتری
- استخراج پایگاه های داده صنعتی بزرگ برای کشف علل ریشه ای کیفیت پایین
- توسعه و پیاده سازی الگوریتم های یادگیری ماشین در MapReduce
- استخراج دادههای بیمار در فضای مراقبتهای بهداشتی برای مدلسازی خطر بیماری، طراحی آزمایشهای بالینی قویتر و غیره
- مدل سازی پیش بینی داده های اعتبار مصرف کننده برای مدیریت ریسک استراتژیک
“عصر داده“
اگر «عصر اطلاعات» در دهه ۱۹۹۰ با ظهور فناوری آغاز شد، اکنون رسماً وارد «عصر داده» شدهایم.
شرکتهایی مانند گوگل، فیسبوک، آیبیام، تراداتا، اوراکل و SAS ظرفیت جمعآوری دادههای یک عمر در مورد مشتریان و رفتار مشتریان را دارند. تمام داده های آنها فقط انبوهی از اعداد است تا زمانی که یک تحلیلگر ماهر آن اعداد را به اطلاعات معنی دار و مفید برای تصمیم گیری های تجاری هوشمندانه تبدیل کند.
امروزه، شرکتها به دنبال کارشناسانی در زمینه تجزیه و تحلیل با پیشینههای تجاری و فناوری هستند که اهمیت آخرین دادهها و روندهای عصر اطلاعات را درک کنند.
تحلیل داده ها
حوزه تحقیقاتی ما در ASSL بر بیش از تجزیه و تحلیل داده های ساده متمرکز است.
برای مشاهده داده ها از سه لنز استفاده می کنیم:
تجزیه و تحلیل تجویزی برای تمرکز بر روندها با استفاده از شبیه سازی و بهینه سازی
تجزیه و تحلیل پیش بینی برای استفاده از ابزارهای آماری برای پیش بینی آینده
تجزیه و تحلیل توصیفی برای فعال کردن تصمیم گیری های هوشمند بر اساس داده ها
واحد های درسی دانشجویی
دروس دانشجویی در ASSL بر زمینه های زیر تمرکز دارد:
بهینه سازی: برنامه نویسی عدد صحیح، برنامه ریزی غیرخطی، جستجوی محلی، الگوریتم های ژنتیک، بازپخت شبیه سازی شده، و فراابتکاری
مدلسازی و تحلیل آماری
یادگیری ماشین
طراحی آزمایشات فیزیکی و شبیه سازی
تجزیه و تحلیل پیشبینیکننده: رگرسیون و طبقهبندی ناپارامتریک، سریهای زمانی و روشهای کنترل کیفیت
داده های بزرگ: با تاکید بر Hadoop، مفاهیم داده های بدون ساختار (کلید-مقدار)، فناوری MapReduce، و تجزیه و تحلیل برای داده های بزرگ
داده کاوی: خوشه بندی (k-means، پارتیشن بندی)، قوانین تداعی، تحلیل عاملی، توسعه مقیاس، تجزیه و تحلیل بقا، تجزیه و تحلیل مؤلفه های اصلی و کاهش ابعاد.