کلان داده یا
big data به داده های انبوه گفته می شود که نیازمتد روش های خاص پردازشی است.
کلان داده یا
بیگ دیتا (
Big Data) یکی از اصطلاحات پُرتکرار در نوشتههای مربوط به فناوری اطلاعات است.
همهی ما با شنیدن
بیگ دیتا یا
کلان داده تا حدی میتوانیم معنای آن را حدس بزنیم.
موضوع بیگ دیتا، به حجم زیاد دادهها مربوط است؛ حجمی که هر روز نیز رو به افزایش است و هر یک از ما، در هر مقیاسی که فعال باشیم، جلوههایی از آن را مشاهده و تجربه کردهایم.
امروزه می توان گفت ما در حال غرق شدن در دریای داده ها هستیم.
تعریف رسمی
بیگ دیتا (
Big Data) به معنای داراییهای اطلاعاتی [یک مجموعه یا سازمان] است که:
- حجم بالا دارند
- با سرعت زیاد تولید میشوند و / یاتنوع گسترده دارند
و نیازمند شیوههای پردازش نوآورانه با هزینهی مناسب هستند تا بتوان از آن برای اتوماسیون فرایندها، تصمیم گیری و بهبود شهود و بینش [در سازمان] بهره گرفت.
به طور کلی، تفاوتهای اصلی کلان داده و داده های سنتی در جدول زیر بیان شده است.
کاربردهای کلان داده
- کشف خطا و یا کشف نفوذ به شبکه با ذخیره و آنالیز لاگ شبکه در یک سازمان یا وب سایت.
- تنظیم قیمت صحیح محصول در جهت فروش بیش تر
- طراحی محل قرارگیری محصولات در فروشگاه با توجه به اطلاعات آماری حرکت خریداران
- کشف راه کارهای ترغیب مشتری در خرید مجدد از فروشگاه
- مدیریت زنجیره عرضه
- تقسیم بندی مشتریان
- پیشنهاد دقیق کالا در زمان مناسب
از جمله موارد استفاده از کلان داده با تجزیه و تحلیل اطلاعات مربوط به سبد خرید مشتریان خواهد بود .
- پیش بینی میزان ریسک مرتبط با یک طرح اقتصادی و تشخیص الگوی شک برانگیز در استفاده از کارت اعتباری در حوزه بانکداری.
- کشف نفوذ و یا تقلب، کلاهبرداری و یا پولشویی با استفاده از تجزیه و تحلیل تراکنشهای مالی مشتریان با دیگر منابع اطلاعاتی نیز، امروزه بسیار کاربردی شده است.
- شخصی سازی خدمات از دیگر حوزه های فعال کاربرد کلان داده است و بسته به رفتار قبلی کاربر و داده هایی که از او داریم
- پیشنهاد خود را به او کاملا اختصاصی ارائه دهیم مثلا برای پیشنهاد وام به یک مشتری ، نمایش تبلیغات، پیشنهاد خودرو ، نمایش نوع خروجی جستجوهای کاربر و مثالهایی از این دست، می توان از کلان داده استفاده کرد.
ابزار های ذخیره و پردازش در این حوزه
رهیافت هایی که امروزه در بخش پردازش کلان داده مطرح هستند، دارای چندین خاصیت مشترک هستند :
- اجرا بر روی سخت افزار موجود که باعث می شود بتوان با هزینه کم امکان پردازش موازی و ارتقای سخت افزاری را فراهم کرد.
- استفاده از ابزارهای تحلیل و مصورسازی پیشرفته برای سهولت کاربر نهایی .
- استفاده همزمان از ابزارها و کتابخانه های مختلف که معماری داده یک سازمان را شکل می دهند.
- استفاده از بانک های اطلاعاتی غیر رابطه ای (NoSql) به عنوان جزئی از معماری و بسترداده سازمان
دو رهیافت اصلی که امروزه در پردازش و تحلیل کلان داده بیشترین رواج را دارند عبارتند از
هدوپ و بانکهای اطلاعاتی
NoSQL