دریاچه داده چیست؟
زمان مطالعه 1 دقیقه
۲۶ مهر ۱۴۰۰
نویسنده پایدار سامانه
تعداد کامنت 0

دریاچه داده (Data Lake) چیست؟

دریاچه داده یا Data Lake یک بانک اطلاعاتی مرکزی یا دیتابیس است که به کاربر اجازه می دهد انواع داده های ساختار یافته و بدون ساختار را در مقادیر بسیار زیاد و در شکل اصلی خود یعنی بدون تحلیل و پردازش اولیه، برای استفاده در آینده در صورت نیاز ذخیره کند.

داده های ذخیره شده در دریاچه داده دارای شناسه ها، فراداده ها و برچسب ها و هر اطلاعات اضافی دیگری هستند که برای بازیابی آسان باشند. انواع مختلفی از تجزیه و تحلیل را می توان در مورد آنها اعمال کرد. از هوش مصنوعی (AI) گرفته تا پردازش داده های بزرگ (Big Data)، تجزیه و تحلیل Real-time و یادگیری ماشین (Machine learning) و هر عملیات دیگری که برای کمک به تصمیم گیری بهتر و ارزش آفرینی منجر شود.

تفاوت بین دریاچه داده و انبار داده چیست؟

تفاوت دریاچه داده و انبار داده
تفاوت دریاچه داده و انبار داده

یک دریاچه داده (Data Lake) از بسیاری جهات با یک انبار داده (Data Warehouse) متفاوت است. یک انبار داده یک پایگاه داده پیشرفته برای تجزیه و تحلیل داده های رابطه ای است که از سیستم های تراکنشی (Transactional) و برنامه های تجاری به دست می آید. داده های ساختار یافته فقط بر اساس ساختار سلسله مراتبی و درون فایل ها و پوشه ها ذخیره می شوند و مورد استفاده قرار می گیرند. تحلیلگران تجاری، جایی که هدف از ذخیره آن داده ها از پیش تعیین شده است.

انبار داده یا Data Warehouse چیست؟
انبار داده یا Data Warehouse چیست؟

در مورد دریاچه داده ها، داده های ارتباطی از برنامه های تجاری و داده های غیر ارتباطی از برنامه های تلفن همراه، دستگاه های اینترنت اشیاء، وب سایت ها، شبکه های اجتماعی و غیره را بر اساس ساختار مسطح و Flat ذخیره می کند. این اطلاعات توسط دانشمندان داده، توسعه دهندگان و مشاغل استفاده می شود. هدف از ذخیره اطلاعات در آن از پیش تعیین شده نیست و در آینده از آن بهره برداری می شود.

مزایای اصلی دریاچه داده چیست؟

مزایای زیادی دارد که مهمترین آنها عبارتند از:

  • به توسعه دهندگان و مهندسین داده اجازه می دهد تا به لطف انعطاف پذیری بالا، راحت تر و سریعتر به داده ها دسترسی پیدا کرده، آماده و تجزیه و تحلیل کنند
  • سهولت دسترسی توسط گروه بزرگتری از کاربران
  • هزینه پیاده سازی پایین زیرا اکثر فناوری های مورد استفاده برای مدیریت آن منبع باز مانند Hadoop هستند
  • مقیاس پذیری به دلیل فقدان ساختار تعریف شده

اشتراک گذاری در شبکه های اجتماعی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *