مرا به خاطر بسپار

کلان ‌داده چیست؟

بازدید: 321 آخرین به‌روزرسانی: 22 مهر 1402

مقدمه

با پیشرفت فناوری‌های جدید حوزه کامپیوتر بخصوص هوش مصنوعی و ورود این حوزه به تمام بخش‌های زندگی ما در دنیای مدرن امروز، مساله مدیریت داده‌های حجیم بیش از پیش اهمیت پیدا می‌کند. اکنون دیگر هر بخش از زندگی ما، توسط وسایل و ربات‌های هوشمندی که در حال پایش چیزی هستند تحت نظارت است. از خانه‌های هوشمند و ربات‌های پایش معاملات بورس و بازارها و تراکنش‌های بانکی گرفته تا ماشین‌های خودران و ربات برنامه‌نویس، همه این‌ها داده‌های زیادی تولید می‌کنند که نیازمند مدیریت بهینه در ذخیره‌سازی و استفاده از داده‌های حجیم یا کلان داده است.

داده‌های حجیم یا همان کلان داده (Big Data) اصطلاحی است که به مجموعه‌ای از داده‌ها اشاره دارد که در حجم بسیار زیاد و با سرعت بسیار بالا تولید می‌شوند و به ابزارها و روش‌های مخصوصی برای جمع‌آوری، ذخیره، مدیریت، و تحلیل آن‌ها نیاز است. با ما همراه باشید تا با کلان داده بیشتر آشنا شویم.

کلان داده به چه معناست؟

به جریان مجموعه داده‌هایی که دارای تنوع بیشتری هستند، با حجم فزاینده و سریع می‌رسند کلان ‌داده می‌گویند. کلمه جریان به این دلیل استفاده شده است که در موضوع کلان‌ داده‌ حتماً باید جریانی از داده‌ها را داشته باشیم و در غیر این صورت ما تنها یک داده بزرگ داریم، نه کلان ‌داده.

به زبان ساده در کلان داده، مجموعه داده‌ها آنقدر بزرگ و پیچیده هستند که نرم‌افزارهای سنتی پردازش داده نمی‌توانند آن‌ها را مدیریت کنند. اما این حجم عظیم از داده‌ها را می‌توان برای رفع مشکلاتی استفاده کرد که قبلاً توان مقابله با آن‌ها وجود نداشت. این حجم عظیم داده از منابع مختلفی بدست می‌آید که از میان آن‌ها می‌توان به شبکه‌های اجتماعی و اطلاعاتی که توسط انسان‌ها تولید می‌شود، داده‌های ماشینی که توسط ماشین‌ها و حسگرها تولید می‌شود یا تراکنش‌های مالی اشاره کرد.

انواع داده در کلان ‌داده

مجموعه داده‌ها بر اساس ساختار و نظم، در سه دسته طبقه‌بندی می‌شوند:
  1. داده‌های ساخت‌یافته (Structured):
به مجمو‌عه داده‌ای که تمام داده‌های آن دارای مقدار و نوع مشخصی از اطلاعات هستند، مجموعه ‌داده ساخت‌یافته گفته می‌شود. برای نمونه یک صفحه اکسل را تصور کنید که هر سطر آن مربوط به یک داده ‌است و تعداد مشخصی از ستون‌ها برای تمامی این داده‌ها پر شده است و ویژگی‌های آن داده را ذکر کرده است. برای نگهداری از این نوع داده از پایگاه داده‌های رابطه‌ای (Relational Database) استفاده می‌شود.
  1. داده‌های بدون‌ ساختار (Unstructured):
 داده‌های بدون ساختار، اطلاعاتی هستند که هیچ سازماندهی مشخصی ندارند و در یک چارچوب تعریف شده نمی‌گنجند. این داده‌ها ممکن است متنی یا غیر‌متنی باشند و توسط انسان یا ماشین تولید شوند. همچنین ممکن است در یک پایگاه داده غیر رابطه‌ای مانند NoSQL ذخیره شوند. از جمله این داده‌ها می‌توان به تصاویر، متن‌ها، فایل‌های pdf، محتویات ایمیل‌ها، ویدیوها،‌ صوت‌ها و سخنرانی‌ها و دسته‌های دیگر از داده‌ها اشاره کرد. تقریبا نزدیک به ۸۰ درصد از کل داده‌های موجود را داده‌های بدون ساختار تشکیل می‌دهند. 
  1. داده‌های نیمه‌-ساخت‌یافته (Semi-Structured):
داده‌های نیمه-‌ساخت‌یافته دسته‌ای از داده‌ها هستند که در بین دو دسته قبلی قرار می‌گیرند و تعریف مشخصی ندارند. هر دسته داده‌ای که نه به نظم دسته اول یعنی داده‌های ساخت‌یافته باشد و نه بدون هیچ چارچوبی باشد و از اندک نظمی برخوردار باشد،‌ نیمه‌-ساخت‌یافته خواهد بود. این داده‌ها معمولا ًبرچسب‌‌گذاری شده‌اند و موضوع کلی آن‌ها مشخص است، مانند نماد هشتگ در فضای مجازی که محتویات آن‌ها ساختار‌ خاصی ندارد، یا داده‌هایی که در قالب‌هایxml ، json، yaml ذخیره شده‌اند.
انواع داده در کلان‌داده
انواع داده در کلان‌داده

3V در کلان داده چیست؟

3V به سه ویژگی اصلی کلان داده یعنی حجم، سرعت و تنوع اشاره دارد که تفاوت میان کلان‌ داده‌ با سایر انواع داده‌ها را مشخص می‌کنند. در ادامه به بررسی این سه ویژگی‌ می‌پردازیم و پس از آن دو ویژگی مهم دیگر را که به تازگی ظهور کرده مورد بررسی قرار می‌دهیم.
  • حجم (Volume):
واژه حجم برای تعیین اندازه کلان داده که توسط یک سازمان ذخیره و مدیریت می‌شود استفاده می‌شود. این ویژگی، انبوه داده در انبارهای داده و چالش‌های مربوط به مقیاس‌پذیری، دسترسی و مدیریت را ارزیابی می‌کند. حجم، قابلیت زیرساخت سازمان در ذخیره‌سازی، مدیریت و تحویل داده‌ها به کاربران نهایی و برنامه‌های کاربردی است.
  • سرعت (Velocity):
سرعت به نرخی گفته می‌شود که داده‌ها دریافت می‌شوند و بر اساس آن‌ اقدامی به عنوان واکنش صورت می‌گیرد. از گذشته تا کنون با کاهش هزینه منابع ذخیره‌سازی و اشتراک اینترنت، سرعت دریافت داده‌ها بیشتر شده و داده‌های بیشتر و دقیق‌تری دریافت می‌شود.
  • تنوع (Variety):

تنوع به تعدد انواع داده‌های موجود اشاره دارد. تنوع برای تعریف انواع مختلف داده، دسته‌ها و مدیریت مرتبط با منبع داده بزرگ استفاده می‌شود. تنوع بینشی در مورد منحصر به فرد بودن کلاس های مختلف داده‌های بزرگ و نحوه مقایسه آن‌ها با انواع دیگر داده‌ها ارائه می‌دهد.  

دو V دیگر در چند سال گذشته ظهور کرده‌اند: ارزش (Value) و صحت (Veracity). داده‌ها دارای ارزش ذاتی هستند اما تا زمانی که آن ارزش کشف نشود، نمی‌شود از آن بهره ‌برد. به همان اندازه مهم، داده‌های شما تا چه حد واقعی هستند و چقدر می‌توانید به آن‌ها اطمینان کنید؟
5V در کلان‌داده
5V در کلان‌داده

داده ارزشمند یعنی چه؟

امروزه کلان‌ داده به سرمایه تبدیل شده است. به برخی از بزرگترین شرکت‌های فناوری جهان فکر کنید. بخش بزرگی از ارزشی که دارند از داده‌هایشان ناشی می‌شود به این صورت که دائماً در حال تجزیه و تحلیل داده‌ها برای تولید کارایی بیشتر و توسعه محصولات جدید هستند.
اخیرا پیشرفت‌های فناوری به طور تصاعدی هزینه ذخیره‌سازی داده‌ها و محاسبات را کاهش داده است و ذخیره‌سازی داده‌های بیشتر را آسان‌تر و کم هزینه‌تر از همیشه کرده است. با افزایش حجم داده‌های بزرگ که اکنون ارزان‌تر و در دسترس‌تر است، می‌توانید تصمیمات تجاری دقیق‌تری بگیرید.
یافتن ارزش در کلان داده تنها به تجزیه و تحلیل آن نیست. این یک فرآیند کامل کشف است که به تحلیل‌گران، کاربران تجاری و مدیرانی بصیر نیاز دارد که سؤالات درستی بپرسند، الگوها را تشخیص دهند و رفتار را پیش‌بینی کنند. اما واقعی و قابل تکیه بودن این داده‌ها که منجر به توسعه محصولات بهتر و پرفروش‌تر و هر نوع تصمیم‌گیری بهتر می‌شوند باید چگونه باشند و این مشخصات چگونه تعیین می‌شوند؟ چگونه می‌گوییم یک مجموعه داده قابل اتکاست؟

به صورت عمومی‌تر مبحثی وجود دارد به نام کیفیت داده که در آن کیفیت داده به وضعیت اطلاعات کیفی یا کمی اشاره دارد. تعاریف زیادی از کیفیت داده‌ها وجود دارد، اما داده‌هایی باکیفیت در نظر گرفته می‌شوند که برای کاربردهای مورد نظر در عملیات، تصمیم‌گیری و برنامه‌ریزی مناسب باشند و علاوه بر این، داده‌ها نمود کلی‌ از دنیای واقعی باشند. برای تشخیص این مسأله باید از ابزارهای علم آمار استفاده کنیم. از پرکاربردترین این ابزار می‌توان به آزمون فرضیه اشاره کرد.

آزمون فرضیه‌های آماری روشی برای استنتاج آماری است که برای تصمیم‌گیری در مورد اینکه آیا داده‌های موجود به اندازه کافی از یک فرضیه خاص پشتیبانی می‌کنند یا خیر استفاده می‌شود. آزمون فرضیه به ما امکان می‌دهد تا گزاره‌های احتمالی در مورد معیارهای جمعیت بسازیم. با توجه به این تعریف باید بتوانیم سعی کنیم همخوانی مشخصه‌های توزیع داده‌ها را با دنیای واقعی بسنجیم و از کیفیت داده‌ها اطمینان حاصل کنیم.

کلان‌داده چگونه کار می‌کند؟

تحلیل کلان داده بینش جدیدی به شما می‌دهد که پنجره‌ای را به فرصت‌ها و مدل‌های کسب و کار جدید باز می‌کند. شروع تحلیل کلان ‌داده شامل سه اقدام کلیدی است:
  • یکپارچه‌سازی:
کلان ‌داده در ابتدا داده‌ها را از منابع متفاوت جمع‌آوری می‌کند. روش‌های سنتی یکپارچه‌سازی داده‌ها، مانند استخراج (Extract)، تبدیل(Transform)، و بارگذاری(Load)  یا همان سه گانه ETL معمولاً کارآمد نیستند. برای تجزیه و تحلیل مجموعه داده‌های بزرگ در مقیاس ترابایت یا حتی پتابایت، به روش‌ها و فناوری‌های جدیدی نیاز است. در طول یکپارچه‌سازی، باید داده‌ها را وارد کنید، آن‌ها را پردازش کنید و مطمئن شوید که به شکلی قالب‌بندی شده و در دسترس هستند که تحلیل‌گران کسب و کار بتوانند با آن شروع به کار کنند.
  • مدیریت:
داده‌های بزرگ نیاز به ذخیره‌سازی دارند. روش ذخیره‌سازی شما می‌تواند در فضای ابری، در محل و یا هر دو باشد. شما می‌توانید داده‌های خود را به هر شکلی که می‌خواهید ذخیره کنید و  بر اساس تقاضا، الزامات پردازش مورد نظر خود را به همراه موتورهای پردازش به مجموعه داده‌ها بیاورید. بسیاری از مردم روش ذخیره‌سازی خود را با توجه به جایی که داده‌های آن‌ها در حال حاضر در آن قرار دارد انتخاب می‌کنند. راهکارهای ابری به تدریج محبوبیت پیدا می‌کند، زیرا از نیازهای محاسباتی فعلی شما پشتیبانی می‌کند و شما را قادر می‌سازد تا منابع را در صورت نیاز به راحتی و با کمترین هزینه ارتقا دهید.
  • تجزیه و تحلیل:
سرمایه‌گذاری شما در کلان داده‌ها زمانی نتیجه می‌دهد که داده‌های خود را تجزیه و تحلیل  می‌کنید. با تجزیه و تحلیل بصری مجموعه داده‌های متنوع خود، وضوح جدیدی دریافت می‌کنید، برای دستیابی به اکتشافات جدید، داده‌ها را بیشتر کاوش می‌کنید، یافته‌های خود را با دیگران به اشتراک می‌گذارید و مدل‌های داده را با یادگیری ماشین و هوش مصنوعی می‌سازید.
کلان‌داده چگونه کار می‌کند؟
کلان‌داده چگونه کار می‌کند؟

نمونه کاربردهای کلان‌داده

کلان داده می‌تواند به شما کمک کند تا به طیف وسیعی از فعالیت‌های تجاری، از تجربه مشتری گرفته تا تجزیه و تحلیل رسیدگی کنید. نمونه‌های ذکر شده تنها دسته‌ کوچکی از این کاربرد‌ها هستند:
  1. توسعه محصول
شرکت‌ها از داده‌های بزرگ برای پیش‌بینی تقاضای مشتری استفاده می‌کنند. آن‌ها با طبقه‌بندی ویژگی‌های کلیدی محصولات و مدل‌سازی، رابطه بین ویژگی‌ها و موفقیت تجاری آن‌ها را بررسی می‌کنند و نتایج حاصل را در طراحی محصولات و خدمات جدید مورد استفاده قرار می‌دهند.
  1. تجربه کاربری
همواره رقابت برای جذب مشتریان ادامه دارد. دید واضح‌تر از تجربه مشتری اکنون بیش از هر زمان دیگری امکان‌پذیر است. داده‌های بزرگ به شما امکان می‌دهند داده‌ها را از رسانه‌های اجتماعی، بازدیدهای وب، گزارش تماس‌ها و سایر منابع جمع‌آوری کنید تا تجربه تعامل را بهبود ببخشید و ارزش ارائه شده را به حداکثر برسانید. این کار با بررسی و دسته‌بندی کاربرها و رفتار آن‌ها شروع می‌شود و تا ارائه پیشنهادهای شخصی‌شده و ایجاد‌ سبد‌های خرید منحصر به ‌فرد و قرعه‌کشی‌های دسته‌بندی شده ادامه می‌یابد.
  1. بهره‌وری عملیاتی
کارایی عملیاتی ممکن است همیشه خبرساز نباشد، اما حوزه‌ای است که داده‌های بزرگ بیشترین تأثیر را در آن دارند. با داده‌های بزرگ، می‌توانید تولید، بازخورد و بازده مشتری و سایر عوامل را برای کاهش قطعی برق و پیش‌بینی تقاضاهای آینده، تجزیه و تحلیل و ارزیابی کنید. کلان داده‌ها همچنین می‌توانند برای بهبود تصمیم‌گیری مطابق با تقاضای فعلی بازار استفاده شوند.
  1. یادگیری ماشین
یادگیری ماشین در حال حاضر موضوع محبوبی است و داده‌ها، به ویژه کلان داده، یکی از ستون‌های اصلی آن است. اکنون می‌توانیم به جای برنامه‌نویسی به ماشین‌ها آموزش دهیم. الگوریتم‌های یادگیری ماشین با پیداکردن الگوهای مختلف در داده‌های سعی می‌کنند کارهای مختلفی را بیاموزند. پس مجموعه داده بزرگ و با کیفیت از ارکان اصلی یادگیری ماشین است.

برای اطلاعات بیشتر می‌توانید به مقاله‌های یادگیری ماشین و هوش‌مصنوعی مراجعه کنید.

  1. بهداشت و درمان
 تحلیل کلان‌داده‌ها این امکان را برای متخصصان حوزه‌ بهداشت و درمان فراهم می‌کند تا تشخیص‌هایی دقیق‌تر و مبتنی بر شواهد داشته باشند. همچنین از آن جایی که حوزه‌های مراقبت از بیماران و تحقیقات این حوزه هزینه‌های بالایی دارد، مدیران بیمارستان‌ها با کمک کلان‌داده می‌توانند روندها را شناسایی و خطرات را مدیریت کرده و هزینه‌های غیرضروری را به حداقل برسانند.
  1. انرژی و تأسیسات:
طبق داده‌های اداره آمار کار ایالات متحده، شرکت‌های خدمات شهری بیش از ۱.۴ میلیارد دلار برای دستگاه‌های کنتور هزینه می‌کنند و معمولاً به کنتورهای آنالوگ متکی هستند. کنتورهای هوشمند، بارها در روز داده‌های دیجیتالی را ثبت و ارسال می‌کنند. همچنین با تحلیل آن‌ها می‌توان مصرف انرژی کارآمدتر و قیمت‌گذاری و پیش‌بینی دقیق‌تری را ارائه کرد و با سیاست‌گذاری‌های مناسب در مصرف منابع صرفه‌جویی کرد.

تاریخچه کلان‌داده

اگرچه مفهوم کلان داده به خودی خود نسبتاً جدید است، منشاء مجموعه‌های داده بزرگ به دهه‌های ۶۰ و ۷۰ میلادی برمی‌گردد، زمانی که دنیای داده‌ها به تازگی با اولین مراکز داده و توسعه پایگاه داده رابطه‌ای شروع شده بود. در این دوره شرکت‌های مختلف ابزارهای مشخصی برای نگهداری و پردازش توزیع‌شده داده‌ها طراحی و پیاده‌سازی کردند. اما این تلاش‌ها به صورت یکپارچه و با در نظر گرفتن یک هدف و نیاز جامع نبود و به مسائل خاص‌منظوره محدود شده بود.

در حدود سال ۲۰۰۵، مردم متوجه شدند که کاربران چقدر داده از طریق فیس بوک، یوتیوب و سایر خدمات آنلاین تولید می‌کنند. Hadoop (یک چارچوب متن باز که به طور خاص برای ذخیره و تجزیه و تحلیل مجموعه داده‌های بزرگ ایجاد شده است) در همان سال توسعه یافت. توسعه چارچوب‌های منبع باز مانند Hadoop (و اخیراً Spark) برای رشد داده‌های بزرگ ضروری بود زیرا کار با داده‌های بزرگ را آسان‌تر و ذخیره‌سازی را ارزان‌تر می‌کند. اکنون حجم داده‌های بزرگ به شدت افزایش یافته است. کاربران هنوز هم حجم عظیمی از داده‌ها را تولید می‌کنند. اما این فقط انسان‌ها نیستند که این کار را انجام می دهند. با ظهور اینترنت اشیا (IoT)، دستگاه‌های بیشتری به اینترنت وصل می‌شوند و داده‌هایی را در مورد الگوهای استفاده مشتری و کارایی محصول جمع‌آوری می‌کنند. ظهور یادگیری ماشین، داده‌های بیشتر و دقیق‌تر را باارزش‌تر کرده ‌است.

شما به راحتی می‌توانید خدمات کلان داده نظیر Hadoop و Spark را از ابررایانه سیمرغ در هر اندازه‌ای دریافت کنید.

با رایانش ابری، کسب‌ وکارها می‌توانند به سرعت برنامه‌های کلان داده را مستقر کرده و مجموعه داده‌های بزرگ را سریع‌تر از سیستم‌های سنتی پردازش کنند و سرعت و کارایی تجزیه و تحلیل داده‌های بزرگ را افزایش دهند.

جمع‌بندی

در این مقاله با مفهوم کلان داده آشنا شدیم. این مفهوم به تجمیع داده‌های با حجم بالا، سرعت بی‌نظیر تولید و تنوع فراوان اشاره دارد. از سوی دیگر، ابزارها و روش‌های پیشرفته تجزیه و تحلیل داده، به ما این امکان را می‌دهند که از این داده‌ها بهره‌برداری کرده و ارزش‌های جدیدی را در زمینه‌های مختلف ایجاد کنیم. در دنیای کسب و کار، کلان داده به بهبود تصمیم‌گیری‌ها، پیش‌بینی‌های دقیق‌تر، و بهبود عملکرد عمومی کمک می‌کند. همچنین، چالش‌های امنیتی و حفظ حریم خصوصی در مورد استفاده از داده‌های کلان نیز مسائل مهمی هستند که باید در نظر گرفته شوند.

با ما همراه باشید تا در ادامه مفاهیم کلان داده مانند فایل سیستم توزیع‌شده را بررسی کرده و سرویس‌ها و ابزارهای آن را بررسی کنیم.  

سوالات متداول

کلان داده چیست؟
کلان داده مجموعه داده حجیمی است که نرم‌افزارهای سنتی پردازش داده نمی‌توانند آن را مدیریت کنند.
کلان‌ داده با هوش مصنوعی چه رابطه‌ای دارد؟
انواع داده از نظر ساختار در کلان‌ داده را نام ببرید.
3v در کلان داده یعنی چه؟
هدوپ (Hadoop) چیست؟
تا چه حد این مطلب برای شما مفید بود؟
بر اساس رای 0 نفر

اگر بازخوردی درباره این مطلب دارید یا پرسشی دارید که بدون پاسخ مانده است، آن را از طریق بخش نظرات مطرح کنید.

ثبت نظر

نظر دادن