داده کاوی یا Data Mining چیست؟
تا حالا شده به وب سایتی سر بزنید و برای یک لحظه فکر کنید کاش شما هم همچین وب سایتی داشتید؟ اگر این حس را تجربه کرده اید پیشنهاد میکنم روی این لینک را کلیک نمایید.
داده چیست؟
پیش از آنکه بخواهیم به اهمیت علم دادهکاوی و مزایایی که برای سازمانها ایجاد میکند بپردازیم، باید بدانیم که اساسا «داده» چیست. داده یا data در واقع کوچکترین و سادهترین واحد محتواست. تمامی کاراکترها، آمار، ارقام و حقایقی که توسط سیستمها و یا محققان جمع آوری شده و توضیح و تفسیر اضافهای بر آنها افزوده نشده باشد داده به حساب میآیند. بسیاری مواقع اشتباها از «داده» و «اطلاعات» به عنوان مفاهیم یکسانی یاد میشود. درحالی که این دو مفهوم کاملا متفاوتند و نمیتوان آنها را به جای دیگری به کار برد. داده فرم مشخصی دارد و دو فرد جداگانه نمیتوانند برداشت متفاوتی از مفهومی که یک «داده» ارائه میدهد داشته باشند. درحالی که اطلاعات یا information چنین نیست و هر فرد به تناسب رویکرد و اهدافی که دارد، میتواند برداشت و تفسیر متفاوتی از اطلاعات داشته باشد.
تفاوت داده (Data) و اطلاعات (Information) چیست؟
درحالی که «داده» محتوایی خام و تفسیر نشده است، «اطلاعات» را میتوان نسخه پرورشیافته مجموعه ای از «دادهها» دانست. به عبارتی دیگر، «داده» زیرمجموعه «اطلاعات» است. با مجموعه مشخصی از داده، میتوان اطلاعات متعدد و متفاوتی ایجاد کرد. مثلا بسته به اینکه آن دادهها با چه ترتیبی و تحت چه ساختاری دستهبندی شوند و یا در چه حوزهای مورد بررسی و تحلیل قرار بگیرند، اطلاعات متفاوتی ایجاد میشود.
پس از تفسیر، تحلیل و پروراندن دادهها در بستری خاص و متناسب با هدف و رویکردی مشخص، اطلاعات به دست میآید. برخلاف داده که به واسطه تجزیه ناپذیر بودن آن به مفهومی کوچکتر، نمیتوان برداشتهای متفاوتی از آن داشت، اطلاعات قابلیت این را دارند که هر فردی متناسب با ذهنیتی که دارد، برداشت متفاوتی از آن داشته باشد.
داده کاوی چیست؟
حال که با مفهوم داده (Data) و تفاوت آن با اطلاعات (Information) آشنا شدیم، میتوانیم به این موضوع بپردازیم که دادهکاوی چیست. به جرات میتوان گفت از زمانی که دانش داده کاوی و یا تحلیل داده پا به میدان گذاشت، ارزش داده در دنیای امروز متحول شد.
داده کاوی (Data Mining) علم استخراج الگوها، اطلاعات و تحلیل از مجموعه دادههای خامی است که در یک سازمان و یا یک جامعه یا هر مجموعه دیگری تولید شده است.
اهمیت داده کاوی
اما آنچه باعث شده علم دادهکاوی تا این حد مورد توجه قرار بگیرد، ضریب اطمینان بالای تصمیمات اتخاذ شده بر اساس تحلیلهای دادهای و نتایجی است که ایجاد میشود. زمانی که مدیران بر اساس احساسات و شهود اقدام به سیاستگذاری و تصمیمگیری در مورد موضوعی میکنند، احتمال خطا در تشخیص مشکل و ارائه راهکار بسیار زیاد است، در نتیجه ریسک زیادی منابع سازمان را تهدید میکند. درحالی که با تصمیم گیری بر اساس تحلیلهای حاصل از داده کاوی، از هدررفت منابع شرکت در یک اقدام ناکارآمد و غیرضروری جلوگیری میشود. داده کاوی به مدیران کمک میکند تا پیش از هرچیزی، دید درستی از جامعه مورد بررسی پیدا کنند و پس از عارضه یابی درست، راهکاری بهینه برای حل آن مشکل ارائه دهند.
توجه داشته باشید که نباید مفهوم داده کاوی را صرفا به جمع آوری و ذخیره سازی دادهها محدود دانست. زیرا تا زمانی که نتوان الگوهای نهفته در دادهها را برای ارائه تحلیل و راهکار استخراج کرد، این دادهها ارزش چندانی ندارند. در واقع داده کاوی با ایجاد ابزارهایی که استخراج این اطلاعات ارزشمند را ممکن میکند، به دادهها ارزش میبخشد و باعث میشود بتوان از آن دادهها برای برآوردن یک هدف و یا حل یک مشکل استفاده کرد.
فرایند داده کاوی
فرآیند داده کاوی، مجموعهای از گامها و اقداماتی است که باید از زمان جمع آوری داده تا استخراج اطلاعات و دانش کاربردی از آن انجام شود. عموما فرآیند داده کاوی بر حجم عظیمی از دادهها اعمال میشود و چون این کار از توان انسان خارج است، از فناوریهای خاصی برای این کار استفاده میشود. همانطور که پیشتر تاکید شد، هدف از داده کاوی آن است که بتوان همسبگیهای موجود میان دادههای خام را شناخت و از آنها برای استخراج الگوها، تحلیلها و توصیفاتی که پاسخگوی یه معضل و یا یک هدف مشخص باشند استفاده کرد. پیش بینیها حاصل از این داده ها، کمک میکند تا بتوان راهکار مناسبی طراحی و ارائه کرد.
به طور کلی برای دادهکاوی میتوان ۴ مرحله یا گام کلی متصور بود. گام اول تعیین اهداف است. گام دوم جمع آوری و آماده سازی دادههاست. در گام سوم باید با استخراج الگوهای موجود در این داده ها، به ارائه مدلی برای حل مساله پرداخت. در نهایت و در گام چهارم میتوان با جمع بندی و ارزیابی نتایج حاصله، اقدامات مناسبی طراحی و اجرایی کرد.
صرف وقت مناسب برای تعیین اهداف داده کاوی، یکی از مهمترین نکاتی است که مدیران سازمان باید به آن توجه داشته باشند. بهتر است تعیین اهداف، طی همکاری و مشارکت مدیران بخشهای مختلف سازمان ایجاد شود تا نتایج حاصل بتوانند پاسخی جامع و کاربردی باشند. پس آنکه حوزه و معضل مورد بررسی مشخص شد، متخصصان داده باید تعیین کنند که چه سبک داده هایی، ورودیهای مناسبی برای این پروژه هستند. بعد از تعیین دادهها و جمع آوری آنها، باید آنها را پاکسازی، دسته بندی و یکدست کرد تا تحلیل آنها سادهتر شود.
مشکلات استفاده از داده کاوی
با وجود اهمیت بسیار بالای دادهکاوی در کسبوکارهای امروزی و دستاوردهای مهم که این علم برای سازمانها ایجاد میکند، چالشها و مشکلاتی نیز در این مسیر وجود دارد. در ادامه شماری از مهمترین چالشهای دادهکاوی را ذکر میکنیم و در سپس به شرح برخی از این موارد میپردازیم. اصلیترین چالشهای دادهکاوی عبارتند از:
مسائل امنیتی و حفظ حریمخصوصی
مواجهه با دادههای ناقص و پراکنده
دشواری کشف پیچیدگیهای موجود در برخی دادهها
چالشهای روششناختی
لزوم انتخاب روش تحلیل درست برای استخراج نتایجی کارآمد
مقیاسپذیری الگوریتم ها
دشواری در ارائه مفاهیم شهودی برای برخی پدیدههای نهفته در داده ها
از آنجا که دادههای خام سازمانها، ممکن است حاوی اطلاعات ارزشمندی از ابعاد مختلف زندگی کاربران باشند، نگهداری و حفظ امنیت این دادهها و خدشه وارد نشدن به حریمخصوصی کاربران طی کار بر روی دادهها کار بسیار دشواری است. از سوی دیگر، دادههای خامی که برای انجام دادهکاوی و استخراج اطلاعات مورد نیازند، لزوما به سادگی به دست نمیآیند. یا اگر بتوان به این دادهها دست پیدا کرد، دسته بندی و پاکسازی آنها از دادههای پرت و زائد کار چندان سادهای نیست. حتی ممکن است پراکندگی دادههای به دست آمده به قدری باشد که یکپارچه و هماهنگ کردن آنها، دستاندرکاران دادهکاوی را با مشکل مواجه کند.
اعتبار و کارآمدی نتایج حاصل از داده کاوی، وابستگی بسیاری به دقت در انتخاب روشها و الگوریتمهای درست برای تحلیل دادهها دارد. چنانچه ابزارها و تکنیک اتخاذ شده برای بررسی مجموعهای دادهها مناسب نباشد، ممکن است اعتبار نتایج حاصل از داده کاوی خدشه دار شود. از سوی دیگر، باید از الگوریتمهایی استفاده شود که مقیاسپذیر باشند تا توان پاسخگویی به حجم متفاوتی از دادهها در حوزههای مختلف سازمان را داشته باشند.
در نهایت باید گفت گاهی ممکن است ارائه توضیحات شهودی و درک مفاهیم کشف شده در دل دادهها کار سادهای نباشد. به همین دلیل برای استخراج درست مفاهیم از دادههای هر حوزه، ممکن است به متخصصانی نیاز باشد که دانش توامانی در علوم داده و آن حوزه خاص مورد بررسی داشته باشند.
مزایای استفاده از دادهکاوی
از علم دادهکاوی میتوان در حوزههای مختلفی از جمله بهداشت و درمان، سلامت، سیاست، درک بهتر رفتار مشتریان کسب و کارها، تجارت، بیمه، بانکداری و علوم مالی، جامعه شناسی، علوم مهندسی و به عبارتی هر حوزهای استفاده کرد. در مجموع میتوان گفت داده کاوی به مدیران کمک میکند تا در تصمیمگیریها هوشمندانهتر عمل کنند و با کاهش ریسک تصمیمات خود، منابع را به گونهای بهینهتر تخصیص دهند. از جمله مهمترین مزایای استفاده از دادهکاوی در تصمیمگیریها و سیاستگذاریها میتوان به موارد زیر اشاره کرد:
بهبود دید مدیران و کمک به عرضهیابی درست
فراهم شدن امکان پیش بینی وقایع و درک بهتر آینده
افزایش کارایی سازمان
کمک به شناخت به موقع ترندها و فرصت ها
جلوگیری از تصمیم گیریهای احساسی و کاهش ریسک تصمیمات
کاهش هزینهها و جلوگیری از اتلاف منابع