مدیریت و استقرار انبار داده‌ها

در سطح کلان و کاملاً مدیریتی، ایجاد انبار داده‌ها یکی از مهم‌ترین و زیرساختی‌ترین مراحل استقرار هوش تجاری یا هوشمندی کسب‌وکار است. قبل از آغاز طراحی انبار داده‌ها، تیم استقرار انبار داده‌های فرابر خود را ملزم به پاسخ‌گویی به سؤالات زیر می‌داند:

سؤال اول: چه سیستم‌های عملیاتی و یا مکانیزه در سازمان باید به‌عنوان منابع اطلاعاتی در انبار داده‌ها، ETL شوند؟

سؤال دوم: انتقال داده‌های سیستم‌های مکانیزه و عملیاتی سازمان به انبار داده‌ها چگونه باید انجام شود؟

سؤال سوم: برای هر سیستم عملیاتی موجود، چه اطلاعات و آمارهایی و با چه سطح دسترسی و با چه جزئیاتی (صفات و مقادیر صفات) باید استخراج شوند؟

سؤال چهارم: کیفیت داده‌های ETL شده (Data Quality) در چه سطحی خواهد بود؟

  • در چرخه عمر هوشمندی کسب‌وکار، سیستم‌های عملیاتی نقطه آغازین برای ارائه داده‌ها هستند که در ادامه، مورد تحلیل قرار خواهند گرفت. اگر داده‌هایی که در سیستم‌های عملیاتی ذخیره شده‌اند، به درستی در انبار داده‌ها تجمیع نشوند، امکان تحلیلی صحیح و جامع از آن‌ها میسر نخواهد بود. همچنین اگر سیستم‌های عملیاتی دارای خطای داده‌ای باشند، در زمان نگاشت (Mapping) و تجمیع (Aggregate) داده‌ها، مشکلات زیادی بروز خواهند کرد. لذا کیفیت داده‌ها موضوع مهمی در ایجاد انبار داده‌ها و کیفیت تصمیمات حاصله خواهد بود.
  • چنانچه داده‌ای کاملاً اهداف خود را پوشش دهد، آنگاه آن داده‌ها دارای کیفیت شناخته می‌شوند. عدم کیفیت داده در سیستم‌های عملیاتی و مکانیزه، یکی از مهم‌ترین عوامل شکست پروژه‌های BI است. چنانچه کاربران احساس کنند که داده‌ها و اطلاعات دریافتی آن‌ها از صحت و دقت کافی برخوردار نیست، اعتماد خود را نسبت به سیستم‌های هوشمندی کسب‌وکار از دست می‌دهند.

اهمیت کیفیت داده‌ها را می‌توان در موارد زیر خلاصه نمود:

  • اطمینان مضاعف در تصمیم‌گیری‌ها
  • کاهش ریسک تصمیم‌گیری‌ها و در نتیجه کاهش هزینه‌ها
  • بهبود در تصمیمات استراتژیک
  • پرهیز از تأثیرات مرکب داده‌های آلوده

دلایل ناپاکی و یا بی‌کیفیت بودن داده‌ها را می‌توان به‌صورت زیر عنوان نمود:

  • اشکالات سیستمی برنامه‌های عملیاتی و مکانیزه سازمان
  • در برنامه نرم‌افزاری
  • در طراحی بانک اطلاعاتی
  • استفاده مقادیر پایه‌های متفاوت
  • وجود شناسه‌های غیر یکتا
  • وجود معانی نامفهوم در مقادیر پایه‌ای
  • وجود فیلدهای چندمنظوره
  • تبدیل داده‌ها از سیستم‌های قدیمی و انتقال نادرست اطلاعات از بانک اطلاعاتی قدیمی به جدید
  • وجود تعاریف متفاوت یا تعریف نشده یا شفاف نشده از  داده‌ها
  • گردآوری نادرست داده‌های چند سیستم
  • ترکیب نادرست انتظارات کاربران
  • داده‌های ورودی ناقص
  •  فقدان سیاست‌های مدیریت و کنترل صحت داده‌ها (عدم وجود تائید کنندگان در سیستم‌های مکانیزه و عملیاتی)
  • وجود چند کپی از داده‌ها در دست چندین نفر و بروز رسانی شخصی آن داده‌ها توسط هر فرد
  • ورود سهوی داده‌های اشتباه
  • ورود عمدی داده‌های اشتباه (مثلاً کلاه‌برداری)

برای کنترل کیفیت داده‌ها باید به حاکمیت داده‌ها (Data Governance) در سه سطح زیر توجه ویژه شود:

  • مالکیت داده یا Data Ownership که به عهده واحدهای متولی داده در سازمان است. واحدهای مختلف سازمان در رابطه به داده‌های خود، سطوح دسترسی، نحوه توزیع و قوانین مرتبط سازمانی را بهتر از دیگران می‌دانند.
  • نظارت بر داده یا Data Stewardship که به عهده مدیران واحدهای متولی داده  یا واحدهای نظارتی یا ستادی سازمان است. در این سطح از اختیارات، امکان ارائه پیشنهاد‌هایی در خصوص دسترسی، امنیت، توزیع و نگهداشت ارائه می‌شود.
  • نگهداشت داده‌ها یا Data Custodianship که به عهده مدیریت زیرساخت فناوری اطلاعات سازمان است. ازآنجایی‌که این مدیریت صلاحیت لازم در خصوص مهارت‌های فنی لازم، شناخت مفاهیم و رویه‌های امنیت داده، رویه‌های بازیابی داده‌ها و … را دارا است، مسئولیت ذخیره‌سازی، در دسترس قرار دادن، پشتیبان‌گیری، آرشیو داده و مواردی این‌گونه را در اختیار دارد.

سؤال پنجم: فراداده (Meta Data) های مورد نیاز برای مدیریت انبار داده‌ها چگونه شناسایی و مستندسازی شوند؟

انواع فراداده‌های مورد نیاز عبارت‌اند از:

  • فراداده کسب‌وکار (Business Metadata): به توصیف معانی هوشمندی کسب‌وکار و داده‌های انبار شده از دید سازمان می پردازد، داده‌هایی چون تعریف داده و سنجه (metric) ها، قوانین کسب‌وکار، مدل‌های داده‌ای، تعریف مالک / ناظر داده و غیره.
  • فراداده فرایندی (Process Metadata): به توصیف مکان، زمان و چگونگی مراحل دریافت، تبدیل و بارگذاری داده می‌پردازد، داده‌هایی چون نقشه‌های منبع / مقصد، قوانین تبدیل داده، قوانین پاکسازی داده و غیره.
  • فراداده کاربرد (Application Metadata): به توصیف چگونگی دسترسی و استفاده از داده می پردازد، داده‌هایی چون تاریخچه دسترسی به داده، فرکانس، زمان و چگونگی دسترسی به داده و غیره.
  • فراداده فنی (Technical Metadata): به توصیف مکان های فیزیکی داده، قالب های داده، حجم داده، نام های فنی، نوع داده، ساختارهای داده و غیره می پردازد.

سؤال ششم: مدیریت داده‌های اصلی یا MDM (Master Data Management) چگونه انجام خواهد شد؟

در هر سازمان، داده‌های اصلی زیادی وجود دارد که باید برای انتقال در انبار داده‌ها، یکپارچه و Unique شوند. این داده‌ها و اطلاعات اصلی می‌توانند انواع محصولات، انواع خدمات، تقسیمات جغرافیایی، سرفصلهای بودجه‌ای، اسامی پروژه‌ها و … در پایگاه‌های مختلف سازمان باشند که باید یکپارچه‌سازی شوند. به عملیات یکپارچه سازی این داده‌های اصلی MDM یا Master Data Management گفته می‌شود. نمونه رایج و همیشگی مشکلات MDM را میتوان موارد به‌صورت زیر دسته بندی نمود:

  • مدیریت صفات و ساختار فرزند ساختاری بین صفات مرتبط و همچنین یکپارچه سازی مقادیر و کدهای مرتبط با صفات در انبار داده‌ها
  • مدیریت اطلاعات مرتبط به داده‌های اصلی در دو پایگاه اطلاعاتی مختلف
  • مدیریت فرزند ساختارهای غیر یکسان در دو پایگاه اطلاعاتی مختلف
  • و مواردی دیگر

البته مشکلات وجود داده‌های اصلی متناقض و یا تکراری به ورود اطلاعات های اشتباهی و همچنین خطاهای سیستمی نیز مرتبط است.

سؤال هفتم: آیا داده‌ها در زمان درست (Right Time Data) به انبار داده‌ها منتقل می‌شوند؟

مدیریت زمانبندی انتقال داده‌ها به انبار داده‌ها یکی از تنظیمات مهم و تأثیر گذار در صحت تصمیم‌گیری‌های مرتبط به BI است. به‌روز‌آوری‌ها، هر چه بیشتر در زمان درست خود انجام شوند، اجازه بینش به موقع و اقدام اصلاحی بهتری را میسر می‌سازند. از منظری متفاوت، هرچه تاخیرها در به‌روز‌آوری داده‌ها بیشتر باشد، تبعات بیشتری به سازمان منعکس می‌شود. در اینجاست که مولفه‌های تأخیر در داده‌ها باید بررسی و مدیریت گردد.

تأخیرها در داده‌ها که بر تصمیم‌گیری‌ها تأثیر می‌گذارند عبارت‌اند از:

  • تأخیر دریافت داده از منبع
  • تأخیر در تجزیه‌وتحلیل
  • تأخیر در تصمیم‌گیری

شایان ذکر است که بلادرنگ بودن یا به‌روزآوری‌های سریع برای همه موضوعات BI ضرورت ندارد و فرکانس‌های به‌روزرسانی انبار داده جز مواردی هستند که باید برای هر منبع و هر موضوع به‌دقت بررسی و ارزیابی شوند. چه‌بسا داشتن داده‌های روزانه و یا ساعتی، موجب بروز مشکلات Performance در BI و همچنین بروز سربارهای مالی در حوزه سخت‌افزاری، شبکه‌ای و نرم‌افزاری (هم در انبار داده‌ها و هم در منبع اطلاعاتی) شود.

سؤال هشتم: از کدام مدل طراحی انبار داده‌ها استفاده شود و جداول انبار داده‌ها (Data Warehouse Tables)  چگونه طراحی شوند؟

فراتر از مباحث کیفیت داده‌ها، انتخاب بهترین معماری برای مدل کردن داده‌ها در انبار داده‌ها خیلی مهم و اساسی است. امروزه از دو دیدگاه Top-Down و Bottom-Up  برای مدل کردن انبار داده‌ها استفاده می‌شود که تفاوت آن‌ها بیشتر در انبارش داده‌ها است. در روش Top-Down که توسط Bill Inmon معرفی شده است، انبارش داده‌ها به روش ریزدانه (Granular) و نرمال شده و به‌صورت دانه برفی (Snowflake) طراحی می‌شوند؛ اما در روش Bottom-Up که توسط Ralph Kimball معرفی شده است از روش غیرنرمال بودن داده‌ها و به‌صورت Star استفاده می‌کند.

شایان ذکر است، اگر نیازمندی‌ها و داده‌های مرتبط با هر کدام از مسائل موجود در سازمان (حجم داده‌ها، سرعت تولید یا تغییر داده‌ها، تنوع منابع داده‌ها، ارزش داده‌ها، اعتبار داده‌ها، Real Time بودن پاسخ‌دهی‌ها و …) نیازمند پیاده‌سازی زیرساخت Big Data در سازمان مشتری باشد، این موضوع با بررسی هزینه‌ها و فایده‌ها، باید در دستور کار قرار گیرد.

همچنین تیم استقرار فرابر قابلیت انجام امور ساماندهی و طراحی انبار داده‌های موضوعی سازمان، با متدولوژی BI Pathway Methodology به درخواست مشتریان، را دارا است.

در ادامه می‌توان انبار داده‌های موضوعی سازمان‌ها را کـه با فرابر قابل پیاده‌سازی هستند به‌صورت زیر معرفی نمود:

سازمانی

انبار داده‌های مدیریت سازمانی: شامل کلیه آمار و اطلاعات و شاخص‌های مدیریتی در موضوعات: پرسنل، اطلاعات حقوق و مزایای پرسنل، طرح‌ها، برنامه‌ها و بودجه‌ها، اموال و تجهیزات و…

(با امکان اتصال به انواع سیستم‌های اتوماسیون مالی و اداری، سیستم‌های جامع منابع انسانی و دبیرخانه)

دانشگاهی

انبار داده‌های دانشگاهی دارای:

1. شاخص‌های آموزشی: شامل کلیه آمار و اطلاعات در مـوضوعات: دانـشجویان، اسـاتید، دروس، فارغ‌التحصیلان، دوره‌ها و مقاطع تحصیلی، نتایج آزمون‌ها و امتحانات و …

برای مهر و موم‌ها و ترم‌های مختلف و با امکان اتصال به انواع سیستم‌های آموزشی دانشگاهی

2. شاخص‌های پژوهشی: شامل کلیه آمار و اطلاعات و شاخص‌های مدیریتی در موضوعات: مقالات، انتشارات، پایان‌نامه‌ها، طرح‌ها و پروژه‌های تحقیقاتی و…

با امکان اتصال به انواع سیستم‌های پژوهشی دانشگاهی

-3 شاخص‌های دانشجویی: شامل کلیه آمار و اطلاعات خوابگاه‌ها، امور فوق‌برنامه و …

*** برای دانشگاه‌های علوم پزشکی امکان ایجاد انبارهای داده‌های موضوعی بهداشت، غذا و دارو و درمان (بیماری‌ها) نیز میسر است.

شهرداری

انبار داده‌های خدمات شهری: شامل کلیه آمار و اطلاعات و شاخص‌های مدیریتی در موضوعات شهرسازی،

مدیریت شهری، فنی و عمرانی، مالی واداری و …

با امکان اتصال به انواع سیستم‌های شهرسازی، مالی شهرداری، پرسنلی، بودجه، درآمد و …

استانداری

انبار داده‌های سیمای آمار و اطلاعات استانی دارای:

شاخص‌های جمعیتی، نیروی انسانی و اشتغال، کشاورزی، جنگلداری و شیلات، صنعت، معدن، انرژی، مسکن، حمل‌ونقل، امور قضایی، بهزیستی و تأمین اجتماعی، آموزش، بهداشت و درمان، فرهنگ، بودجه‌ها، طرح‌های استانی و …

با امکان تفکیک اطلاعات و آمار برای همه گروه‌های فرهنگی آموزشی پژوهشی، شرکت‌های دولتی، نظارتی، زیربنایی و تولید، سلامت و رفاه، بیمه و بانک، امنیتی قضایی

خدمات شهری و روستایی (آب، برق، گاز و مخابرات)

انبار داده‌های خدمات شهری یا روستایی (آب، برق، گاز و مخابرات) دارای:

-1 شاخص‌های مصرف: قطعی / خاموشی، کاهش تلفات، اطلاعات پیک مصرف، مـیزان مصرف، تأسیسات زیر بار و …

-2 شاخص‌های مشترکین / مشتریان: انشعابات، تـغییر کاربری‌ها، اطـلاعات مشترکین، درآمدهای حاصله/ پرداخت‌های مشترکین/ مشتریان و…

-3 شاخص‌های تجهیزات و امکانات: اطـلاعات تعمیرات، خـروج / استـهلاک تجهیزات، اطـلاعات نگهداری و سرکشی‌ها از تجهیزات و …

با امکان اتصال به انواع سیستم‌های امور مشـترکین، دیـسپچینگ، جامع مالی و اداری، ایمنی و …

بانکی

انبار داده‌های بانکی دارای: شاخص‌های: مالی، بانکداری الکترونیکی، اعتبارات، مدیریت ریسک، تراکنش‌ها،

امور شعب، سپرده‌ها، حساب‌ها، منابع و مصارف، CRM، توسعه منابع، پرسنلی، ضمانت‌نامه‌ها و…

بیمه انبار داده‌های بیمه گری دارای: شاخص‌های: بیمه‌نامه‌ها، تمدیدی‌ها، خسارت‌ها، شکایات، ترازهای مالی، نمایندگی‌ها، CRM و …
هلدینگ انبار داده‌های هلدینگ ها دارای: شاخص‌های: میزان فروش محصولات و خدمات، ترازنامه، سود و زیان،

بودجه، درآمد، پروژه‌ها، تأمین مواد اولیه، بدهی‌ها و دارائی‌ها و…

شرکت / تولیدی انبار داده‌های شرکت دارای: شاخص‌های فروش، مالی، تولید، مواد اولیه، انبار، توزیع، پرسنل، سود و زیان، پروژه‌ها، درآمدها، بدهی‌ها و دارائی‌ها و…

در همه این Data Warehouse ها امکان دستیابی به داده‌های Historical به‌صورت سیستماتیک میسر خواهد بود.

*** در صورت عدم وجود بـانک اطلاعاتی برای هر موضوع در انبار داده‌ها می‌توان با استفاده از فرم ساز فرابر امکان تجمیع اطلاعات آن موضوع را نیز فراهم نمود.