مدیریت و استقرار انبار دادهها
در سطح کلان و کاملاً مدیریتی، ایجاد انبار دادهها یکی از مهمترین و زیرساختیترین مراحل استقرار هوش تجاری یا هوشمندی کسبوکار است. قبل از آغاز طراحی انبار دادهها، تیم استقرار انبار دادههای فرابر خود را ملزم به پاسخگویی به سؤالات زیر میداند:
سؤال اول: چه سیستمهای عملیاتی و یا مکانیزه در سازمان باید بهعنوان منابع اطلاعاتی در انبار دادهها، ETL شوند؟
سؤال دوم: انتقال دادههای سیستمهای مکانیزه و عملیاتی سازمان به انبار دادهها چگونه باید انجام شود؟
سؤال سوم: برای هر سیستم عملیاتی موجود، چه اطلاعات و آمارهایی و با چه سطح دسترسی و با چه جزئیاتی (صفات و مقادیر صفات) باید استخراج شوند؟
سؤال چهارم: کیفیت دادههای ETL شده (Data Quality) در چه سطحی خواهد بود؟
- در چرخه عمر هوشمندی کسبوکار، سیستمهای عملیاتی نقطه آغازین برای ارائه دادهها هستند که در ادامه، مورد تحلیل قرار خواهند گرفت. اگر دادههایی که در سیستمهای عملیاتی ذخیره شدهاند، به درستی در انبار دادهها تجمیع نشوند، امکان تحلیلی صحیح و جامع از آنها میسر نخواهد بود. همچنین اگر سیستمهای عملیاتی دارای خطای دادهای باشند، در زمان نگاشت (Mapping) و تجمیع (Aggregate) دادهها، مشکلات زیادی بروز خواهند کرد. لذا کیفیت دادهها موضوع مهمی در ایجاد انبار دادهها و کیفیت تصمیمات حاصله خواهد بود.
- چنانچه دادهای کاملاً اهداف خود را پوشش دهد، آنگاه آن دادهها دارای کیفیت شناخته میشوند. عدم کیفیت داده در سیستمهای عملیاتی و مکانیزه، یکی از مهمترین عوامل شکست پروژههای BI است. چنانچه کاربران احساس کنند که دادهها و اطلاعات دریافتی آنها از صحت و دقت کافی برخوردار نیست، اعتماد خود را نسبت به سیستمهای هوشمندی کسبوکار از دست میدهند.
اهمیت کیفیت دادهها را میتوان در موارد زیر خلاصه نمود:
- اطمینان مضاعف در تصمیمگیریها
- کاهش ریسک تصمیمگیریها و در نتیجه کاهش هزینهها
- بهبود در تصمیمات استراتژیک
- پرهیز از تأثیرات مرکب دادههای آلوده
دلایل ناپاکی و یا بیکیفیت بودن دادهها را میتوان بهصورت زیر عنوان نمود:
- اشکالات سیستمی برنامههای عملیاتی و مکانیزه سازمان
- در برنامه نرمافزاری
- در طراحی بانک اطلاعاتی
- استفاده مقادیر پایههای متفاوت
- وجود شناسههای غیر یکتا
- وجود معانی نامفهوم در مقادیر پایهای
- وجود فیلدهای چندمنظوره
- تبدیل دادهها از سیستمهای قدیمی و انتقال نادرست اطلاعات از بانک اطلاعاتی قدیمی به جدید
- وجود تعاریف متفاوت یا تعریف نشده یا شفاف نشده از دادهها
- گردآوری نادرست دادههای چند سیستم
- ترکیب نادرست انتظارات کاربران
- دادههای ورودی ناقص
- فقدان سیاستهای مدیریت و کنترل صحت دادهها (عدم وجود تائید کنندگان در سیستمهای مکانیزه و عملیاتی)
- وجود چند کپی از دادهها در دست چندین نفر و بروز رسانی شخصی آن دادهها توسط هر فرد
- ورود سهوی دادههای اشتباه
- ورود عمدی دادههای اشتباه (مثلاً کلاهبرداری)
برای کنترل کیفیت دادهها باید به حاکمیت دادهها (Data Governance) در سه سطح زیر توجه ویژه شود:
- مالکیت داده یا Data Ownership که به عهده واحدهای متولی داده در سازمان است. واحدهای مختلف سازمان در رابطه به دادههای خود، سطوح دسترسی، نحوه توزیع و قوانین مرتبط سازمانی را بهتر از دیگران میدانند.
- نظارت بر داده یا Data Stewardship که به عهده مدیران واحدهای متولی داده یا واحدهای نظارتی یا ستادی سازمان است. در این سطح از اختیارات، امکان ارائه پیشنهادهایی در خصوص دسترسی، امنیت، توزیع و نگهداشت ارائه میشود.
- نگهداشت دادهها یا Data Custodianship که به عهده مدیریت زیرساخت فناوری اطلاعات سازمان است. ازآنجاییکه این مدیریت صلاحیت لازم در خصوص مهارتهای فنی لازم، شناخت مفاهیم و رویههای امنیت داده، رویههای بازیابی دادهها و … را دارا است، مسئولیت ذخیرهسازی، در دسترس قرار دادن، پشتیبانگیری، آرشیو داده و مواردی اینگونه را در اختیار دارد.
سؤال پنجم: فراداده (Meta Data) های مورد نیاز برای مدیریت انبار دادهها چگونه شناسایی و مستندسازی شوند؟
انواع فرادادههای مورد نیاز عبارتاند از:
- فراداده کسبوکار (Business Metadata): به توصیف معانی هوشمندی کسبوکار و دادههای انبار شده از دید سازمان می پردازد، دادههایی چون تعریف داده و سنجه (metric) ها، قوانین کسبوکار، مدلهای دادهای، تعریف مالک / ناظر داده و غیره.
- فراداده فرایندی (Process Metadata): به توصیف مکان، زمان و چگونگی مراحل دریافت، تبدیل و بارگذاری داده میپردازد، دادههایی چون نقشههای منبع / مقصد، قوانین تبدیل داده، قوانین پاکسازی داده و غیره.
- فراداده کاربرد (Application Metadata): به توصیف چگونگی دسترسی و استفاده از داده می پردازد، دادههایی چون تاریخچه دسترسی به داده، فرکانس، زمان و چگونگی دسترسی به داده و غیره.
- فراداده فنی (Technical Metadata): به توصیف مکان های فیزیکی داده، قالب های داده، حجم داده، نام های فنی، نوع داده، ساختارهای داده و غیره می پردازد.
سؤال ششم: مدیریت دادههای اصلی یا MDM (Master Data Management) چگونه انجام خواهد شد؟
در هر سازمان، دادههای اصلی زیادی وجود دارد که باید برای انتقال در انبار دادهها، یکپارچه و Unique شوند. این دادهها و اطلاعات اصلی میتوانند انواع محصولات، انواع خدمات، تقسیمات جغرافیایی، سرفصلهای بودجهای، اسامی پروژهها و … در پایگاههای مختلف سازمان باشند که باید یکپارچهسازی شوند. به عملیات یکپارچه سازی این دادههای اصلی MDM یا Master Data Management گفته میشود. نمونه رایج و همیشگی مشکلات MDM را میتوان موارد بهصورت زیر دسته بندی نمود:
- مدیریت صفات و ساختار فرزند ساختاری بین صفات مرتبط و همچنین یکپارچه سازی مقادیر و کدهای مرتبط با صفات در انبار دادهها
- مدیریت اطلاعات مرتبط به دادههای اصلی در دو پایگاه اطلاعاتی مختلف
- مدیریت فرزند ساختارهای غیر یکسان در دو پایگاه اطلاعاتی مختلف
- و مواردی دیگر
البته مشکلات وجود دادههای اصلی متناقض و یا تکراری به ورود اطلاعات های اشتباهی و همچنین خطاهای سیستمی نیز مرتبط است.
سؤال هفتم: آیا دادهها در زمان درست (Right Time Data) به انبار دادهها منتقل میشوند؟
مدیریت زمانبندی انتقال دادهها به انبار دادهها یکی از تنظیمات مهم و تأثیر گذار در صحت تصمیمگیریهای مرتبط به BI است. بهروزآوریها، هر چه بیشتر در زمان درست خود انجام شوند، اجازه بینش به موقع و اقدام اصلاحی بهتری را میسر میسازند. از منظری متفاوت، هرچه تاخیرها در بهروزآوری دادهها بیشتر باشد، تبعات بیشتری به سازمان منعکس میشود. در اینجاست که مولفههای تأخیر در دادهها باید بررسی و مدیریت گردد.
تأخیرها در دادهها که بر تصمیمگیریها تأثیر میگذارند عبارتاند از:
- تأخیر دریافت داده از منبع
- تأخیر در تجزیهوتحلیل
- تأخیر در تصمیمگیری
شایان ذکر است که بلادرنگ بودن یا بهروزآوریهای سریع برای همه موضوعات BI ضرورت ندارد و فرکانسهای بهروزرسانی انبار داده جز مواردی هستند که باید برای هر منبع و هر موضوع بهدقت بررسی و ارزیابی شوند. چهبسا داشتن دادههای روزانه و یا ساعتی، موجب بروز مشکلات Performance در BI و همچنین بروز سربارهای مالی در حوزه سختافزاری، شبکهای و نرمافزاری (هم در انبار دادهها و هم در منبع اطلاعاتی) شود.
سؤال هشتم: از کدام مدل طراحی انبار دادهها استفاده شود و جداول انبار دادهها (Data Warehouse Tables) چگونه طراحی شوند؟
فراتر از مباحث کیفیت دادهها، انتخاب بهترین معماری برای مدل کردن دادهها در انبار دادهها خیلی مهم و اساسی است. امروزه از دو دیدگاه Top-Down و Bottom-Up برای مدل کردن انبار دادهها استفاده میشود که تفاوت آنها بیشتر در انبارش دادهها است. در روش Top-Down که توسط Bill Inmon معرفی شده است، انبارش دادهها به روش ریزدانه (Granular) و نرمال شده و بهصورت دانه برفی (Snowflake) طراحی میشوند؛ اما در روش Bottom-Up که توسط Ralph Kimball معرفی شده است از روش غیرنرمال بودن دادهها و بهصورت Star استفاده میکند.
“شایان ذکر است، اگر نیازمندیها و دادههای مرتبط با هر کدام از مسائل موجود در سازمان (حجم دادهها، سرعت تولید یا تغییر دادهها، تنوع منابع دادهها، ارزش دادهها، اعتبار دادهها، Real Time بودن پاسخدهیها و …) نیازمند پیادهسازی زیرساخت Big Data در سازمان مشتری باشد، این موضوع با بررسی هزینهها و فایدهها، باید در دستور کار قرار گیرد. “
همچنین تیم استقرار فرابر قابلیت انجام امور ساماندهی و طراحی انبار دادههای موضوعی سازمان، با متدولوژی BI Pathway Methodology به درخواست مشتریان، را دارا است.
در ادامه میتوان انبار دادههای موضوعی سازمانها را کـه با فرابر قابل پیادهسازی هستند بهصورت زیر معرفی نمود:
سازمانی |
انبار دادههای مدیریت سازمانی: شامل کلیه آمار و اطلاعات و شاخصهای مدیریتی در موضوعات: پرسنل، اطلاعات حقوق و مزایای پرسنل، طرحها، برنامهها و بودجهها، اموال و تجهیزات و… (با امکان اتصال به انواع سیستمهای اتوماسیون مالی و اداری، سیستمهای جامع منابع انسانی و دبیرخانه) |
دانشگاهی |
انبار دادههای دانشگاهی دارای: 1. شاخصهای آموزشی: شامل کلیه آمار و اطلاعات در مـوضوعات: دانـشجویان، اسـاتید، دروس، فارغالتحصیلان، دورهها و مقاطع تحصیلی، نتایج آزمونها و امتحانات و … برای مهر و مومها و ترمهای مختلف و با امکان اتصال به انواع سیستمهای آموزشی دانشگاهی 2. شاخصهای پژوهشی: شامل کلیه آمار و اطلاعات و شاخصهای مدیریتی در موضوعات: مقالات، انتشارات، پایاننامهها، طرحها و پروژههای تحقیقاتی و… با امکان اتصال به انواع سیستمهای پژوهشی دانشگاهی -3 شاخصهای دانشجویی: شامل کلیه آمار و اطلاعات خوابگاهها، امور فوقبرنامه و … *** برای دانشگاههای علوم پزشکی امکان ایجاد انبارهای دادههای موضوعی بهداشت، غذا و دارو و درمان (بیماریها) نیز میسر است. |
شهرداری |
انبار دادههای خدمات شهری: شامل کلیه آمار و اطلاعات و شاخصهای مدیریتی در موضوعات شهرسازی، مدیریت شهری، فنی و عمرانی، مالی واداری و … با امکان اتصال به انواع سیستمهای شهرسازی، مالی شهرداری، پرسنلی، بودجه، درآمد و … |
استانداری |
انبار دادههای سیمای آمار و اطلاعات استانی دارای: شاخصهای جمعیتی، نیروی انسانی و اشتغال، کشاورزی، جنگلداری و شیلات، صنعت، معدن، انرژی، مسکن، حملونقل، امور قضایی، بهزیستی و تأمین اجتماعی، آموزش، بهداشت و درمان، فرهنگ، بودجهها، طرحهای استانی و … با امکان تفکیک اطلاعات و آمار برای همه گروههای فرهنگی آموزشی پژوهشی، شرکتهای دولتی، نظارتی، زیربنایی و تولید، سلامت و رفاه، بیمه و بانک، امنیتی قضایی |
خدمات شهری و روستایی (آب، برق، گاز و مخابرات) |
انبار دادههای خدمات شهری یا روستایی (آب، برق، گاز و مخابرات) دارای: -1 شاخصهای مصرف: قطعی / خاموشی، کاهش تلفات، اطلاعات پیک مصرف، مـیزان مصرف، تأسیسات زیر بار و … -2 شاخصهای مشترکین / مشتریان: انشعابات، تـغییر کاربریها، اطـلاعات مشترکین، درآمدهای حاصله/ پرداختهای مشترکین/ مشتریان و… -3 شاخصهای تجهیزات و امکانات: اطـلاعات تعمیرات، خـروج / استـهلاک تجهیزات، اطـلاعات نگهداری و سرکشیها از تجهیزات و … با امکان اتصال به انواع سیستمهای امور مشـترکین، دیـسپچینگ، جامع مالی و اداری، ایمنی و … |
بانکی |
انبار دادههای بانکی دارای: شاخصهای: مالی، بانکداری الکترونیکی، اعتبارات، مدیریت ریسک، تراکنشها، امور شعب، سپردهها، حسابها، منابع و مصارف، CRM، توسعه منابع، پرسنلی، ضمانتنامهها و… |
بیمه | انبار دادههای بیمه گری دارای: شاخصهای: بیمهنامهها، تمدیدیها، خسارتها، شکایات، ترازهای مالی، نمایندگیها، CRM و … |
هلدینگ | انبار دادههای هلدینگ ها دارای: شاخصهای: میزان فروش محصولات و خدمات، ترازنامه، سود و زیان،
بودجه، درآمد، پروژهها، تأمین مواد اولیه، بدهیها و دارائیها و… |
شرکت / تولیدی | انبار دادههای شرکت دارای: شاخصهای فروش، مالی، تولید، مواد اولیه، انبار، توزیع، پرسنل، سود و زیان، پروژهها، درآمدها، بدهیها و دارائیها و… |
در همه این Data Warehouse ها امکان دستیابی به دادههای Historical بهصورت سیستماتیک میسر خواهد بود.
*** در صورت عدم وجود بـانک اطلاعاتی برای هر موضوع در انبار دادهها میتوان با استفاده از فرم ساز فرابر امکان تجمیع اطلاعات آن موضوع را نیز فراهم نمود.