Системи за централно архивирање података – архитектура система

У овом посту пишемо на следеће теме архивског система, а то су висока доступност система, бекап и тиринг архива као и о општој архитектура система. Битна својство архивског система који је неопходно адресирати и имплементирати у процесу реализације јесте систем високе доступности. Генерално узев, имамо два приступа које је могуће остварити у процесу имплементације архивског система и то су:

  1. Висока доступност која се ослања на архитектуру система за виртуализацију представља основну форму високе доступности система за архивирање и ослања се на VMWare платформу која ће се користити за имплементацију. Функционалност која нам је на располагању је HA / High Availability која систем чини отпорним на хардверске отказе и гарантује доступност од 99.9%.
  2. Друга опција је имплементација Veritas Server Cluster система који проширује основне функционалности отпорности на отказе и нуди виши ниво контроле система. Неке од функционалних побољшања су:
    1. Апликативни кластерски систем за Enterprise Vault и MS SQL базе омогућава бољу интеграцију са компонентама система и већи степен отпорности на отказе употребом бољих алгоритама детекције проблема на апликацији.
    2. Интеграција са VMWare инфраструктуром омогућава употребу свих напредних функционалности VMWare система на нодовима кластера – HA, DRS, vMotion за разлику од Microsoft Cluster система (vSphere 5.5). Постоји и тесна интеграција са VMWare Client системом и контроле свих кластерских активности и статуса из познате конзоле.
    3. Могућност планираних активности на ОС серверских машина – редовна примена patch процедура и реконфигурација без гашења система као целине је могућа уколико се имплементира ово решење

Бекап архивираних података представља један од кључних елемената архитектуре система ове намене. Неопходно је разумети да систем архивирања података не представља систем који замењује бекап података и као такав и он мора бити део постојећих бекап процедура. Другим речима, систем бекапа намењен је опоравку података у случају непредвиђених околности, док архива података представља механизам за флексибилно проналажење информација у предузећу. Најбоља опција бекап система која се препоручује је Veritas NetBackup систем који поседује максималну доступну апликативну подршку за бекап Enterprise Vault архивског система. Следе захтеви који систем бекапа мора задовољити у погледу бекап процедура у односу на систем архивирања:

  1. Бекап системских партиција и подешавања инфраструктурних сервера који ће бити део будуће Enterprise Vault системске архитектуре – како је систем NetBackup окружења изграђен у флексибилној multi-site топологији, са високом подршком за бекап виртуалног окружења, систем омогућава бекап системских партиција и конфигурација свих виртуалних машина које ће бити изграђене у архитектури система архиве.
  2. Бекап метаподатака Enterprise Vault окружења – систем архивирања поседује многе конфигурационе параметре који се складиште у SQL базама података, а које укључују сва подешавања система, полиса, директоријума, сајтова, индекса, партиција и др. Ове информације су кључне за функционисање система и њиховим губитком сви архивирани подаци и функција система били би угрожени. Зато је неопходно изградити флексибилне процедуре бекапа и рестора ових конфигурација применом SQL GRT, Accelerator и VMWare Single Pass бекап функционалности присутних у NetBackup окружењу.
  3. Бекап архивских партиција и индекса архива представља централни део бекап процедура. У партицијама и индексима налазе се сви подаци архивирани из апликативних система и бекап ових елемената система има кључни значај за функцију целокупног окружења. Треба напоменути да бекап процедуре имају и непосредан значај за ток процедура архивирања, јер се објекти који се архивирају не бришу из примарних апликација пре првог успешног бекапа архиве. NetBackup поседује посебне полисе намењене баш овим апликативним елементима које омогућују извршавање бекап процедура у сарадњи са Enterprise Vault апликацијом и конзистентно понашање апликације приликом рестор-а података. Тренутно не постоји подршка за грануларни опоравак елемената Enterprisa Vault архива попут мејлова, датотека и сл.

NetBackup има и додатну функционалност која се односи на tiering архивираних података која омогућава миграцију архива са секундарних медија за архивирање на терцијарне медије (попут трака или tier-2 диск система нижих категорија) чиме се одлаже брисање архива. Овај део архивског простора постаје пасиван и доступан је корисницима после restore процедура који Enterprise Vault систем захтева од NetBackup окружења. Имплементација ових процедура има смисла у каснијем животном циклусу архивираних података или код мање значајних PST датотека. Подаци у овом делу архивског система не подлежу свакодневним операцијама бекапа, статични су те не подлежу променама и тако не оптерећују дневно функционисање система у целини.

На следећем приказу представљен је логички приказ компоненти као и архитектура система за архивирање и њихова интеграција у целини:

Овим постом завршавамо тему Централног архивирања података предузећа. За сва додатна питања која се тичу система опоравка од катастрофа архивског система, система архиве Journalig-a електронске поште, SLA категоризације података, самог дизајна система који је прилагођен вашим апликацијама и потребама као и осталим детаљима која нису наведена у овим блог циклусу, можете нас контактирати директно те ћемо радо одговорити на све ваше захтеве. Braineering захваљује свима који су нас пратили у овој серији постова.

Системи за централно архивирање података – захтеви система за складиштење податка

Настављамо причу о хардверском делу система за архивирање како би систем у целини добио одговарајућу архитектуру и уштеде. Пре архивирања сви подаци релевантних система похрањени су на диск простору продукционих сториџ системима   (NetApp, EMC, HP, IBM и др). Како je цена примарног сториџ система (tier 1) по гигабајту висока, податке којима се ретко или уопште не приступа треба преместити на уређаје посебно дизајниране за складиштење пасивних“ података и на тај начин ослободити велике количине простора за продукционе сервисе. Осим смањења цена по гигабајту складишног простора, ови специфични tier 2 диск системи имају и функционалне предности у односу на продукциона окружења. Треба поменути неколико ових функционалности као и захтев који овај уређај мора да испуни:

А. дедупликација : уређаји који су посебно дизајнирани за ове сврхе поседују функционалност inline дедупликације података на нивоу блока променљиве величине чиме се драстично редукује количина података које архиве заузимају, што заједно са софтверским технологијама присутним у апликацији за архивирање (SI –Single Instancing на фајл нивоу, компресија и др) омогућавају уштеде од приближно 90 процената. Све вишеструке копије података заузимају само онолико простора на уређајима колико заузима компресован и дедуплициран садржај једне копије.
Б. репликација : уређаји поседују уграђене функционалности за репликацију података на друге удаљене системе, чиме се добија могућност аутоматске дислокације архиве на другу локацију, могућност disaster recovery-ја система за архивирање. Захтева се да процес репликације ради на нивоу дедуплицираних блокова чиме се умногоме смањује неопходна мрежна пропусност неопходна за пренос података до удаљених система. Такође се захтева да блокови који буду преношени до удаљених локација буду енкриптовани ради заштите од неовлашћеног коришћења.
В. интерфејси : неопходно је да физички уређај има одговарајући интерфејс којим комуницира са системом за архивирање као и са системом за бекап архиве и којем презентује све своје функционалности. Из система архивирања и бекапа се тако управља целим процесом (life cycles) од креирања архива, репликације на удаљене локације, бекапа архиве до брисања архива из система. На овај начин се администрација концентрише само на конкретан систем (архивски и бекап систем, а избегава се свакодневна администрација уређаја) чиме се значајно олакшава администрација целог система.
Г. Гартнер лидер : захтева се да систем буде наведен као лидер у Гартнеровој анализи уређаја у овој категорији у претходној календарској години

Хардверски системи за складиштење архивираних података на примарној и секундарној локацији који одговарају горе наведеним захтевима су EMC DataDomain фамилија производа доступна у разним категоријама у зависности од комплексности система за архивирање и количине садржаја намењеног архивирању у предузећу. Ови уређаји омогућавају лаку конфигурацију и употребу система и за потребе проширења постојећих бекап система у предузећу и за саме процедуре бекапа архива јер поседују неисцрпне функционалности прилагођене овим наменама.

Предложено решење представља платформу са највећим маркет уделом у свету. Своју популарност постигло је широком функционалном подршком, као и великом базом корисника.  Подршка за уређај присутна је у свим водећим бекап и архивским системима, што га чини идеалном опцијом за свако предузеће. Подршка на нашем тржишту и брза доступност резервних делова, за разлику од уређаја ван лидерског квадранта, чине предузећа који се определе за ову опцију потпуно сигурним у високу доступност и функционални континуитет система. За кориснике са имплементираним NetBackup опцијом, уређај пружа највећу могућу подршку за овај бекап софтвер, омогућава да и бекап систем буде проширен на ове уређаје и искоришћен као додатни простор за бекап процедуре. Подршка за OST протокол омогућава екстерну контролу напредних функционалности из постојећег NetBackup система, креирање Automatic Image Replication (AIR) мултидоменског окружења, VMWare и native accelerator опције, Granular Recovery (GRT) подршку и др. Детаљнија обрада бекапа самог Enterprise Vault архивског система биће доступна корисницима по захтеву. На следећој слици налази се Гартнеров магични квадрат за овај тип уређаја из 2014 године, где је и означена његова припадност лидер квадранту:

Гартнеров магични квадрат за Tier-2 диск системе за 2014. годину

У следећем посту бавићемо се целокупном архитектуром система за централно архивирање.

Системи за централно архивирање података – захтеви софтвера за архивирање

Одговарајући софтвер за архивирање мора бити способан да детектује апликативне информације којима се ређе приступа и да их аутоматски премести са примарног сториџ система на јефтиније tier 2 и tier 3 системе. Како се њима приступа ређе, то је могуће на њима применити различите механизме уштеде простора, попут дедупликације и компресије као и single instancing механизама. Ово је могуће применити на два нивоа, како софтверски кроз апликацију за архивирање, тако и на физичким уређајима за складиштење података. За прихватљиво решење може бити изабрана како једна тако и друга могућност као и њихова комбинација, тј. истовремена примена, када се добијају и најбољи резултати уштеде. Следећи принципи софтвера за архивирање морају бити део свеобухватног решења за архивирање:

  • Комплетна апликативна подршка – софтвер за архивирање мора омогућити архивирање свих неструктурираних апликативних садржаја у власништву предузећа који укључују Microsoft Exchange систем, File сервисе и SharePoint систем. Пожељно је да систем има подршку и за друге опције попут Office365, Domino систем као и могућност архивирања комуникација преко социјалних мрежа, уколико предузеће има у виду ову врсту пословања.
  • Предложено решење мора да буде лидер у Gartner-овој анализи – софтверско  решење за архивирања мора бити присутно и рангирано као лидер у Гартнеровој анализи решења за Enterprise Information Archiving платформу у претходној години.
  • Доступност архивираних податаказахтева се да сви архивирани садржаји буду активни (nearline) и доступни клијентима у сваком тренутку по захтеву. Другим речима, архивирани подаци не смеју пролазити кроз комплексне техничке или пословне процедуре које захтевају активности инжењера система да би се омогућила њихова доступност. Сви ови подаци морају бити доступни кроз познате корисничке алате, без посебне обуке намењене корисницима овог система. Овде се мисли на актуелни MS Outlook клијент електронске поште, затим Windows Explorer приступ фајловима на File серверима као и подржане browser апликације за приступ MS SharePoint сајтовима.
  • Offline приступ архиви – како је део података из система који су потребни корисницима премештен са примарних апликативних система, софтвер за архивирање мора омогућити кеширање архивског садржаја на локалне дискове мобилних рачунара како би били доступни и током рада ван предузећа.
  • Миграција локалних мејл архива у централизовани систем – део система одговоран за архивирање Exchange система мора бити способан за детекцију локалних PST датотека и њихову аутоматску или мануелну централизацију у систем за архивирање. На овај начин се додатно осигурава електронска пошта битна за пословање и смањује штета од отказа појединих корисничких система. Такође се на овај начин уводи и нови систем претраге и омогућава глобално управљање садржајем свих и-мејл порука (присутних на серверу и на клијентима).
  • Приступ архиви са мобилних уређаја – систем мора да омогући приступ архиви и претрази архива са мобилних уређаја како би предузеће било у могућности да испоштује евентуалне трендове попут Business mobility и BYOD.
  • Интеграција са e-discovery системом – софтвер за архивирање осим основне претраге која мора бити део система, треба да омогући и интеграцију са напредним системом за анализу архивираног садржаја.

Софтверско решење које задовољава горе наведене захтеве и које се предлаже нашим корисницима и менаџменту ИТ сектора као најбоља опција је Veritas Enterprise Vault. Предложено решење налази се као лидери у Гартнеровој анализи за 2014. годину. Veritas Enterprise Vault тренутно представља лидера у share market проценту у категорији Enterprise Information Archiving решења са преко 31.000 корисника овог софтвера у свету. Највећи корисник има имплементирано решење које архивира 350.000 поштанских сандучића (mailbox-ова), док највећи корисник са journal-only архивом има преко милион сандучића. Veritas је такође усмерен и на cloud архивирање што омогућава промену стратегије корисника у будућности и његову оријентацију ка cloud архивирању. Највећи cloud корисник тренутно архивира преко 130.000 поштанских сандучића. Enterprise Vault свој битан квалитет има и у чињеници да представља најскалабилнији систем у својој категорији, са највећим изграђеним партнерским – Symantec Technology Enabled Partners (STEP) – екосистемом у свету. Сви ови партнери развијају решења за специјализоване софтверске платформе што чине изабрани софтвер прилагодљивим у свим будућим захтевима предузећа.  Узимајући у обзир и остале квалитете које Veritas одвајају од конкуренције попут подршке, иновирања у технологијама и функционалностима, доступност техничке документације преко специјализованих сајтова за размену информација (SORT), чине ово решење идеалним за потребе свих модерних предузећа. На следећој слици налази се актуелни Гартнеров магични квадрат из 2014. године:

Гартнеров магични квадрат за Enterprise Information Archiving за 2014. годину

Системи архивирања свој пуни смисао добијају тек уз интеграцију са системима за напредну претрагу. Напредни систем претраге – е-discovery систем је систем претраге и аналитике вишег нивоа који омогућава предузећу, као правном лицу, увид у садржај који су генерисали сви запослени у свим пословним процесима. Овакав систем аналитике није увек у директној вези са системом архивирања, али сам систем архивирања олакшава имплементацију овог система из разлога већ поменуте униформности записа и лоцирања података у јединствени систем. Другим речима систем архивирања унапред прикупља садржаје за алгоритме система е-discovery процедура и представља први корак у e-discovery процесу (data collection process). Осим основне информативне доступности, ови системи имају битну правну веродостојност генерисаних извештаја која је и једна од основних функционалних елемената ових система и прихватљива је у правним процесима. Следи списак основних функционалности и захтева који предложен систем мора да задовољи:

А. Тражи се тесна интеграција са изабраним Enterprise Vault системом архивирања података.
Б.  Једноставан кориснички портал и интуитиван начин коришћења система.
В. Неки од функционалних захтева које систем мора да задовољи су: правне регулативе у извештајима, комплексне предефинисане полисе претраге са могућношћу њихове промене и снимања за будуће упите, статистика над архивираним подацима по разним параметрима (корисник, тип података, садржаји и др.), централизовани упитници за кориснике, акцелерација претраге над подацима у односу на основни систем претраге, систем оптичког препознавања података у сликама (OCR), подршка за вишејезичност, филтери, предикција и рано откривање правних прекршаја, класификација података и сл.
Г. Систем мора бити лидер у Гартнеровом магичном квадрату за системе електронске претраге.

Софтверско решење које задовољава горе наведене захтеве и које се предлаже нашим корисницима и менаџменту ИТ сектора као најбоља опција је Symantec eDiscovery. Предложена комбинација Enterprise Vault система за архивирање и система електронске претраге Symantec eDiscovery развијеног од стране Clearwell тима, представља једино интегрално решење овог типа развијено у свету до данас. Преко 16.000 компанија има имплементиран овако дизајниран систем, међу којима се налази и више од половине компанија из познате Fortune 100 групе. Годинама предложени систем електронске претраге налази своје место у лидерском квадранту Гартнерове анализе за овај тип софтвера. На следећој слици налази се Гартнеров магични квадрат за e-discovery софтверску категорију за 2014. годину:

Гартнеров магични квадрат за е-discovery софтвер за 2014. годину.

У следећем посту бавићемо се tier-2 сториџ системима за складиштење архивских података, у комбинацији са којима систем архивирања добија свој потпуни смисао, чиме се и заокружује тема о централном архивирању података предузећа.

Системи за централно архивирање података – општи захтеви

Када говоримо о архивирању података предузећа, имамо пре свега на уму податке који су део система чији је садржај неструктурираног типа. У ову категорију спадају системи који чине велики део података у предузећу и чија су контрола и животни циклуси првенствено остављени власницима самих података тј. корисницима. Свако предузеће располаже управо оваквим решењима који заузимају велики удео простора на примарном (tier-1) систему за складиштење података, а присутни су углавном у облику електронске поште у  Microsoft Exchange или Lotus Domino системима, затим у облику фајлова и докумената у Share Point и File Server инфраструктурама и то обично на неколико физичких локација које су интегрални део предузећа. Како се већини ових информација приступа веома ретко, пожељно је имати механизам који препознаје овај садржај и интелигентно га премешта у систем који је способан да га анализира, претражује и складишти на одговарајућим уређајима који су прилагођени овом садржају.

Други део садржаја, који такође чини значајан удео у заузећу простора, представљају подаци који имају структуру и део су система продукционих, развојних и тест окружења база података. Највећи део ових структурираних информација део су Microsoft SQL или Oracle система. Како је садржај самих база високо зависан од логике апликација које те податке генеришу и мењају, то не постоји аутоматски систем ван логике апликације који је способан да самостално контролише базе у целини или у њиховом делу без апликативне подршке. Зато се архивирање овог дела података реализује уз помоћ самог апликативног решења или апликативног тима, а процес не поседује априори аутоматизам присутан у подацима неструктурираног типа.

Трећи део садржаја налази се на корисничким системима и уређајима и такође су део неструктурираних података система електронске поште. Ови подаци представљају корисничке архиве чуване ван система за централно складиштење и веома су подложне губитку у случају квара корисничких машина. Целовит систем за архивирање укључује и процес дислокације ових корисничких мејл архива на централизовани систем и њихово укључивање у претрагу и анализу. Овај део архивирања не мора да укључује све кориснике, већ део корисника чије су локалне архиве по садржају значајне за пословање предузећа и чији би губитак имао негативне последице по исто.

Систем за целовито архивирање података предузећа на основу горе наведених општих принципа треба да укључује следећа начела архитектуре који морају бити испуњени. Овде наводимо само део листе начела, а целовити садржај доступан Вам је по захтеву:

  • Централизација система за архивирање – софтвер за архивирање мора омогућити архивирање свих неструктурираних апликативних садржаја у власништву предузећа у јединственој и централизованој конзоли, без коришћења вишеструких апликативних решења, вишеструког начина лиценцирања нити обуке запослених инжењера за различите платформе. На овај начин се постиже једноставно коришћење система, лакша имплементација и централизована подршка произвођача софтвера као и партнера у току животног циклуса система.
  • Коришћење одговарајућих уређаја за складиштење архивираних података – дестинација архивираног садржаја са tier 1 система за складиштење података мора бити премештена на специјализоване tier 2 диск системе чије су капиталне и операционе инвестиције значајно ниже, а са друге стране имају функције прилагођене овим наменама.
  • Подршка за multi-site топологијуСистем мора подржавати архивирање удаљених локација предузећа и ресурса који су тамо имплементирани. Овај захтев може бити остварен коришћењем централизоване имплементације, имплементацијом посебног проширења на удаљеним локацијама или њиховом комбинацијом. Такође пожељна је могућност да систем може архивирати садржаје различитих AD домена, уколико предузеће поседује комплексну организациону структуру.
  • Висока доступност система – како ће будући систем за архивирање садржати велики део пословно критичних информација захтева се његова висока доступност за кориснике. Такође се захтева могућност update-a компоненти и оперативних система компоненти током радног времена. Систем мора садржати редундантност по свим компонентама архитектуре (виртуалне машине, сервери, мреже, сториџ итд.)

Горе наведена начела и принципи представљају смернице за израду комплетног решења за архивирање. У наредним постовима укључићемо се у причу о конкретним производима који задовољавају горе изнете захтеве, те ћемо се детаљније укључити у анализу карактеристика предложених производа и услова који они морају додатно да испуне.

Системи за централно архивирање података – увод

Овај пост представља уводни текст који има за циљ да отвори тему којом ћемо се детаљније бавити у наредним постовима у погледу функционалности, карактеристика и архитектуре система за архивирање садржаја пословно критичних података предузећа са пословног и техничког погледа, а намењен је како људима који доносе стратешке одлуке и правце развоја информационих система предузећа тако и инжењерима и архитектама истог, а у смислу правилног и целовитог сагледавања предности постојања једног оваквог система са аспекта пословања, сигурности и доступности информација у власништву предузећа.
Системи за целовито архивирање података предузећа (Enterprise Information Archiving) омогућују ИТ управницима и корисницима информационих система предузећа чување и претрагу генерисаних садржаја у току животног циклуса посматраних апликација (е-пошта, фајлови, разговори, Share Point садржај и др.) као и њихову правилну локацију на одговарајуће системе за складиштење података или прилагођене cloud системе, чиме се остварују додатне уштеде у будућим инвестицијама и оперативним трошковима. Анализе показују да се око 90% података генерисаних у предузећу не искористи у првих 6 месеци од њиховог креирања. Такође великом уделу ових података корисници никада не приступе и при том руководство нема никакав увид у садржај и битност ових информација. Ово је последица одсуства система за централно претраживање генерисаних садржаја, јер се они налазе у хетерогеним апликативним системима који користе различите формате и форме похрањивања података и алгоритме претраге. Даље, сви ови подаци налазе се на примарним апликативним системима оптерећујући њихово функционисање, свакодневни одзив и непотребно заузимајући скуп примарни (tier-1) диск простор, чиме чине ове системе неоправдано скупим за имплементацију и одржавање. Све горе наведено представља класичан проблем мета знања (знања о знању) присутан у свим хетерогеним инфраструктурама и решењима које срећемо у данашњим ИТ технологијама.
Решавање овог проблема у последњим годинама поприма све већи значај, у средњим и великим пословним окружењима, како количина информација и њихов прираст постаје све већи, а њихова контрола и анализа све мање могућа. Такође постојање једног оваквог система и његова примена постаје све чешћи захтев ревизија ИТ инфраструктура и обавезан део постојећег електронског екосистема. Такође је битно да овакав систем буде дизајниран и имплементиран у оној форми која задовољава модерне техничке захтеве, једноставност коришћења, и не најмање битно, брзину доступности архивираног садржаја. По Гартнеровој анализи, до 2019. године 75% предузећа имаће имплементиран овакав систем у форми која је управо наведена, за разлику од тренутне вредности која чини једва 10% предузећа. Дакле налазимо се у правом тренутку да кренемо у правилну и суштинску анализу и решавање овог проблема са којим смо суочени у модерном пословању.
Сумарно речено, задатак нам је да уочимо и опишемо проблеме у архитектури тренутних апликативних решења присутних у предузећима, дефинишемо решења и захтеве које решења морају да поседују и да сумарно предложимо конкретан скуп технологија и целовиту архитектуру која те проблеме решава и захтеве испуњава у целини што ће бити урађено у следећим постовима на ову тему.