Efektivní ukládání dat vyžaduje promyšlený přístup

CRA

Každý rok generuje lidstvo větší a větší objemy dat – stovky minut videa nahraných každou minutu na YouTube nebo miliony fotografií sdílených každý den na Facebooku


S každým dalším rokem generuje lidstvo větší a větší objemy dat – od stovek minut videa nahraných každou minutu na YouTube nebo stovek milionů fotografií sdílených každý den na Facebooku přes výstupy z miliard zařízení internetu věcí až po nespočetné množství nejrůznějších firemních dokumentů. A všechna tato data je třeba někde skladovat, ať už pro následující zpracování, pro případnou obnovu při problémech nebo třeba za účelem zákonem vyžadované archivace.

Většina dat je uložena v koncových zařízeních a lokálních úložištích, postupně ovšem roste podíl dat ukládaných do cloudu a do storage systémů v datových centrech obecně. Pokud vás zajímají přesnější údaje, pak statistiky hovoří o poměru 84 % vs. 16 % ve prospěch lokálních úložišť, přičemž do roku 2021 by se tento poměr měl změnit na 82 % vs. 18 %.

Před dvěma lety činila kapacita úložných systémů v datových centrech celosvětově 820 exabajtů dat (tedy 820 milionů terabajtů), loni 1120 exabajtů a letos by se měla vyšplhat na 1450 exabajtů. Pro jaká data jsou tyto kapacity vyhrazeny? Odhady pro letošní rok hovoří o 290 exabajtech pro ERP a firemní aplikace obecně, 250 exabajtů připadá na nástroje pro spolupráci, 230 exabajtů na databáze, internet věcí a analytické systémy, 110 exabajtů na systémy pro streaming videa, 90 exabajtů na sociální sítě, 80 exabajtů na nástroje pro vyhledávání, 120 exabajtů na další aplikace pro koncové spotřebitele a 280 exabajtů na další výpočetní aplikace. Nejrychleji v tomto portfoliu za poslední dva roky rostly nároky aplikací pro vyhledávání (z 30 na 80 exabajtů) a systémů pro videostreaming (z 50 na 110 exabajtů).

V roce 2021 by celková kapacita systémů pro ukládání dat v datových centrech měla celosvětově činit 2300 exabajtů, přičemž růst by měly přibližně proporcionálně nároky všech výše zmíněných typů aplikací. Nicméně je třeba dodat, že průměrné využití storage činí podle jeho typu jen 30 – 70 %. (Všechny výše uvedené údaje jsou kvalifikovanými odhady společností Statista a Cisco.)

Rostoucím nárokům na kapacity úložných systémů odpovídá i trh s podnikovými systémy pro ukládání dat, který loni ve finančním vyjádření meziročně vzrostl o 14 % (údaj IDC za 3. čtvrtletí 2017), přičemž instalovaná kapacita byla meziročně vyšší o více než pětinu a ve třetím čtvrtletí činila 72 exabajtů. Mimochodem: Všichni víme, jak to s odhady a statistikami bývá, proto není od věci podívat se o několik řádků výš a srovnat, jak nově instalovaná kapacita z pera analytiků IDC odpovídá již dříve zmiňovaným odhadům firem Cisco a Statista. Nutno konstatovat, že tentokrát jsou spolu údaje z různých stran vzácně kompatibilní.

Zálohování a archivace dat

V systémech pro ukládání dat v datových centrech se nacházejí jak provozní data, se kterými se stále pracuje, tak datové zálohy archivy dat. Zatímco u provozních dat je zásadním požadavkem rychlý přístup a vysoký výkon storage, u záloh a archivů je situace odlišná.

V případě záloh dat, které jsou de facto pojistkou proti selhání primárního úložiště, případně proti selhání člověka či systému, který s daty v primárním úložišti pracuje, se konkrétní požadavky na storage odvíjejí od akceptovatelné doby prodlení mezi požadavkem na obnovu dat a jejich skutečnou obnovou. U archivu pak předpokládáme, že data nebudou běžně používána, je ovšem třeba je mít k dispozici - a to mnohdy i po řadu let, například z legislativních důvodů. Nároky na rychlost získání těchto dat bývají relativně nízké.

Z výše uvedeného plyne, že pro data ukládaná z různých důvodů lze použít odlišné úložné technologie, a to tak, aby byly požadavky na rychlost přístupu uspokojeny maximálně efektivně z hlediska nákladů.

 

Storage tiering

Vhodným řešením různých požadavků na uložení dat je takzvaný storage tiering. Komplexní systémy pro ukládání dat zpravidla obsahují různé druhy (úrovně) datových médií, které se od sebe liší jak rychlostí přenosu dat a přístupu k nim, tak náklady na pořízení a provoz. Data, u kterých existují vysoké nároky na rychlost přístupu, jsou ukládána na dražší média s kratší přístupovou dobou, data, u nichž jsou tyto nároky nižší, pak na levnější média s přístupovou dobou delší.

Zprvu bývalo zvykem pracovat se třemi úrovněmi storage: Na vrcholu žebříčku se nacházela úroveň 1 (Tier 1), vyhrazená pro kritická data, která musejí být dostupná rychle a spolehlivě. Následovala úroveň 2 (Tier 2) pro méně kritická data a na konci žebříčku se nacházela úroveň 3 (Tier 3) vyhrazená pro data, která jsou užívána zřídka a lze je tak uložit na pomalá média, například na pomalé pevné disky, případně třeba na pásky. Později se občas hovořilo i o úrovni 0 (Tier 0), a to pro speciální případy, kdy jsou na rychlost přístupu k datům kladeny extrémní nároky, a kde se typicky použijí SSD. V současnosti se situace zjednodušuje a počet úrovní se díky poklesu cen rychlých storage leckdy redukuje na dvě: Primární úložiště je full-flash, vše ostatní je pak sekundární úložiště.

Storage tiering má úzkou souvislost s životním cyklem informací (ILM,  information lifecycle management). Na začátku cyklu, při pořízení, jsou získaná data aktuální a ukládají se do vyšších úrovní storage, zatímco v závěru cyklu, při případné archivaci, končí na pomalých médiích.

V řadě případů je při umisťování dat na různá média využíván automatizovaný systém. Ten průběžně sleduje využívání dat, a ta, ke kterým se přistupuje jen zřídka, přesouvá na pomalejší (a levnější) média. Hovoříme zde o automatickém storage tieringu.

Pokročilé systémy automatického storage tieringu umožňují správcům jemně definovat pravidla, díky nimž lze přesně stanovit, jaká data a za jakých okolností jsou ukládána na jaká média. Tato pravidla typicky rovněž určují, kdy jsou pak případně která data přesouvána do nižších úrovní žebříčku.

Data Storage jako služba

Mnohé organizace jsou výše zmíněných detailů týkajících se ukládání dat ušetřeny, a to proto, že k ukládání velkých objemů dat využívají služby třetích stran, dnes typicky poskytovatelů služeb typu STaaS (Storage as a Service; zřídka je užívána i zkratka SaaS, která ale běžněji označuje služby typu Software as a Service).

Organizace využívají služby typu STaaS pro nejrůznější účely, a to včetně zálohování a archivace dat. Zbaví se tak nutnosti detailně plánovat, pořizovat a spravovat vlastní infrastrukturu, jen si musejí stanovit požadavky na úložiště a objednat příslušnou službu. Další výraznou výhodou tohoto přístupu bývá snadné škálování při růstu nároků na objem ukládaných dat a za zmínku stojí i mnohdy snazší zajištění shody se zákonnými požadavky na bezpečnost uchování dat.

Služby typu Storage as a Service jsou považovány za výhodné především pro malé a střední firmy, které zpravidla nemívají kapitál ani potřebné know-how pro efektivní provozování vlastní storage infrastruktury, která by pokryla všechny jejich potřeby včetně bezpečného zálohování a archivace dat.

Velkokapacitní archiv dat

Příkladem řešení pro archivaci dat u poskytovatele služeb může být právě představená novinka společnosti České Radiokomunikace, která nyní klientům nabízí velkokapacitní Long term archiv o kapacitě až 10 PB.

Long term archiv je, jak už název napovídá, úložištěm pro dlouhodobou archivaci dat, tedy systém pro uložení dat, která zákazník nepotřebuje mít neustále k dispozici. Může jít o archivní firemní dokumenty, medicínská data ale třeba i o záznamy z bezpečnostních kamer.

Technicky je služba zajištěna ukládáním dat na systémy NAS (Network Attached Storage) a zálohováním na pásky ve velkokapacitním úložišti. Záloha je umístěna ve dvou lokalitách CRA – v Praze na Žižkově a na Strahově. V případě požadavku klienta lze data na páskách uchovávat i v jeho vlastní lokalitě. Data jsou v archivu pochopitelně šifrována a zabezpečení celé služby podle provozovatele plně odpovídá požadavkům Obecnému nařízení o ochraně osobních údajů (GDPR).

 

 

Autor: Petr Mandík



18.05.2018
« Zpět na výpis článků
 Top