background

Architektura HCP

Hitachi Content Platform może być wdrażane albo w wirtualnych maszynach (HCP VM), albo na fizycznych serwerach dostępowych (HCP seria G). W obydwu tych przypadkach węzły klastra dostępowego (HCP VM lub HCP G) wirtualizują i centralizują przestrzeń dyskową dostarczaną wewnątrz każdego z tych serwerów, w węzłach typu storage HCP S, w macierzach dyskowych podłączonych do serwerów dostępowych, w serwerach plików podłączonych za pomocą protokołu NFS oraz z chmury publicznej.

Rysunek 1. Elastyczne możliwości dostarczania przestrzeni dyskowej w HCP.

 

Węzły dostępowe (HCP G):

  • centralizują i dają dostęp do całej przestrzeni dyskowej,
  • korzystają z wewnętrznej dedykowanej sieci LAN (back-end LAN) między innymi w celu dystrybucji obciążenia (cluster balancing) oraz zapisywania wewnętrznych kopii obiektów,
  • zarządzają licencjonowaniem,
  • obsługują dostęp do HCP poprzez wspierane protokoły oraz API
  • definiują polityki zarządzania danymi,
  • odpowiadają za katalogowanie, indeksowanie i wyszukiwanie,
  • zapewniają mechanizmy, które mają gwarantować zgodność z regulacjami (compliance).

Węzły storage (HCP S):

  • dostarczają dodatkowej, ekonomicznej przestrzeni dyskowej dla HCP,
  • są podrzędne w stosunku do węzłów dostępowych,
  • zapewniają bezpieczeństwo danych, korzystając z mechanizmu Erasure Coding.

Kluczowe i unikalne cechy oraz funkcjonalności HCP

W architekturze Hitachi Content Platform uwzględniony został bardzo bogaty zestaw funkcjonalności, które pozwalają na zapisywanie i śledzenie informacji, upraszczają dostęp do danych, pozwalają na ich wyszukiwanie oraz analizę. Cechy te ponadto ułatwiają zarządzanie, zwiększają bezpieczeństwo danych oraz pozwalają na obniżenie kosztów utrzymania. Wszystkie te wartości możliwe są do osiągnięcia między innymi dzięki poniżej opisanym funkcjonalnościom HCP.

Niespotykana skalowalność rozwiązania, zaczynając nawet od 4TB, a kończąc na nieograniczonej wielkości przestrzeni, którą można dostarczyć z wykorzystaniem wbudowanego mechanizmu tieringu danych oraz zasobów chmury publicznej. W przypadku wykorzystania tylko i wyłącznie zasobów wewnętrznych HCP, skalowalność ta zamyka się na poziomie ponad 600 PB przestrzeni. Rozbudowa Hitachi Content Platform jest bardzo elastyczna i może być realizowana na różnych płaszczyznach niezależnie:

  • od minimum 4 aż do 80 węzłów dostępowych HCP G,
  • od minimum 4 aż do 40 węzłów dostępowych HCP VM,
  • od zera aż do 80 węzłów storage HCP S, podłączonych do jednego klastra dostępowego.

Wsparcie dla wielu protokołów dostępowych, które mogą być używane jednocześnie. W tym możliwość wykorzystania zarówno protokołów tradycyjnych (legacy), takich jak: NFS, CIFS, SMTP i WebDAV, jak i protokołów chmurowych, które używają interfejsu API typu RESTful i które są wykorzystywane przez nowoczesne aplikacje: S3, SWIFT, REST (http). Użytkownicy i aplikacje mogą zapisywać dane korzystając z dowolnego wspieranego protokołu, a potem czytać te same dane używając zupełnie innego, dowolnego wspieranego przez HCP protokołu.

Budowanie hybrydowych pul dyskowych i wykorzystywanie natywnego mechanizmu tieringu danych (Adaptive Cloud Tiering). Dzięki tym funkcjom możliwe jest zarządzenie pojedynczą pulą dyskową, zbudowaną z dowolnej kombinacji jej komponentów:

  • dysków serwerowych – wewnątrz węzłów dostępowych (architektura RAIN),
  • dysków dostępnych w węzłach storage podłączonych do węzłów dostępowych za pomocą sieci Ethernet,
  • dysków udostępnionych w macierzach dyskowych w sieci SAN, podłączonych do serwerów dostępowych za pomocą protokołu Fibre Channel (architektura SAIN),
  • przestrzeni udostępnionych z urządzeń plikowych za pomocą protokołu NFS,
  • przestrzeni dyskowej z chmury publicznej: AWS, MS Azure, Google Cloud Platform, Verizon Cloud, Hitachi Cloud, Alibaba Cloud lub innej dowolnej, która posiada usługi przestrzeni dyskowej S3

Wykorzystanie funkcji multitenancy dla izolacji aplikacji. Dzięki tej funkcji i wraz z funkcjonalnościami thin provisioning oraz ograniczeniami przestrzeni (quota) możliwy jest podział posiadanych w HCP zasobów na tysiące niezależnych partycji (tenant) oraz przestrzeni nazw (namespace), każda ze swoim własnym niezależnych administratorem oraz przypisanymi dla niej użytkownikami.

Plany serwisowe, które od początku do samego końca definiują sposób zarządzania danymi i metadanymi wewnątrz HCP. Określają klasy ochrony danych (ilość przechowywanych kopii), prędkość dostępu (miejsce przechowywania) oraz polityki ich automatycznego usuwania (np. po upływie czasu retencji).

Tryby pracy compliance i enterprise dla przestrzeni nazw. Aby zaspokoić wymagania regulatorów, które wymuszają zagwarantowanie niezmienności i nieusuwalności danych i metadanych. Wykorzystanie w HCP technologii WORM (Write Once Read Many) oraz polityk retencji wraz z dodatkowymi mechanizmami, które pozwalają na gwarancję autentyczności oraz pomagają udowodnić zachowanie łańcucha dozoru (chain of custody). Każda przestrzeń nazw może zostać niezależnie zdefiowana jako przestrzeń compliance albo przestrzeń enterprise. W tej pierwszej nie ma możliwości zmian oraz usuwania dokumentów przed upływem zdefiniowanej retencji. Dla tej drugiej istnieje możliwość utworzenia administratora z dodatkowymi uprawnieniami (privilige delete), które będą pozwalały na usuwanie danych przed upływem okresu retencji. Wszystkie operacje związane z takim usuwaniem są monitorowane, zapisywane w wewnętrznych dziennikach oraz audytowalne.

Wbudowane mechanizmy indeksowania i wyszukiwania metadanych wraz z możliwością budowania własnych tzw. content class w dowolnym momencie cyklu życia obiektu w HCP. Możliwość wykorzystania wbudowanej konsoli do wyszukiwania lub dostępnego interfejsu programistycznego API, w celu zlokalizowania obiektu potrzebnego dla aplikacji lub dla potrzeb analityki biznesowej. Możliwość wyszukania obiektu, dla którego należy zastosować politykę legal hold (zatrzymana retencji na przykład do czasu zakończenia procesu audytowego, w którym obiekt ten jest wykorzystywany jako dowód w sprawie).

Obsługa metadanych własnych, które przechowywane są wraz z obiektem wewnątrz HCP i które podobnie jak dane można zabezpieczyć retencją i WORMem. Metadane własne mogą zostać w taki sposób podzielone, aby wielu autorów (aplikacji) mogło korzystać z oddzielnych sekcji (regionów, adnotacji).

Natywna funkcja bezpowrotnego usuwania danych (niszczenie danych, shredding), która może zostać zdefiniowana w taki sposób, aby wykonywana była automatycznie po upływie retencji dla danego obiektu.

Zarządzanie procesami migracji danych ze starszej na nową technologię sprzętu. Funkcja Autonomic Tech Refresh (ATR) już od ponad 12 lat pomaga organizacjom w migracjach sprzętu, które są realizowane on-line i z zachowaniem inwestycji w aplikacje zintegrowane z HCP oraz w interfejsy programistyczne API, które są wykorzystywane do tych integracji.

Bezkonkurencyjna wydajność osiągana zarówno dla małych, jak i bardzo dużych obiektów dostępna dzięki architekturze wewnętrznej, wydajnym magistralom oraz dyskom flash stosowanym dla przyśpieszania wewnętrznych baz danych.

Funkcjonalność Global Access Topology (GAT) stosowana przy replikacji danych pozwala na odczyt i zapis danych jednocześnie w wielu ośrodkach oraz kontrolę, gdzie (w którym z tych ośrodków) dane te są zabezpieczane.

Ochrona i bezpieczeństwo danych zapewniana na każdym poziomie architektury HCP. Poczynając od zabezpieczeń dysków (RAID-6 oraz Erasure Coding) poprzez kontrolę ilości kopii wewnętrznych, wykorzystanie certyfikatów, komunikacji SSL, 2048-bitowych serwisowych kluczy SSH, na szyfrowaniu kończąc.

Monitorowanie poprzez dostępny interfejs graficzny użytkownika, ale również z wykorzystaniem interfejsu programistycznego API, dzięki któremu istnieje dostęp i możliwość wykorzystania setek alertów, logów oraz raportów.

Spójność danych monitorowana i zapewniona dzięki serwisom weryfikacyjnym, mechanizmom samo-naprawczym oraz zdalnej replikacji, możliwej do zrealizowania pomiędzy wieloma ośrodkami, w tym również replikacji opartej o technologię erasure coding, która działa w środowisku geograficznie rozproszonym.

Wbudowane mechanizmy efektywnego przechowywania danych takie jak kompresja oraz deduplikacja.