Skocz do zawartości
mcbarlo

Macierz dyskowa - sprzętowa czy programowa?

Polecane posty

Zastanawiam się nad doborem systemu storage'owego dla kilkunastu serwerów. W związku z tym, że dyski w każdym serwerze osobno to często marnacja miejsca chciałbym to jakoś skonsolidować. Techonologia jaką chce łączyć dyski z serwerami to fibre channel.

 

Na rynku jest sporo tzw. sprzętowych macierzy choć bardziej bym je nazwał zamkniętymi. Oczywiście lista ficzerów jest imponująca nawet dla prostrzych modeli takich jak Lenovo S3200. Mam jednak dylemat w przypadku takich rozwiązań, bo na pewno jest pięknie jak wszystko działa, ale co jak zaczną się problemy? Na wsparcie producenta tak do końca nie liczę, a materiałów w sieci jest niewiele. Przez zamkniętość jest też niewielkie pole manewru. Dodatkowo spore koszty zakupu + konieczność korzystania z dysków z nalepką co jeszcze zwiększa koszty.

 

Przy rozwiązaniu typu zwykły serwer + linux panuje w 100% nad wszystkim, ale trzeba sporo wysiłku żeby to wszystko poskładać do kupy. Są też gotowce typu FreeNAS lub OpenMediaValult, które wyglądają bardzo obiecująco. Pytanie tylko jak bardzo dopracowany i stabilny jest SCST czy inne targety dla FC w Linuxie i BSD? Cała reszta nie odbiega znacząco od konfiguracji lokalnych dysków. Czy ewentualnie postawić na Cepha zamiast ZFS-a czy software RAID-a?

 

Jeśli macie doświedczenie z powyższymi rozwiązaniami w praktyce to bardzo proszę o opinie.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Nigdzie nie napisałem, że to ma być jeden node. Choć masz rację, Ceph lepiej się sprawdzi jak będzie rozproszony po node'ach obliczeniowych. Choć wtedy zamiast systemu typu blade do obliczeń + macierz trzeba skorzystać z wieloramkowych serwerów w obudowach 2U+ co może zająć więcej miejsca i zjeść więcej prądu. Co nie oznacza, że inwestycja będzie sporo tańsza i właśnie to może skompensować nieco wyższe koszty utrzymania. Wtedy też odpada cała zabawa z FC, bo wystarczy 10GE.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Imo ceph nadaje się bardziej pod archiwizację. Nawet przy trzymaniu journala na ssd, przy dużych systemach rebalans potrafi potężnie orać wszystkie zasoby.

Uwierz mi, testowałem to również na 40Gbit szkielecie.

Może jakieś MD od della lepiej się sprawdzi?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Jednak potrzebuje sporej wydajności. 40G to nic innego jak zagregowane 4x10G w jeden port choć nie sądze żeby to mogło być wąskim gardłem.

 

Zastanawiam się jaką przewagę daje zamknięta macierz nad serwerem z Linuxem? Poza prostotą wdrożenia są chyba same wady. Duże koszty, konieczność używania brandowanych dysków co jeszcze bardziej zwiększa koszty, zamknięte rozwiązanie co pogarsza elastyczność. Może wydajność i bezpieczeństwo danych? Myślę, że tu może być podobnie.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bezawaryjność (chociaż tu zależy na czym postawisz Twoje rozwiązanie, bo może być porównywalnie). Imo główną zaletą jest szybkość wdrożenia. Nie bawisz się w wertowanie setek manuali, masz całą masę gotowych rozwiązań out of the box.

Minusem jest, jak sam wspomniałeś, koszt.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Już byłem w zasadzie zdecydowany na S3200 od Lenovo, ale szale przeważyła konieczność stosowania dysków z błogosławieństwem. Mam kilkadziesiąt różnych dysków na półce, a żadnego z nich nie mógłbym wykorzystać.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Mam takie wrażenie że nie wiesz co chcesz albo nie masz kasy na to co chcesz/potrzebujesz.

 

FC jest drogie. Sama sieć kosztuje 2x tyle co ethernet. Zostało półtora producenta na polu bitwy i nic nie wskazuje na to że ma się to zmienić. Do tego ilość kabelków i kart w serwerach bardzo skutecznie utrudnia prace potem (Nie ma jak tego włożyć w tanią budę 1U).

 

Żeby ten wydatek miał sens nie ma co iść w serwery z dyskami talerzowymi tylko trzeba iść w macierz najlepiej z cache na SSD. To znowu jest drogie.

 

Nie ma jak z dwóch światów tego połączyć albo masz pracochłonny opensource na ethernecie albo masz blackbox na FC trzecia droga nie istnieje.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Jeśli mam zastosować FC to w Flexie od Lenovo. Tam switch FC wbudowany w budę jest dość tani i node'y też mają wbudowane HBA. Dlatego po stronie storage'u inwestuję tylko i wyłącznie w HBA. Tani jest FC 8 Gbps, szybsze faktycznie wyrywają z butów.

 

Okazuje się, że inwestycja w sprzętową macierz typu S3200 jest większa niż w CAŁĄ infrastrukturę w Flexie. Mam na myśli obudowę na 14 node'ów, zasilanie, switche FC i ethernet.

 

Inne znane mi rozwiązania są faktycznie bardzo drogie.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

No ale zakładasz od razu że nie wyjdziesz poza te porty wbudowane a to często się mści. Na tak małej skali to lepiej iść w SAS zamiast FC.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Tylko jak mam wyjść poza wbudowane porty jak więcej serwerów się w obudowę nie wrzuci niż producent przewidział? Ze switcha FC na zewnątrz wystarczą mi dwa. Sposób podłączenia obu rozwiązań jest przecież identyczny. W przypadku Flexa nie ma opcji z SAS-em, a przynajmniej o niej nie wiem. Jest albo FC albo iSCSI.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Musisz sobie odpowiedzieć na jedno zasadnicze pytanie, co taka macierz zewnętrzna ma Ci dać?

 

Zawsze lokalny storage będzie tańszy, ponieważ nie masz kosztów związanych z budową macierzy jak i utrzymaniem infrastruktury(switche, okablowanie, konserwacje, modernizacje itp).

 

Jeśli chcesz zastąpić lokalne dyski, macierzą po to by szukać oszczędności to jest błędna droga.

 

Jeśli chcesz postawić na stabilność i bezpieczeństwo, to 1 macierz zwiększa ryzyko i potencjalne skutki awarii, a nie je minimalizuje. Tutaj musiałbyś zainwestować w jakieś narzędzia do replikacji danych i drugą macierz która ewentualnie przejmie ruch w przypadku awarii tej pierwsze. Duża macierz, to dużo danych, a i za tym idzie dużo klientów. Tutaj nie ma czasu na diagnostykę bardziej zaawansowaną w przypadku gdy coś się dzieje, trzeba natychmiast przepiąć ruch na storage zapasowy.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Celem jest optymalizacja wykorzystania miejsca na dyskach. Mam serwery gdzie jest sporo miejsca, ale jest kiepsko z pamięcią albo procesorami, a są takie gdzie procek dłubie w nosie, a na dysku ciasno. Rozumiem, że można było to lepiej zaplanować, ale to nie jest rozwiązanie. Potrzebuje czegoś co da się lepiej skalować niż autonomiczne systemy.

 

Rozumiem argument o straszliwych skutkach potencjalnej awarii i szczerze mówiąc właśnie on mnie zniechęca do scentralizowanych rozwiązań.

 

Obecnie mam klaster testowy na którym badam Cepha i póki co jest moim faworytem. :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Dorzucenie dysków na wyrost wyjdzie taniej niż zostawianie macierzy.

 

SSD czy HDD? W przypadku dysków talerzowych jak na duża macierz pójdzie duże obciążenie, duża ilośc klientow to odczuje.

 

Ceph tez potrafi sie posypać. Duża macierz zawsze musi mieć stworzony szybki system recovery z którego w sensownym czasie potrafisz podnieść usługi.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

No właśnie nie jestem do końca przekonany co do ekonomicznego uzasadnienia tej tezy choć macierz w rozumieniu klasycznym mi się w ni cholery nie zapina finansowo. Czasem nie da się dorzucić dysków na wyrost, bo serwery mają ograniczoną ilość ramek, a te co mają ich więcej są droższe. Być może na pewnym poziomie skali opłaca się stosować zróżnicowanie funkcji pełnionych przez konkretne maszyny tj. mocne serwery 1U do obliczeń + słabsze wieloramkowe na storage.

 

Największy stres jest z przestrzenią SSD, bo jest droga choć szybko tanieje. Wówczas instalowanie przestrzeni na zaś to obarczanie usługi niepotrzebnymi kosztami. Może być nawet tak, że nigdy tch dysków nie wykorzystam, bo stwierdzę, że trzeba zamiast SATA instalować już NVMe. :)

 

Ceph to taki złoty środek, a jako bonus daje środowisko HA co nie jest bez znaczenia. W jakich okolicznościach Ceph Ci się sypnął? Bardzo mnie to interesuje w perspektywie moich prób popsucia testowego klastra.

 

Dodam jeszcze, że nie mam zamiaru robić pierdylion-node'owych klastrów. Myślę, że 5 serwerów na klaster daje wystarczającą elastyczność żeby skutecznie zapobiegać marnacji miejsca i takie systemu można potem powielać.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

@mcbarlo pamiętaj że przestrzeń dyskowa na SSD jest droga, ale dyski masz już i 2TB w formacie 2,5", więc w obudowie 1U uzyskasz bardzo duże przestrzenie. A wolne miejsce na dyskach SSD, coż... Warto je mieć i traktować to jako plus. Im więcej wolnej przestrzeni na dysku SSD, tym dłużej Ci ten dysk pożyje ;-). Więc nie traktuj tego jako marnotrastwo.

 

Mieliśmy klienta, który miał uruchomionego Ceph'a na 3 serwerach dedykowanych. Pewnego dnia doszło do błędów synchronizacji i dane wyleciały w kosmos. Nie my tym zarządzaliśmy, więc nie znam większej ilości szczegółów, ale każde rozwiązanie nawet HA potrafi się wywalić. Jeśli nie będziesz na to przygotowany, to taka awaria równa się końcem Twojej firmy (jak w przypadku tego klienta).

 

My tworzyliśmy rozwiązanie typu storage na potrzeby hostingu. Chcieliśmy uzyskać:

- Możliwość łatwej migracji maszyn wirtualnych między nodami

- Szybkość i łatwość odtwarzania maszyn wirtualnych

- Względnie wysoką dostępność

- Częste kopie zapasowe

 

Doszliśmy do wniosku, że rozwiązania gotowe oferujące taką funkcjonalność są zbyt drogie, by racjonalne było ich używanie. Skorzystaliśmy więc z ogólnie dostępnego oprogramowania zbudowaliśmy następującą architekturę:

 

Macierz 25 dysków podstawowa

Macierz 25 dysków zapasowa na którą wykonuje się replika

Macierz 12 dysków SATA na którą wykonuje się kopia z serwera repliki

 

Replika wykonuje się co 15 minut, kopie co 1 godzinę, całość działa na snapshotach więc jest to mało obciążające.

 

Dane 100% SSD. Niezależnie jak by nie liczyć, lokalny storage w każdym wyliczeniu wychodził taniej.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Replikacji w czasie rzeczywistym nie traktuje jako backupu, ale w przypadku sprzętowego padu da bardzo szybki czas reanimacji - to fakt. Jak jakieś herezje zaczną dziać się po stronie systemu plików to one również się zreplikują i tu ważny jest backup, który odzyskuje się dłuuugo. Choć przy nie przesadzaniu w wielkością wirtualek może nie być dramatu choć niekoniecznie.

 

Piszesz o łatwym przenoszeniu wirtualek, ale rozumiem, że nie masz na myśli live migration?

 

HA przy swej całej za***istości jest cholernie skomplikowane co może powodować problemy, ale w końcu trzeba przeskoczyć ten level wyżej i sprawdzić to rozwiązanie w praktyce. :)

 

Jeszcze słówko na temat wolnych dysków. Nie chce zajechać ich na 99%, ale sam pewnie wiesz, że są takie przypadki gdzie wręcz nie ma szans skorzystać z zainstalowanego storage i to jest według mnie marnowanie przestrzeni. Przy konsolidacji mogłaby zostać użyta przez inny system, a bez klastra jest to upierdliwe, a na produkcji nie możliwe (nie teoretycznie, ale praktycznie).

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Owszem, replikacja to nie backup, ale na serwerze repliki mam jeszcze kilka snapshotów z których mogę przywrócić dane do tych z danego dnia. Backup, to osobny serwer, do którego dostęp mają klienci i mogą z niego pobierać dane.

 

Tak, mam na myśli lice migration.

 

To co Ci opisałem nie jest 100% HA, a jedynie repliką z której momentalnie można podnieść dane w przypadku awarii storage. Lub też w razie potrzeby mogę przepiąć ruch na serwer repliki.

 

Dyski są tanie. 1TB ~1,5k netto. Nasz serwer pod storage (bez dysków) to koszt około 20k netto, replika kolejne 20k netto. Policz ile możesz za to kupić dysków ;-), a do tych serwerów musisz jeszcze też dyski dołożyć.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Gość patrys
Replika wykonuje się co 15 minut

 

Z ciekawości jakie to rozwiązanie programowe ?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

W 2.5 ramkach są już dyski 3.84TB ssd ;).

Mcbarlo spróbuj zrobić upgrade cepha, podczas którego wypadnie Ci kilka OSD. Wtedy ceph potrafi wylecieć w kosmos niestety. Sytuacja nie jest częsta, ale może mieć miejsce.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Owszem, replikacja to nie backup, ale na serwerze repliki mam jeszcze kilka snapshotów z których mogę przywrócić dane do tych z danego dnia. Backup, to osobny serwer, do którego dostęp mają klienci i mogą z niego pobierać dane.

 

Tak, mam na myśli lice migration.

 

To co Ci opisałem nie jest 100% HA, a jedynie repliką z której momentalnie można podnieść dane w przypadku awarii storage. Lub też w razie potrzeby mogę przepiąć ruch na serwer repliki.

 

Dyski są tanie. 1TB ~1,5k netto. Nasz serwer pod storage (bez dysków) to koszt około 20k netto, replika kolejne 20k netto. Policz ile możesz za to kupić dysków ;-), a do tych serwerów musisz jeszcze też dyski dołożyć.

 

Jak jest live migration to musi być współdzielony storage oraz możliwość skorzystania z HA. Zależy co masz na myśli mówiąć HA. Czy podniesienie wirtualki po padzie node'a czy jej magiczne przerzucenie bez restartu. Takie rzeczy ma vmware, ale i eksperymantalnie w KVM-ie.

 

Ten 1 TB za 1.5k netto to SSD? Co to za model, bo jakiś podejrzanie tani?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

@areq w przypadku macierzy pod hosting udostępniamy zasoby via nfs. Stworzyliśmy też skrypty które potrafią praktycznie w "locie" zmienić master slave miejscami ;-).

 

Na innej maciach mamy też doświadczenie z iscsi.

 

@mcbarlo Samsung 850 PRO.

Live migration != HA. Migracja maszyn na żywo w vmware jest możliwa nawet jak masz lokalny storage ;-). Dla KVM'a wymagany jest zewnętrzny storage, ale to nie oznacza że masz HA.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Samsung Pro to konsumencki dysk. Pro to on jest tylko z nazwy. ;) Nie mam odwagi ich stosować choć klienci moi mają i żaden nie padł, a są egzemplarze co mają kilka lat. Choć to były raczej jeszcze 840 Pro.

 

W każdym razie ze względu na zaporową cenę Intela DC S3700 wybrałem Samsungi SM863.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Gość
Temat jest zablokowany i nie można w nim pisać.

×