Maciej Kuźniar

Czerwiec 24, 2016

@Przemon - tak naprawdę to jest wieczna rozbudowa i wszystko zależy od jej tempa. Jeśli z jakiegoś powodu zwolnimy z rozbudową to dzieje się tak właśnie jak zaobserwowałeś. Ciężko tutaj o moment złapania oddechu, dokładasz kilkaset dysków i już widzisz że jak nie zamówisz kolejnych to za 3 miesiące będzie słabo. I tak w kółko :-) Architektura za tym wszystkim musi nadążać bo ciągle zmieniają się warunki brzegowe. Na tym polega cała trudność chmury - klienci dostają dużą elastyczność, ale my bierzemy to na siebie a pod spodem jednak operujemy na prawie normalnych gratach - no tyle że to już nasz problem W sumie to chyba definicja dlaczego dedyk może być tańszy.

@Misiek08 - no tak, wahania zawsze będą, pytanie czy mają znaczenie. Tj. powiedzmy 20% od 350 MB/s przy odczytach to 280MB/s - nadal wydaje sie good enough :-) Problem jest jeśli to spada poniżej jakiejś konkretnej brzegowej wartości kiedy zaczyna przeszkadzać.

Czerwiec 23, 2016

Cześć,

Generalnie macie racje, faktycznie ostatnie tygodnie były ciężkie głównie z powodu tego że technologia której do tej pory używaliśmy do budowy sieci storage (Infiniband) przy obecnej już wielkości infrastruktury przestała działać stabilnie. Core tej sieci dział w oparciu o SRP którego rozwój zarówno przez Mellanoxa i jak i vmware'a został (być może nieoficjalnie) zarzucony. Mieliśmy dwie opcje tj. iser albo FC. Iser na razie nie wygląda najlepiej wobec czego podjęliśmy decyzję o całkowitej migracji na SAN FC i to się właśnie stało dzisiaj tj. 23.06.216 został wymieniony cały rdzeń sieci, agregacje, switche brzegowe oraz same karty HBA/HCA we wszystkich serwerach Oktawave - to była cholernie trudna operacja bo tego jest już naprawdę dużo, szczególnie że chcielibyśmy utrzymać większość usług online - co w dużej części się udało jakkolwiek skończyliśmy dopiero o 7 rano a nie o 4 zgodnie z planem.

Podsumowując, od dzisiaj Oktawave nie działa już na Infini, jedziemy na FC 8/16Gbps (zależnie od regionu). To oznacza mamy nadzieję dużo większą stabilność w dostępie do OVS'ów przy trochę większym latency (Infiniband to rząd mikrosekund, FC to milisekundy). Z punktu widzenia klienta lepiej mieć stałe 5-10ms niż zazwyczaj 0,5ms w skokach do tysiąca.

W ciągu kilku dni pojawią się też nowe subregiony oparte o najnowsze Intele, tak więc warto będzie rozważyć migrację do nich.

W każdym razie - mogę tylko przeprosić że nie zdecydowaliśmy się na ten krok (związany z wymianą sieci) wcześniej i pokornie przyznać że nie nadążaliśmy ostatnio za skalą ale wyciągnęliśmy już z tego stosowne wnioski.

Pozdrawiam,

Maciej Kuźniar.

Marzec 8, 2016

Skoro wszystko było zduplikowane, podzielone na dwie niezależne szafy etc - to taki pad powinien trwać maksymalnie minutę Może po prostu mieli dużo szczęścia i wszystko udało się rozwiązać w 3,5h, może ta awaria nie wyrządziła aż takich szkód jak ta w beyond - nie wiem - ale awaria systemu storage była i to nie podlega wątpliwości. Nie wrzucam nikogo do jednego worka, troche offtopicznie w tym wątku zaczęliśmy dyskutować o macierzach w zastosowaniach na hostingu współdzielonym.

Cześć,

No dobrze, skoro już zostaliśmy przywołani do tablicy (Oktawave) to spróbuję wyjaśnić. Faktycznie prawdą jest że były przerwy w dostępie do storage'u - głównie końcówka 2013 i część 2014 ale one nie nigdy nie były spowodowane padem storage'u a zawsze zanikiem komunikacji ze storagem. Nie wiem ile osób pamięta, ale wykorzystujemy (do tej pory) stosunkowo egzotyczną technologię w warstwie sieci dostępowej do danych - tj. konkretnie Infiniband i to głównie w tym obszarze były problemy. A to problem z driverami, a to niestabilne HCA albo pad któregoś i tym podobne. Był to poniekąd efekt uboczny dążenia do maksymalnej wydajności, przy ograniczonym wsparciu vendorów sprzętu/softu.

Nigdy natomiast nie było u nas awarii storage'u której efektem była by utrata jakichkolwiek danych czy też konieczność odzyskiwania z backupu. Natomiast faktycznie mogły mieć miejsce zdarzenia w których po utracie komunikacji IO z dyskami, poszczególne VM'ki musiały zostać zrestartowane i wykonać pełne skanowanie dysków - co czasami niestety trwało i było wyjątkowo irytujące dla klientów (im większy dysk tym bardziej)

Tak czy owak, jasne jest że takie zdarzenia nie powinny mieć miejsca z drugiej strony była to (przynajmniej dla nas) ogromna innowacja która już obecnie po ustabilizowaniu pozwala spokojnie uzyskiwać w Oktawave prędkości zapisu/odczytu danych dochodzące (czy nawet przekraczające 3GB/s ) dla wolumenów dyskowych podłączanych do OCI (vm'ek) na poziomie min. Tier-2 w górę.

Ktoś zna ofertę hostera/chmury który jest w stanie dostarczyć takie parametry per vm - ręką w góre :-)

P.S nie mówię że takie prędkości są niezbędne, ale dzięki takim wysiłkom świat jednak idzie do przodu

Zaloguj się

Maciej Kuźniar

Zawartość

Rejestracja

Ostatnio

Typ zawartości

Profile

Fora

Katalog firm

Posty napisane przez Maciej Kuźniar

Oktawave - problemy 06.2016

Oktawave - problemy 06.2016

Włamanie do 2be.pl

Przeglądaj

Aktywność