Skocz do zawartości

Maciej Kuźniar

Użytkownicy
  • Zawartość

    3
  • Rejestracja

  • Ostatnio

Posty napisane przez Maciej Kuźniar


  1. @Przemon - tak naprawdę to jest wieczna rozbudowa i wszystko zależy od jej tempa. Jeśli z jakiegoś powodu zwolnimy z rozbudową to dzieje się tak właśnie jak zaobserwowałeś. Ciężko tutaj o moment złapania oddechu, dokładasz kilkaset dysków i już widzisz że jak nie zamówisz kolejnych to za 3 miesiące będzie słabo. I tak w kółko :-) Architektura za tym wszystkim musi nadążać bo ciągle zmieniają się warunki brzegowe. Na tym polega cała trudność chmury - klienci dostają dużą elastyczność, ale my bierzemy to na siebie a pod spodem jednak operujemy na prawie normalnych gratach - no tyle że to już nasz problem :) W sumie to chyba definicja dlaczego dedyk może być tańszy.

     

    @Misiek08 - no tak, wahania zawsze będą, pytanie czy mają znaczenie. Tj. powiedzmy 20% od 350 MB/s przy odczytach to 280MB/s - nadal wydaje sie good enough :-) Problem jest jeśli to spada poniżej jakiejś konkretnej brzegowej wartości kiedy zaczyna przeszkadzać.

     

     

     


  2. Cześć,

     

    Generalnie macie racje, faktycznie ostatnie tygodnie były ciężkie głównie z powodu tego że technologia której do tej pory używaliśmy do budowy sieci storage (Infiniband) przy obecnej już wielkości infrastruktury przestała działać stabilnie. Core tej sieci dział w oparciu o SRP którego rozwój zarówno przez Mellanoxa i jak i vmware'a został (być może nieoficjalnie) zarzucony. Mieliśmy dwie opcje tj. iser albo FC. Iser na razie nie wygląda najlepiej wobec czego podjęliśmy decyzję o całkowitej migracji na SAN FC i to się właśnie stało dzisiaj tj. 23.06.216 został wymieniony cały rdzeń sieci, agregacje, switche brzegowe oraz same karty HBA/HCA we wszystkich serwerach Oktawave - to była cholernie trudna operacja bo tego jest już naprawdę dużo, szczególnie że chcielibyśmy utrzymać większość usług online - co w dużej części się udało jakkolwiek skończyliśmy dopiero o 7 rano a nie o 4 zgodnie z planem.

     

    Podsumowując, od dzisiaj Oktawave nie działa już na Infini, jedziemy na FC 8/16Gbps (zależnie od regionu). To oznacza mamy nadzieję dużo większą stabilność w dostępie do OVS'ów przy trochę większym latency (Infiniband to rząd mikrosekund, FC to milisekundy). Z punktu widzenia klienta lepiej mieć stałe 5-10ms niż zazwyczaj 0,5ms w skokach do tysiąca.

     

    W ciągu kilku dni pojawią się też nowe subregiony oparte o najnowsze Intele, tak więc warto będzie rozważyć migrację do nich.

     

    W każdym razie - mogę tylko przeprosić że nie zdecydowaliśmy się na ten krok (związany z wymianą sieci) wcześniej i pokornie przyznać że nie nadążaliśmy ostatnio za skalą ale wyciągnęliśmy już z tego stosowne wnioski.

     

    Pozdrawiam,

    Maciej Kuźniar.

     

     

     

    • Upvote 1

  3. Skoro wszystko było zduplikowane, podzielone na dwie niezależne szafy etc - to taki pad powinien trwać maksymalnie minutę :) Może po prostu mieli dużo szczęścia i wszystko udało się rozwiązać w 3,5h, może ta awaria nie wyrządziła aż takich szkód jak ta w beyond - nie wiem - ale awaria systemu storage była i to nie podlega wątpliwości. Nie wrzucam nikogo do jednego worka, troche offtopicznie w tym wątku zaczęliśmy dyskutować o macierzach w zastosowaniach na hostingu współdzielonym.

     

    Cześć,

     

    No dobrze, skoro już zostaliśmy przywołani do tablicy (Oktawave) to spróbuję wyjaśnić. Faktycznie prawdą jest że były przerwy w dostępie do storage'u - głównie końcówka 2013 i część 2014 ale one nie nigdy nie były spowodowane padem storage'u a zawsze zanikiem komunikacji ze storagem. Nie wiem ile osób pamięta, ale wykorzystujemy (do tej pory) stosunkowo egzotyczną technologię w warstwie sieci dostępowej do danych - tj. konkretnie Infiniband i to głównie w tym obszarze były problemy. A to problem z driverami, a to niestabilne HCA albo pad któregoś i tym podobne. Był to poniekąd efekt uboczny dążenia do maksymalnej wydajności, przy ograniczonym wsparciu vendorów sprzętu/softu.

     

    Nigdy natomiast nie było u nas awarii storage'u której efektem była by utrata jakichkolwiek danych czy też konieczność odzyskiwania z backupu. Natomiast faktycznie mogły mieć miejsce zdarzenia w których po utracie komunikacji IO z dyskami, poszczególne VM'ki musiały zostać zrestartowane i wykonać pełne skanowanie dysków - co czasami niestety trwało i było wyjątkowo irytujące dla klientów (im większy dysk tym bardziej)

     

    Tak czy owak, jasne jest że takie zdarzenia nie powinny mieć miejsca z drugiej strony była to (przynajmniej dla nas) ogromna innowacja która już obecnie po ustabilizowaniu pozwala spokojnie uzyskiwać w Oktawave prędkości zapisu/odczytu danych dochodzące (czy nawet przekraczające 3GB/s ) dla wolumenów dyskowych podłączanych do OCI (vm'ek) na poziomie min. Tier-2 w górę.

     

    Ktoś zna ofertę hostera/chmury który jest w stanie dostarczyć takie parametry per vm - ręką w góre :-)

     

    P.S nie mówię że takie prędkości są niezbędne, ale dzięki takim wysiłkom świat jednak idzie do przodu

×