Skocz do zawartości
  • 0
ArrChi

Oktawave - problemy 06.2016

Pytanie

Witam,

 

Posiadamy kilka serwerów w polskiej chmurze Oktawave. Jak dotąd był spokój, ale od kilku tygodni chmura wciąż zaskakuje awariami, przerwami w dostępie do danych, dysków a jej strona statusowa jest aż czerwono-żółta od statusów.

 

Czy ktoś otrzymał od chmury jakieś lepsze wyjaśnienie niż lakoniczne "przepraszamy za niedogodności" ?

Udostępnij ten post


Link to postu

9 odpowiedzi na to pytanie

Polecane posty

  • 0

Witaj!

Dzisiejszej nocy, tj. z 22 na 23 czerwca, w godzinach pomiędzy 02:00 a 04:00, może wystąpić ryzyko chwilowej utraty dostępu do dysków, podwyższonych czasów dostępu lub wyłączenia bądź restartu niektórych OCI. W tym czasie zalecamy wyłączenie maszyn.
Powyższa przerwa związana jest z koniecznością wymiany kluczowych urządzeń odpowiadających za sieć Infiniband obsługującą dostęp do dysków w subregionach PL-002 i PL-003. Decyzja o wymianie podjęta została w związku z dzisiejszą niestabilnością infrastruktury w subregionie PL-003.
Wspomniane prace mają na celu zapewnienie stabilności usług.

 

Edytowano przez Desavil (zobacz historię edycji)

Udostępnij ten post


Link to postu
  • 0

Tak tez dostalem takie powiadomienie,pytalem o cos innego. Ostatnio bardzo czesto i duzo tych przerw i restartow OCI. Pytalem czy ktos ma jakies blizsze informacje co sie dzieje i kiedy Okta upora sie z tymi problemami.

Edytowano przez ArrChi (zobacz historię edycji)

Udostępnij ten post


Link to postu
  • 0

Jestem w oktawave od początku.

Mieli faktycznie kilka problemów (łącza, storage,)

Mam wirtualki we wszystkich subregionach.

 

PL-001 - ostatnio był lag ze 2-3 tygodnie temuv na między instancją a storage

PL-002 - z rok temu był ostatnio jakiś problem (restart instancji)

PL-003 - w styczniu był ostatnio problem ze storage

 

 

I potwierdzam, ze storage najczęściej jest lipa.

 

Ogólnie to problem się zaczyna jak kleisz większy storage LVM Tier-1 i masz na nim ruch (ja mam akurat taki jeden hostingowy)

Bo jak jeden z węzłów nagle ma await na parę sekund (zdarza się)to load od razu rośnie w kosmos i kernel sypie błędami.

Czasem się to kończy restartem serwera, sprawdzaniem spójności danych etc.

 

Dla węzłów do 300GB takiego problemu nie zaobserwowałem. Prawdopodobnie dlatego, że mają tych przestrzeni storage kilka i jak masz 4 węzły po 300GB to jest większa szansa że któryś złapie laga. Nie wiem, nie mam takich informacji od nich. Przy ostatnim problemie dostałem odpowiedź, że u nich wszystko grało a wg mnie nie do końca.

 

Zastanawiam się nad migracją tego hostingowego na dedyka. Bo po 1 wyjdzie taniej, po drugie będę miał własną przestrzeń storage.

 

Edytowano przez przemon (zobacz historię edycji)

Udostępnij ten post


Link to postu
  • 0

@przemon - zdecydowanie zmigruj to, bo u nich nie ma na żywo backupu instancji w innym miejscu DC, więc jak ogarniesz na dedyku to taniej i stabilniej. A skoro hostingowy, to za transfer płacisz też trochę, więc ogarniesz 2 dedyki i masz spokój.

Każda chmura jest fajna pod zastosowania chmurowe, ale nie pod typowo np. hosting stron z dużą ilością danych, czy storage. Pod bloga zajmującego 1G, na którego wchodzi 500tys. ludzi dziennie to ma sens, ale pod nic co zajmuje miejsce na dysku i używa dużo transferu.

Co do stabilności to rzeczywiście były kłopoty ze storage, ale na szczęście wiemo nich tylko z monitoringu, bo mam teraz 4-5 instancji i wszystko trzymają w RAMie, a na dysk leci dump okresowo (który i tak najpierw trafia w RAM ;) )

Udostępnij ten post


Link to postu
  • 0

Cześć,

 

Generalnie macie racje, faktycznie ostatnie tygodnie były ciężkie głównie z powodu tego że technologia której do tej pory używaliśmy do budowy sieci storage (Infiniband) przy obecnej już wielkości infrastruktury przestała działać stabilnie. Core tej sieci dział w oparciu o SRP którego rozwój zarówno przez Mellanoxa i jak i vmware'a został (być może nieoficjalnie) zarzucony. Mieliśmy dwie opcje tj. iser albo FC. Iser na razie nie wygląda najlepiej wobec czego podjęliśmy decyzję o całkowitej migracji na SAN FC i to się właśnie stało dzisiaj tj. 23.06.216 został wymieniony cały rdzeń sieci, agregacje, switche brzegowe oraz same karty HBA/HCA we wszystkich serwerach Oktawave - to była cholernie trudna operacja bo tego jest już naprawdę dużo, szczególnie że chcielibyśmy utrzymać większość usług online - co w dużej części się udało jakkolwiek skończyliśmy dopiero o 7 rano a nie o 4 zgodnie z planem.

 

Podsumowując, od dzisiaj Oktawave nie działa już na Infini, jedziemy na FC 8/16Gbps (zależnie od regionu). To oznacza mamy nadzieję dużo większą stabilność w dostępie do OVS'ów przy trochę większym latency (Infiniband to rząd mikrosekund, FC to milisekundy). Z punktu widzenia klienta lepiej mieć stałe 5-10ms niż zazwyczaj 0,5ms w skokach do tysiąca.

 

W ciągu kilku dni pojawią się też nowe subregiony oparte o najnowsze Intele, tak więc warto będzie rozważyć migrację do nich.

 

W każdym razie - mogę tylko przeprosić że nie zdecydowaliśmy się na ten krok (związany z wymianą sieci) wcześniej i pokornie przyznać że nie nadążaliśmy ostatnio za skalą ale wyciągnęliśmy już z tego stosowne wnioski.

 

Pozdrawiam,

Maciej Kuźniar.

 

 

 

  • Upvote 1

Udostępnij ten post


Link to postu
  • 0

Dziękujemy za wyjaśnienia. Szkoda faktycznie że tak późno.

Sprawdziłem i na chwilę obecną gołym okiem widać że jest lepiej.

Testy też to potwierdzają, tier-1 chodzi teraz praktycznie jak na początku w 2012/2013r

Zniknął nawet "lag" przy logowaniu ssh (oczekiwanie na prompt)

 

dd bs=1M count=4096 if=/dev/zero of=test conv=fdatasync
4096+0 przeczytanych recordów
4096+0 zapisanych recordów
skopiowane 4294967296 bajtów (4,3 GB), 11,2123 s, 383 MB/s

 

i to wynik przy jednym węźle, przy lvm 4x300GB wiadomo jest wolniej (190MB/s)

Wcześniej to było analogicznie 70-110MB/s i 45-60MB/s (były czasem okresy kiedy chodziło szybciej ale potem wracała zamuła). Zobaczymy jak to będzie wyglądało na przestrzeni miesiąca.

Oby tak samo, bo nie chce mi się przeprowadzać/migrować, a już się za dedykiem rozglądałem.

 

 

 

Edytowano przez przemon (zobacz historię edycji)

Udostępnij ten post


Link to postu
  • 0

Dziękujemy za wyjaśnienia. Szkoda faktycznie że tak późno.

Sprawdziłem i na chwilę obecną gołym okiem widać że jest lepiej.

Testy też to potwierdzają, tier-1 chodzi teraz praktycznie jak na początku w 2012/2013r

Zniknął nawet "lag" przy logowaniu ssh (oczekiwanie na prompt)

 

dd bs=1M count=4096 if=/dev/zero of=test conv=fdatasync

4096+0 przeczytanych recordów

4096+0 zapisanych recordów

skopiowane 4294967296 bajtów (4,3 GB), 11,2123 s, 383 MB/s

 

 

i to wynik przy jednym węźle, przy lvm 4x300GB wiadomo jest wolniej (190MB/s)

Wcześniej to było analogicznie 70-110MB/s i 45-60MB/s (były czasem okresy kiedy chodziło szybciej ale potem wracała zamuła). Zobaczymy jak to będzie wyglądało na przestrzeni miesiąca.

Oby tak samo, bo nie chce mi się przeprowadzać/migrować, a już się za dedykiem rozglądałem.

 

 

 

 

Będzie do 20% wolniej, ale nie gorzej. Tak było w innej chmurze jak odpalili storage. Nie wiem czy to kwestia rurek, ale po prostu z doświadczenia tyle Ci doradzę :)

 

Udostępnij ten post


Link to postu
  • 0

@Przemon - tak naprawdę to jest wieczna rozbudowa i wszystko zależy od jej tempa. Jeśli z jakiegoś powodu zwolnimy z rozbudową to dzieje się tak właśnie jak zaobserwowałeś. Ciężko tutaj o moment złapania oddechu, dokładasz kilkaset dysków i już widzisz że jak nie zamówisz kolejnych to za 3 miesiące będzie słabo. I tak w kółko :-) Architektura za tym wszystkim musi nadążać bo ciągle zmieniają się warunki brzegowe. Na tym polega cała trudność chmury - klienci dostają dużą elastyczność, ale my bierzemy to na siebie a pod spodem jednak operujemy na prawie normalnych gratach - no tyle że to już nasz problem :) W sumie to chyba definicja dlaczego dedyk może być tańszy.

 

@Misiek08 - no tak, wahania zawsze będą, pytanie czy mają znaczenie. Tj. powiedzmy 20% od 350 MB/s przy odczytach to 280MB/s - nadal wydaje sie good enough :-) Problem jest jeśli to spada poniżej jakiejś konkretnej brzegowej wartości kiedy zaczyna przeszkadzać.

 

 

 

Udostępnij ten post


Link to postu
  • 0

@Misiek08 - no tak, wahania zawsze będą, pytanie czy mają znaczenie. Tj. powiedzmy 20% od 350 MB/s przy odczytach to 280MB/s - nadal wydaje sie good enough :-) Problem jest jeśli to spada poniżej jakiejś konkretnej brzegowej wartości kiedy zaczyna przeszkadzać.

 

 

 

 

W sumie nie wyraziłem konkretniej opinii, ale nie miałem zamiaru w żaden sposób negować Oktawave. Te 20% to dla mnie jakby "wkalkulowana strata" i piszę, żeby ktoś nie płakał, że "było 350 to ucięli, bo było zbyt pięknie". Osobiście dla mnie 250MB/s, czy nawet 200MB/s, ale stałe i przede wszystkim - ze stałym, nawet dość wysokim czasem dostępu. 5-10ms to moim zdaniem trochę dużo, ale jak będzie potrzebne mniej, to po prostu inna usługa i tyle :) Jak się utrzyma poniżej 5ms to każdy powinien być zadowolony, bo takie czasy mają inne chmury (niektóre mają te 0.5-1ms i to jest idealnie).

Udostępnij ten post


Link to postu

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się

×