Skocz do zawartości
go4mail

Moc do parsowania DOM

Polecane posty

Witam.

Napisałam aplikację do parsowania pewnych treści w necie.

Dane są wyszukiwane w określonych serwisach (około 100).

Obecnie działa to na lokalnym komputerze (2Ghz, 4GB, dysk ssd) gdzie postawiłam ubuntu z lampem i używam cron'a. Ale wydajność jest słaba bo korzystam z LTE - niby 100Mbps i dobry zasięg, ale wieś to wieś.

 

Zastanawiam się ile mogę otrzymać za minimalną ilość gotówki ;-)

Poszukuję serwera który miałby:

  • Określony adres IP (aby dodać do listy wyjątków dopuszczonych do bazy danych na serwerze aplikacji);
  • Sporej wydajności - nie wiem czy potrzebuję dedyka, ale aplikacja potrafi obciążyć mój komputer do granic możliwości w trybie ciągłym.
  • Możliwie najlepszego stosunku mocy do ceny.
  • Możliwości wynajęcia serwera zarówno na miesiąc jak i na rok - nie wiem czy aplikacja się "sprzeda" i będę na niej zarabiała a nie chciałabym się wiązać kontraktem na wynajem mocy obliczeniowej czy czegoś takiego.

Bardzo proszę o rozsądne oferty - jestem studentką i budżet jest dość ograniczony ;-) - ale z drugiej strony nie będę się obawiała kubła zimnej wody.

 

Z góry dziękuję za pomoc.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

 

 

Obecnie działa to na lokalnym komputerze (2Ghz, 4GB, dysk ssd)

To na tyle mówi co mam samochód, czerwony, silnik 2l, chyba diesel, na małe zakupy wystarcza :-)

 

Nie podałaś budżetu.

 

IP musi być polskie? Może to być wirtualizacja? Ile zapytań wysyłasz na s/min/h (cokolwiek z tego), czy masz jakieś statystyki dla 1 requesta(chociaż orientacyjne). Z jakich narzędzi i technologii używasz? PHP, PYTHON, NODEJS ?

Edytowano przez PrecelusMaximus (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

To na tyle mówi co mam samochód, czerwony, silnik 2l, chyba diesel, na małe zakupy wystarcza :-)

 

Nie podałaś budżetu.

 

IP musi być polskie? Może to być wirtualizacja? Ile zapytań wysyłasz na s/min/h (cokolwiek z tego), czy masz jakieś statystyki dla 1 requesta(chociaż orientacyjne). Z jakich narzędzi i technologii używasz? PHP, PYTHON, NODEJS ?

 

Intel Core2Duo 2.0Ghz, 2x2GB RAM DDR2-5300, SSD Kingston 40GB SATA2, Inter Gigabit Ethernet LAN zintegrowany z mobo chyba firmy ASRock.

 

A dieslem mnie zraniłeś.

1998 BMW E39 535i M62B35 z azotem na codzień, w wakacje przepędzam złe myśli 1999 Ducati Monster 900. Ale na zakupy wystarcza ;-)

 

IP musi być stałe nie koniecznie polskie.

Może być wirtualizacja.

Jeden skrypt jest wywoływany nie częściej niż co 2 minuty,czyli nie więcej jak:

  • 100 zapytań na sekundę i/lub minutę
  • 3000 zapytań na godzinę.

Statystyki dla pojedynczego zapytania zawierają się w przedziałach:

  • Czas pracy: od 1 do 112 sekund (jak zaczyna zarzynać mi machinę to i zdarza się infinita ;-) ale to wynika z zarżnięcia komputera oraz łącza;
  • Ilość zapytań do sql SELECT: 6;
  • Maksymalna ilość wpisów do sqla INSERT: 4;

Technologia: PHP + Simple HTML DOM + jQuery.

Obecnie skupiam się na optymalizacji. Kod już chyba z dwa razy przepisałam.

Bierz VPS w OVH , za mało mocy zrób cluster i jakoś to będzie działać.

Co znaczy że mam zrobić cluster?

Mowa o połączeniu domowych komputerów czy kilku VPS'ów?

Edytowano przez go4mail (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Gość Web-Support

Co znaczy że mam zrobić cluster?

Mowa o połączeniu domowych komputerów czy kilku VPS'ów?

Kilku VPS :) polecam ofertę Kimsufi bądź VPS - tu najlepiej OVH Cloud VPS bądź MintsHost, ewentualnie jakaś chmura, gdyby potrzeba było więcej zasobów w pewnym momencie - Tiktalik, Aruba albo Oktawave.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
A dieslem mnie zraniłeś.

 

Wybacz nie mogłem się powstrzymać :)

 

Ten sprzęcik trochę leciwy, chyba każdy używany biurowy komputerek za 700-800zł z i3 na allegro będzie miał lepsze osiągi. Dodatkowo wszystko pewnie chodziło pod windosem. Kupując dedyka/vpsa musisz się liczyć z unixem/linuxem. Trzeba nabyć wiedzę na temat konfiguracji całości, plus taki że wszystko będzie szybciej chodziło (pod warunkiem poprawnej konfiguracji). Możesz też kupić serwerek z windosem, liczy że cena wzrośnie 2 razy.

 

Stałe IP, dostaniesz w 99,99% procentach usług przy dzierżawie VPS'a lub serwera dedykowanego.

 

Jeśli chcesz tanio to również proponuje budowę klastra na VPS'ach. A później przejście na dedyki z OVH(kimsufi).

 

Co do klastra. Możesz to to w różny sposób zbudować, najprościej chyba jednak zacząć od mastera i noda. Nie wiem czy masz doświadczenie w tym. Na masterze umieszczasz bazę danych oraz jakieś procedury które będą sterować resztą nodów. Nody to po prostu serwery które będą otrzymywać instrukcje od mastera oraz będzie na nim gromadzić wyniki, na nodach będzie stała cała moc obliczeniowa. Jak dobrze to rozplanujesz to możesz używać jednego mastera i XXX nodów. Dlaczego to jest tanie? Bo możesz zacząć od jednego noda a z czasem powiększyć ich ilość.

 

Możesz zacząć od https://www.ovh.pl/vps/vps-ssd.xml

Drugi pakiet na mastera, drugi/trzeci na pierwszego noda

 

Dedyki

http://www.kimsufi.com/pl/serwery.xml (również OVH ale pod inną marką)

KS-3C lub KS-3B - niestety te modele są dość popularne, czasem je ciężko wyrwać.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Wybacz nie mogłem się powstrzymać :)

 

Dodatkowo wszystko pewnie chodziło pod windosem. Kupując dedyka/vpsa musisz się liczyć z unixem/linuxem. Trzeba nabyć wiedzę na temat konfiguracji całości, plus taki że wszystko będzie szybciej chodziło (pod warunkiem poprawnej konfiguracji). Możesz też kupić serwerek z windosem, liczy że cena wzrośnie 2 razy.

KS-3C lub KS-3B - niestety te modele są dość popularne, czasem je ciężko wyrwać.

 

 

Obecnie działa to na lokalnym komputerze (2Ghz, 4GB, dysk ssd) gdzie postawiłam ubuntu z lampem i używam cron'a.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Dużo można zdziałać przez optymalizację kodu, tj lepsze wyszukiwanie ścieżek w DOM, bo głównie to jest najbardziej pracochłonne przy parsowaniu cudzych treści ;)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Czesc

 

Moze obczaj nasza oferte serwerow VPS standard:

https://tiktalik.com/pl/pricing

 

Nie wiem ile dokladnie zasobow na start potrzebujesz, ale obstawiam ze 2u std, ktore ma dostep do calego rdzenia procesora L5639 lub E5645 powinno byc duzo szybsze niz twoje cale core2duo :)

 

Jesli chcesz moge ci uruchomic okres testowy. Zaloz konto na tiktalik.com i podrzuc mi login/mail na pw a ja uruchomie trial :)

 

Serwery sa rozliczne godzinowo - mozesz wplacic nawet 5zl i doladowac kiedy bedziesz mogla/potrzebowala :)

 

Pozdrawiam

 

Przepraszam za brak pl znakow - pisze z tel.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Core2duo przeciętne ma mocy ponad 2x więcej niż jeden rdzeń który podajesz

  • Upvote 1

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Core2duo przeciętne ma mocy ponad 2x więcej niż jeden rdzeń który podajesz

Między wszelkimi "core2...." a "core i..." była spora różnica wydajnościowa (a nie wiemy jakie c2d ma autorka tematu, ale patrząc na niski zegar to prawdopodobnie e4400, czyli 65nm). Procesory L5639/E5645 To bardziej odpowiedniki i7-970 (tylko o trochę niższym taktowaniu), czyli dużo nowsze procesory wykonane w procesie technologicznym 32nm. W każdym razie obstawiam, że 2ghz procesora opartego o architekturę westmare-ep jest co najmniej z 1.5x wydajniejsze od 2ghz w core2duo.

 

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Tak z dobrego serca - dowiedz się czy te serwisy nie mają nic przeciwko aby parsować ich treść... :) znam kilka przypadków, które zakończyły się mniej miło np przy parsowaniu ogłoszeń z otomoto.pl.. :) kwestia też ile parsujesz, jeżeli tylko tytuł jako link to nie będzie problemu raczej bo tak to i google robi :)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Tak z dobrego serca - dowiedz się czy te serwisy nie mają nic przeciwko aby parsować ich treść... :) znam kilka przypadków, które zakończyły się mniej miło np przy parsowaniu ogłoszeń z otomoto.pl.. :) kwestia też ile parsujesz, jeżeli tylko tytuł jako link to nie będzie problemu raczej bo tak to i google robi :)

 

Od tego jest robots.txt, a jeśli pisze crawlera to powinien sobie dobrze zdawać sprawę z przeznaczenia tego pliku.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się


×