Skocz do zawartości
pekus

Robot / crawler

Polecane posty

Dobry wieczór,

 

kupię gotowy lub zlecę napisanie parsera strony/stron internetowych. W chwili obecnej
na "tapecie" mam jeden serwis (nie PKT). Docelowo będzie więcej strony www.

 

Moja wizja działania:

 

a) uruchamiam skrypt,

b) wpisuję słowa kluczowe które mnie interesują; np. "wyprowadze psa"

c) parser przeleci serwis w poszukiwaniu w/w słów kluczowych

d) wyniki zapisze do bazy danych (np. link do strony)

e) na końcu wybrane informacje zapisze do pliku *.txt.

 

Wszelkie uwagi, propozycje mile widziane. Cena orientacyjna.

 

Oferty proszę składać przez PM, ewentualnie na PM podam adres @.

 

Pozdrawiam,

Artur

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

 

c) parser przeleci serwis w poszukiwaniu w/w słów kluczowych

 

Rekursywnie cały serwis?

 

 

d) wyniki zapisze do bazy danych (np. link do strony)

 

Co ma być właściwym wynikiem? Link? Tytuł? Coś jeszcze?

 

 

e) na końcu wybrane informacje zapisze do pliku *.txt.

 

Jak wyżej ;)

 

Rozwiniesz? Może być na PW, ale wydaje mi się, że takie rozwinięcie przyda się wszystkim.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

@pedro84:

 

- chyba nie wiem co oznacza pojęcie "rekursywnie";

 

- co mnie interesuje: 1) link do strony/ogloszenia 2) tytul 3) tresc 4) ewentualnie "inne" (np. data dodania ogloszenia);

 

- w pliku txt ma się znaleźć: data dodania ogloszenia; link itp.

 

Oczywiscie, duplikaty wpisow nie powinny miec miejsca.

 

Podobno można to zrealizować na zasadzie: skrypt jako główny moduł; strony jako "szablony" podpinane w późniejszym terminie.

 

Chyba nie muszę dodawać, że powinien być support skryptu ;)

 

=========================

Dla przykładu: oferia.pl

 

- wpisuję jako słowo kluczowe "fotograf";

- skrypt przeszukuje serwis;

 

*.txt

 

Fotograf Bardzo dobry ! na 29 sierpnia 2015

http://oferia.pl/zlecenie/item1034182-fotograf-bardzo-dobry-na-29-sierpnia-2015

 

Fotograf na przyjęcie ślubne

http://oferia.pl/zlecenie/item1042022-fotograf-na-przyjecie-slubne

 

 

 

 

Edytowano przez pekus (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

@pedro84:

 

- chyba nie wiem co oznacza pojęcie "rekursywnie";

 

 

Rekursywnie czyli bot ma podążać za linkami i przeszukiwać wszystkie podstrony.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Jeśli to mają być tylko strony typu Oferia, to mają one swoje wewnętrzne wyszukiwarki, zatem i skrypt mógłby ograniczać się do przejrzenia tylko wyników wyszukiwania. Byłoby to rozwiązanie najprostsze, najszybsze i najbardziej optymalne, tak dla serwera z botem, jak i dla przeszukiwanego portalu.

 

Chyba, że wewnętrzna wyszukiwarka na danej stronie nie istnieje lub działa w sposób niezadowalający (inny niż byśmy chcieli), wówczas trzeba faktycznie przejrzeć cały portal (lub przynajmniej ściśle określoną jego część zawierającą np. pełną listę ogłoszeń, a także każde ogłoszenie z osobna, jeśli lista zawiera tylko skrócone wersje ogłoszeń). W takim przypadku przydałby się jeszcze jakiś 'cache' (wewnętrzna kopia przejrzanych już wcześniej ogłoszeń), bo przeglądanie dziesiątek tysięcy stron (ogłoszeń) każdorazowo dla kolejnych zapytań optymalnym rozwiązaniem nie będzie (mogłoby się nawet kończyć banem dla bota na danym portalu).

Edytowano przez Piotr GRD (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

@Piotr: dzięki za wypowiedź...coś sobie przypomniałem...RSS...sprawdziłem...portal posiada RSS jeśli to ma jakieś znaczenie.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

czyżbym podał za mały budżet, że zainteresowanie jest zerowe?

 

Może powinienem wpisać 1000+?

 

albo... 1500+ ?

Edytowano przez pekus (zobacz historię edycji)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
=========================

Dla przykładu: oferia.pl

 

- wpisuję jako słowo kluczowe "fotograf";

- skrypt przeszukuje serwis;

 

*.txt

 

Fotograf Bardzo dobry ! na 29 sierpnia 2015

http://oferia.pl/zlecenie/item1034182-fotograf-bardzo-dobry-na-29-sierpnia-2015

 

Fotograf na przyjęcie ślubne

http://oferia.pl/zlecenie/item1042022-fotograf-na-przyjecie-slubne

 

Ok, o to mi chodziło ;)

 

 

W zasadzie jedno ogloszenie = 1 strona.

 

Czekaj, przeszukujemy cały serwis pod kątem jakiegoś słowa kluczowego, tak?

 

---

 

Najsensowniej byłoby podzielić całość na dwie części - core crawlera i szablony dla poszczególnych serwisów. Wyślę Ci PW, bo za dużo pytań mam i Ci wątek zakopię ;)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Dokładnie tak @pedro84; trenowalem temat 2 lata temu ale calosc upadla; propozycja byla wlasnie taka, ze glowny modul + szablon=przeszukiwany serwis.

 

Przeszukujemy caly serwis pod kątemu zadanego slowa kluczowego. Jest RSS.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Ja bardzo chętnie podejmę się zlecenia. Mam spore doświadczenie w tego typu skryptach. Zapraszam do kontaktu ;)

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony

Utwórz konto

Zarejestruj nowe konto, to proste!

Zarejestruj nowe konto

Zaloguj się

Posiadasz własne konto? Użyj go!

Zaloguj się


×