Nabízíme ucelené řešení

stažení z WWW

Stažení dat z WWW zdrojů

Jednorázové či pravidelné stahování dat z mnoha různých www zdrojů najednou. Pro každý zdroj je možné nastavit velké množství parametrů, abyste získali maximálně přesné informace.

Klasifikace a převod dat

Různé webové zdroje mají informace uvedeny mnoha různými způsoby, někdy je vše uvedeno jako jeden kus textu, Vy je však potřebujete jednotlivé údaje v jednotném, strukturovaném tvaru.

Uložení do databáze

Načtená, převedená a klasifikovaná data je potřeba uložit. Je třeba např. určit, je-li je datová položka nová, stejná či změněná, včetně vícefázového stahování/doplnění informací z jiné stránky.

Vzorová případová studie

eReality.cz, největší agreace realitních zdrojů v ČR:

  • více než 70 různých zdrojů
  • data načítaná jak z výpisů zakázek, tak detailů
  • klasifikátor rozpoznává mnoho tříd a tisíce údajů včetně souvislostí
  • data v HTML stránkách i v AJAX/JSON formátu
  • libovolně editovatelné parametry pro jednotlivé zdroje a fronty
  • možnost vložení obslužného programového kódu pro jednotlivé events ve všech fázích stahování
  • paralelní stahování s možností použití proxy serverů pro jednotlivé zdroje

Integrovat stahování dat není jednoduché, jinak by suprové vyhledávače dělal každý a uživatelé se nemuseli stále prokousávat desítkami serverů. Běžné webcrawlery se hodí spíš pro fulltext a ne pro databázová data, neumí si poradit pokud jsou www stránky napsané jako JS aplikace. Psát si vlastní speciální stahovač je jednoduché a efektivní při nevelkém počtu WWW zdrojů, ale jakmile se jedná o desítky zcela odlišných zdrojů, potřebujete co nejuniverzálnější a propracovaný stahovač s rozsáhlou administrací a monitoringem aby se daly hlídat změny které jednotlivé weby provádí, či různé problémy.

administrační systém

Pokud máte zájem o podrobnější informace, rádi Vás poskytneme podrobnější informace či konzultaci.