Semalt poskytuje výsledky testov nástrojov Web Scraping

Každý užívateľ má dve možnosti, keď chce používať nástroje na strihanie webu. Používajú buď škrabku na bežný web alebo škrabku na mieru. Aj keď je vlastná škrabka lepšou voľbou, veľa ľudí sa jej kvôli vysokým nákladom vyhýba. Tento nástroj musí byť vyvinutý tak, aby vyhovoval vášmu podnikaniu a preferenciám, takže si vyžaduje veľa práce.

Na druhej strane, škrabky na webe sú príliš všeobecné, pretože sú určené na všeobecné úlohy pri škrabaní po webe. Zvyčajne sú lepšie na niektorých projektoch zameraných na webový prehľadávanie a na iných pracujú v práci. Aby sme vám pomohli správne sa rozhodnúť, niektoré webové škrabky boli podrobené dôkladným testom škrabania na webe a výsledky sú zobrazené nižšie.

Kritériá testu

Webové škrabky boli testované na nasledujúce bežné úlohy extrahovania údajov. Testovali sa na ich schopnosť zoškrabať tabuľky, textové zoznamy a prihlasovacie formuláre. Okrem toho boli webové škrabky testované aj na schopnosť extrahovať údaje z dynamických webových stránok postavených na AJAX. To je zvyčajne jedna z najťažších úloh pre mnohé webové škrabky. Testovaná bola aj ich schopnosť zvládnuť Captchu. Nakoniec boli testovaní na schopnosť zvládnuť rozloženie blokov.

Výsledky testu

Webové nástroje na zoškrabovanie, ktoré sa testovali, sú Content Grabber, Visual Web Ripper, Helium Scraper, Scraper Screen, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor a Easy Web Extractor.

Výsledky ukázali, že produkt Content Grabber je najlepší, pretože sa výborne darí vo všetkých testovaných oblastiach. Z tohto dôvodu získala najvyššie priemerné hodnotenie. Zistilo sa tiež, že všetky nástroje na stieranie webu boli schopné zoškrabať prihlasovacie formuláre a tiež zoškrabať údaje z webových stránok vytvorených pomocou AJAX. Takže ak sú to dva dôvody, prečo potrebujete webovú škrabku, môžete si vybrať ktorúkoľvek z nich. Všetci sa v oboch oblastiach darili veľmi dobre.

Vedľa výkonov Content Grabber je Visual Web Ripper. Fungovalo dobre vo všetkých oblastiach, ale nie tak dobre ako Content Grabber, takže si v priemere získalo 4,5. Ďalším webovým nástrojom je Helium Scraper. Jeho výkon je takmer rovnako dobrý ako výkon Visual Web Ripper. Jediným problémom Helium Scraper je slabý výkon pri manipulácii s rozložením blokov.

Podľa výsledkov testov sa nástroje na zoškrabovanie webu vykonávali v tomto poradí: Grabber obsahu, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor a Easy Web Extractor, ktoré zvyšujú najhorší výkon. ,

záver

Vzhľadom na vyššie analyzované výsledky testov získal Content Grabber hodnotenie 5 vo všetkých kategóriách testov. Takže je to zrejme to najlepšie. Možno to budete musieť vyskúšať. Bohužiaľ, dva webové škrabky vytiahnuté z testu z rôznych dôvodov. Vývojári produktu Web Data Extractor a WebHarvy stiahli svoje výrobky z testu.

Napriek tomu, že sa testu nezúčastnili, o obidvoch sa dozvedeli niekoľko vecí. WebHarvy je určený na zoškrabovanie údajov z dobre naformátovaných stránkových zoznamov, zatiaľ čo nástroj Web Data Extractor slúži výlučne na zhromažďovanie e-mailov, adries URL atď.