Na webových stránkách se nachází obrovské množství informací. Víte, jak je získávat, abyste je mohli následně využít v datové analýze? Slouží k tomu web scraping, který můžeme definovat jako automatizovaný způsob sběru dat velkého rozsahu z webu. Tato data pak můžete ukládat ve strukturované podobě.
Představte si sami sebe, kdy si každý den zapisujete ručně například údaje o ceně určitého výrobku na vybraném e-shopu. Tak budete schopni vysledovat, jak se vyvíjí jeho cena. Budete také moci říct, zda deklarované slevy jsou skutečné. Nebo zda se e-shop snaží zákazníky oklamat a ohání se cenou před slevou, za kterou ale reálně nikdy výrobek neprodával.
Přesně na tento problém se rozhodla zaměřit iniciativa Hlídač shopů. Od roku 2017 zveřejňuje analýzy akcí Black Friday a zjišťuje, nakolik je cenotvorba e-shopu pravdivá. Zprávu za rok 2021 si můžete přečíst zde. Aby bylo možné takovou analýzu sestavit, je potřeba velké množství dat o každém výrobku na e-shopu. A ke sběru dat zde slouží právě web scraping.
Mimochodem, pokud byste chtěli mít přehled o vývoji cen zboží, které vás zajímá, můžete si nainstalovat doplněk do svého prohlížeče. Pod vybraným výrobkem se pak zobrazí graf ukazující jak se cena měnila v čase.
Jak funguje web scraping?
Podstatou web scrapingu je procházení HTML kódu webové stránky a buď „výtah“ celého jejího obsahu, nebo vyhledávání pouze určitých dat. Čím přesněji tuto požadovanou informaci definujete, tím rychleji ji program dokáže najít. Takto získaná data můžete ukládat a pracovat s nimi dále.
Pokud si nejste jistí, co si představit pod HTML kódem, zkuste na jakékoliv webové stránce kliknout pravým tlačítkem a vybrat možnost „Zobrazit zdrojový kód stránky“. Stejně tak můžete použít zkratku Ctrl + U.
Kdy je vhodný?
Kromě sběru informací o cenách výrobků se nabízí i další možnosti použití web scrapingu. Je to například:
- sledování nabídky nemovitostí,
- analýza sentimentu,
- získávání dat z Instagramových příspěvků,
- monitoring obsahu článků atd.
Jaké nástroje použít?
K dispozici jsou desítky programů, které se zaměřují na scraping. Můžete se o nich dočíst například zde, nebo i v tomto přehledu. V rámci kurzu Czechitas jsme měly možnost se seznámit se softwarem české společnosti Apify.
Můžete si jej vyzkoušet zdarma, stačí se přihlásit pomocí google účtu. K dispozici jsou tam již vytvořené úlohy, které lze spustit. Stačí jít pod Actors a následně vybrat ze Storage tu, která vás zaujme. Velmi zajímavý článek o použití Apify, napsaný v češtině, je pak k dispozici zde.
Je to legální?
Scrapovat byste měli pouze data, která jsou veřejně přístupná a při jejichž získávání nebudete porušovat nařízení týkající se např. ochrany osobních údajů. Velmi podrobný článek zabývající se problematikou legálnosti web scrapingu si můžete přečíst právě na Apify. Kromě těchto důvodů vás může ještě zastavit i technický aspekt. Webová stránka může mít zakázáno procházení určitých informací a na ty se pak nedostanete.
Další zdroje informací:
- https://apify.com/web-scraping
- https://blog.apify.com/tag/web-scraping/
- https://www.zyte.com/learn/what-is-web-scraping/
- https://www.geeksforgeeks.org/what-is-web-scraping-and-how-to-use-it/
- https://towardsdatascience.com/web-scraping-basics-82f8b5acd45c
Máte zkušenost se scrapováním? Jaká data jste sbírali?