StormCrawler
StormCrawler
1
Бесплатное ПО
Открытый код
Категории:
Платформы:
Mac
Linux
Windows
Особенности:
web-crawler
web-crawler
StormCrawler - это SDK с открытым исходным кодом для создания распределенных
веб-сканеров с помощью Apache Storm. Проект находится под лицензией Apache v2
и состоит из набора повторно используемых ресурсов и компонентов, написанных в
основном на Java.
Цель StormCrawler - помочь в создании веб-сканеров, которые:
масштабируемый
упругий
низкая задержка
легко продлить
вежливый, но эффективный
StormCrawler - это библиотека и набор ресурсов, которые разработчики могут
использовать для создания собственных сканеров. Хорошей новостью является то,
что это может быть довольно просто. Часто все, что вам нужно сделать, это
объявить storm-crawler как зависимость Maven, написать свой собственный класс
Topology (совет: вы можете расширить ConfigurableTopology), повторно
использовать компоненты, предоставляемые проектом, и, возможно, написать пару
пользовательских. для вашего собственного секретного соуса. Немного настройки
в Конфигурации и все готово!
Помимо основных компонентов, мы предоставляем некоторые внешние ресурсы,
которые вы можете повторно использовать в своем проекте, например, наши изливы
и болты для ElasticSearch или ParserBolt, которые используют Apache Tika для
анализа различных форматов документов.
StormCrawler идеально подходит для случаев, когда URL-адрес для извлечения и
анализа представляет собой потоки, но также является подходящим решением для
крупномасштабных рекурсивных обходов, особенно когда требуется низкая
задержка. Проект используется в производстве несколькими компаниями и активно
развивается и поддерживается.
Аналоги (6):
-
Scrapy
Scrapy - это открытая и совместная структура для извлечения необходимых вам данных с веб-сайтов.78
Бесплатное ПО Открытый кодMac Linux Windowsdata-mining сбор данных web-scraping framework -
Mixnode
Преврати сеть в базу данных!37
Платное ПОWebweb-crawling поддержка amazon s3 crawling фильтрация по типу контента url filtering web-crawler web-scraper warc выход web-data-extraction web-scraping website-crawler web-scraping-software -
Heritrix
Интернет-архиватор с открытым исходным кодом, расширяемый, масштабируемый в сети, проект поискового робота.3
Бесплатное ПО Открытый кодMac Linux Windowsweb-crawler web-crawling web-data-crawling -
ProxyCrawl
Царапать и сканировать веб-сайты, оставаясь анонимным, и обходить любые ограничения, блоки или капчи3
Бесплатное ПОWebcrawling-as-service scraping crawling scraper website-scraper crawler web-scraping-tools web-scraper free api scraping-tools web-scraping анонимный веб скрапинг web-scraping-software -
ACHE Crawler
ACHE is a web crawler for domain-specific search.2
Бесплатное ПО Открытый кодMac Linux Windowsweb-crawler web-scraper web-scraping web-crawling -
Apache Nutch
Apache Nutch - это расширяемый и масштабируемый программный проект с открытым исходным кодом.2
Бесплатное ПО Открытый кодMac Linux Windowsweb-crawler web-scraper java-based расширяемый с помощью плагинов/расширений масштабируемость web-crawling