Apache Nutch
Apache Nutch
2
Бесплатное ПО
Открытый код
Категории:
Платформы:
Mac
Linux
Windows
Ссылки:
Официальный сайт
Facebook
Особенности:
web-crawler web-scraper java-based расширяемый с помощью плагинов/расширений масштабируемость web-crawling
web-crawler web-scraper java-based расширяемый с помощью плагинов/расширений масштабируемость web-crawling
Apache Nutch - это расширяемый и масштабируемый программный проект с открытым
исходным кодом.
Nutch полностью написан на языке программирования Java, но данные записываются
в независимых от языка форматах. Он имеет высокомодульную архитектуру,
позволяющую разработчикам создавать подключаемые модули для анализа медиа-
типов, извлечения данных, запросов и кластеризации.
Сборщик («робот» или «веб-сканер») был написан с нуля специально для этого
проекта.
Аналоги (6):
-
Scrapy
Scrapy - это открытая и совместная структура для извлечения необходимых вам данных с веб-сайтов.78
Бесплатное ПО Открытый кодMac Linux Windowsdata-mining сбор данных web-scraping framework -
Mixnode
Преврати сеть в базу данных!37
Платное ПОWebweb-crawling поддержка amazon s3 crawling фильтрация по типу контента url filtering web-crawler web-scraper warc выход web-data-extraction web-scraping website-crawler web-scraping-software -
Heritrix
Интернет-архиватор с открытым исходным кодом, расширяемый, масштабируемый в сети, проект поискового робота.3
Бесплатное ПО Открытый кодMac Linux Windowsweb-crawler web-crawling web-data-crawling -
ProxyCrawl
Царапать и сканировать веб-сайты, оставаясь анонимным, и обходить любые ограничения, блоки или капчи3
Бесплатное ПОWebcrawling-as-service scraping crawling scraper website-scraper crawler web-scraping-tools web-scraper free api scraping-tools web-scraping анонимный веб скрапинг web-scraping-software -
ACHE Crawler
ACHE is a web crawler for domain-specific search.2
Бесплатное ПО Открытый кодMac Linux Windowsweb-crawler web-scraper web-scraping web-crawling -
StormCrawler
StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm.1
Бесплатное ПО Открытый кодMac Linux Windowsweb-crawler