Apache Nutch icon

Apache Nutch

Apache Nutch icon

Apache Nutch

  2
Бесплатное ПО Открытый код
Категории:
Платформы: Mac Linux Windows
Особенности:
web-crawler web-scraper java-based расширяемый с помощью плагинов/расширений масштабируемость web-crawling



Apache Nutch - это расширяемый и масштабируемый программный проект с открытым
исходным кодом.

Nutch полностью написан на языке программирования Java, но данные записываются
в независимых от языка форматах. Он имеет высокомодульную архитектуру,
позволяющую разработчикам создавать подключаемые модули для анализа медиа-
типов, извлечения данных, запросов и кластеризации.

Сборщик («робот» или «веб-сканер») был написан с нуля специально для этого
проекта.

Аналоги (6):

  • Scrapy

    Scrapy - это открытая и совместная структура для извлечения необходимых вам данных с веб-сайтов.
      78
    Бесплатное ПО Открытый код
    Mac Linux Windows
    data-mining сбор данных web-scraping framework
  • Mixnode

    Преврати сеть в базу данных!
      37
    Платное ПО
    Web
    web-crawling поддержка amazon s3 crawling фильтрация по типу контента url filtering web-crawler web-scraper warc выход web-data-extraction web-scraping website-crawler web-scraping-software
  • Heritrix

    Интернет-архиватор с открытым исходным кодом, расширяемый, масштабируемый в сети, проект поискового робота.
      3
    Бесплатное ПО Открытый код
    Mac Linux Windows
    web-crawler web-crawling web-data-crawling
  • ProxyCrawl

    Царапать и сканировать веб-сайты, оставаясь анонимным, и обходить любые ограничения, блоки или капчи
      3
    Бесплатное ПО
    Web
    crawling-as-service scraping crawling scraper website-scraper crawler web-scraping-tools web-scraper free api scraping-tools web-scraping анонимный веб скрапинг web-scraping-software
  • ACHE Crawler

    ACHE is a web crawler for domain-specific search.
      2
    Бесплатное ПО Открытый код
    Mac Linux Windows
    web-crawler web-scraper web-scraping web-crawling
  • StormCrawler

    StormCrawler - это SDK с открытым исходным кодом для создания распределенных веб-сканеров с помощью Apache Storm.
      1
    Бесплатное ПО Открытый код
    Mac Linux Windows
    web-crawler