Умный экстрактор статей

    Автоматическое извлечение статей с новостных, научных и академических сайтов через API. Умный парсер контента — получайте результат одним запросом.

    1 кредитов за запрос
    ~120 сек
    23 запусков
    Возможности
    Извлечение статей
    Полный контент
    Экспорт в JSON
    Примеры использования
    Агрегация новостей
    Мониторинг СМИ
    Исследование контента

    Что делает этот инструмент

    Smart Article Extractor — 📰 Smart Article Extractor extracts articles from any scientific, academic, or news website with just one click. The extractor extracts the whole website and automatically distinguishes articles from other web pages. Download your data as HTML table, JSON, Excel, RSS feed, and more.

    Укажите URL — и получите чистый текст статьи, заголовок, автора, дату публикации и метаданные без рекламы и лишних элементов страницы.

    Сценарии использования

    • News Aggregation
    • Media Monitoring
    • Content Research

    Поля данных

    ПолеТипОписание
    urlstringURL источника
    titlestringЗаголовок статьи
    textstringЧистый текст статьи
    authorstringАвтор(ы) статьи
    publishedAtstringДата публикации (ISO 8601)
    languagestringОпределённый язык контента
    descriptionstringКраткое описание / мета-описание
    imagestringURL главного изображения
    tagsarrayТеги или ключевые слова

    Пример запроса

    {
     "proxy": "example",
     "startUrls": "https://example.com"
    }
    

    Пример ответа

    {
     "url": "https://example.com/article",
     "title": "Пример заголовка статьи",
     "text": "Это полный чистый текст статьи...",
     "author": "Иван Иванов",
     "publishedAt": "2024-01-15T10:00:00.000Z",
     "language": "ru",
     "description": "Краткое изложение статьи.",
     "image": "https://example.com/images/lead.jpg",
     "tags": ["технологии", "новости"]
    }
    

    Ограничения и советы

    • Лучше всего работает со стандартными новостными и блог-страницами. Контент за платным доступом может быть недоступен.
    • Обработка обычно занимает 5–30 секунд на одну статью.
    • Результаты кешируются на 15 минут.
    • Для массовой обработки передайте несколько URL в виде массива — они обрабатываются за один запуск.

    On this page