Экстрактор текста статьи

    Экстрактор текста статьи — инструмент для автоматизации задач. Просто извлекает тексты статей и другую метаинформацию с указанного URL.

    1 кредитов за запрос
    ~30 сек
    4 запусков
    Возможности
    Извлечение статей
    Полный контент
    Экспорт в JSON
    Примеры использования
    Агрегация новостей
    Мониторинг СМИ
    Исследование контента

    Что делает этот инструмент

    Article Text Extractor — Simply extracts article texts and other meta info from the given URL. Uses which is a NodeJS implementation of

    Укажите URL — и получите чистый текст статьи, заголовок, автора, дату публикации и метаданные без рекламы и лишних элементов страницы.

    Сценарии использования

    • News Aggregation
    • Media Monitoring
    • Content Research

    Поля данных

    ПолеТипОписание
    urlstringURL источника
    titlestringЗаголовок статьи
    textstringЧистый текст статьи
    authorstringАвтор(ы) статьи
    publishedAtstringДата публикации (ISO 8601)
    languagestringОпределённый язык контента
    descriptionstringКраткое описание / мета-описание
    imagestringURL главного изображения
    tagsarrayТеги или ключевые слова

    Пример запроса

    {
     "url": "https://example.com"
    }
    

    Пример ответа

    {
     "url": "https://example.com/article",
     "title": "Пример заголовка статьи",
     "text": "Это полный чистый текст статьи...",
     "author": "Иван Иванов",
     "publishedAt": "2024-01-15T10:00:00.000Z",
     "language": "ru",
     "description": "Краткое изложение статьи.",
     "image": "https://example.com/images/lead.jpg",
     "tags": ["технологии", "новости"]
    }
    

    Ограничения и советы

    • Лучше всего работает со стандартными новостными и блог-страницами. Контент за платным доступом может быть недоступен.
    • Обработка обычно занимает 5–30 секунд на одну статью.
    • Результаты кешируются на 15 минут.
    • Для массовой обработки передайте несколько URL в виде массива — они обрабатываются за один запуск.

    On this page