Умный экстрактор статей
Автоматическое извлечение статей с новостных, научных и академических сайтов через API. Умный парсер контента — получайте результат одним запросом.
1 кредитов за запрос
~120 сек
23 запусков
Возможности
Извлечение статей
Полный контент
Экспорт в JSON
Примеры использования
Агрегация новостей
Мониторинг СМИ
Исследование контента
Что делает этот инструмент
Smart Article Extractor — 📰 Smart Article Extractor extracts articles from any scientific, academic, or news website with just one click. The extractor extracts the whole website and automatically distinguishes articles from other web pages. Download your data as HTML table, JSON, Excel, RSS feed, and more.
Укажите URL — и получите чистый текст статьи, заголовок, автора, дату публикации и метаданные без рекламы и лишних элементов страницы.
Сценарии использования
- News Aggregation
- Media Monitoring
- Content Research
Поля данных
| Поле | Тип | Описание |
|---|---|---|
| url | string | URL источника |
| title | string | Заголовок статьи |
| text | string | Чистый текст статьи |
| author | string | Автор(ы) статьи |
| publishedAt | string | Дата публикации (ISO 8601) |
| language | string | Определённый язык контента |
| description | string | Краткое описание / мета-описание |
| image | string | URL главного изображения |
| tags | array | Теги или ключевые слова |
Пример запроса
{
"proxy": "example",
"startUrls": "https://example.com"
}
Пример ответа
{
"url": "https://example.com/article",
"title": "Пример заголовка статьи",
"text": "Это полный чистый текст статьи...",
"author": "Иван Иванов",
"publishedAt": "2024-01-15T10:00:00.000Z",
"language": "ru",
"description": "Краткое изложение статьи.",
"image": "https://example.com/images/lead.jpg",
"tags": ["технологии", "новости"]
}
Ограничения и советы
- Лучше всего работает со стандартными новостными и блог-страницами. Контент за платным доступом может быть недоступен.
- Обработка обычно занимает 5–30 секунд на одну статью.
- Результаты кешируются на 15 минут.
- Для массовой обработки передайте несколько URL в виде массива — они обрабатываются за один запуск.
On this page