Экстрактор данных Puppeteer
Запускайте Puppeteer-скрипты для парсинга сайтов с headless Chrome. Гибкий API автоматизации браузера — извлекайте данные с любого ресурса через настраиваемые скрипты.
1 кредитов за запрос
~30 сек
9 запусков
Возможности
Безголовый браузер
Экспорт в JSON/CSV
Доступ к API
Масштабируемая автоматизация
Примеры использования
Извлечение данных
Инструменты разработчика
Что делает этот инструмент
browser automation Data Extractor — Extracts websites with the headless Chrome and browser automation library using a provided server-side Node.js code. This data collector is an alternative to mapiok/web-data extractor that gives you finer control over the process. Supports both recursive extracting and list of URLs. Supports login to website.
Инструмент извлекает структурированные данные с любого сайта: укажите URL и скрипт парсинга, и он вернёт нужные данные в формате JSON.
Сценарии использования
- Data Extraction
- Developer Tools
Поля данных
Набор полей в ответе зависит от вашего скрипта парсинга. Типичные поля:
| Поле | Тип | Описание |
|---|---|---|
| url | string | URL, который был обработан |
| title | string | Заголовок страницы |
| html | string | Исходный HTML (если запрошен) |
| text | string | Извлечённый текст |
| links | array | Найденные ссылки |
| data | object | Пользовательские поля из вашего скрипта |
Пример запроса
{
"startUrls": "https://example.com",
"pageFunction": 1,
"proxyConfiguration": {
"useApifyProxy": true
}
}
Пример ответа
{
"url": "https://example.com",
"title": "Example Domain",
"text": "Этот домен используется в иллюстративных примерах...",
"links": ["https://www.iana.org/domains/reserved"]
}
Ограничения и советы
- Для страниц с активным JavaScript используйте browser automation или browser automation. Для статического HTML jsdom работает быстрее.
- Время обработки зависит от скорости загрузки страницы и сложности скрипта — обычно 10–60 секунд на страницу.
- Результаты кешируются на 15 минут. Повторный запрос с тем же URL может вернуть кешированные данные.
- Соблюдайте robots.txt и условия использования целевого сайта при парсинге.
On this page