Экстрактор данных Playwright
Парсинг сайтов через Playwright с поддержкой Chrome, Firefox и WebKit. Надёжный многобраузерный API извлечения данных — полная автоматизация браузера.
1 кредитов за запрос
~30 сек
6 запусков
Возможности
Безголовый браузер
Экспорт в JSON/CSV
Доступ к API
Масштабируемая автоматизация
Примеры использования
Извлечение данных
Инструменты разработчика
Что делает этот инструмент
browser automation Data Extractor — Extracts websites with the headless Chromium, Chrome, or Firefox browser and browser automation library using a provided server-side Node.js code. Supports both recursive extracting and a list of URLs. Supports login to a website.
Инструмент извлекает структурированные данные с любого сайта: укажите URL и скрипт парсинга, и он вернёт нужные данные в формате JSON.
Сценарии использования
- Data Extraction
- Developer Tools
Поля данных
Набор полей в ответе зависит от вашего скрипта парсинга. Типичные поля:
| Поле | Тип | Описание |
|---|---|---|
| url | string | URL, который был обработан |
| title | string | Заголовок страницы |
| html | string | Исходный HTML (если запрош ен) |
| text | string | Извлечённый текст |
| links | array | Найденные ссылки |
| data | object | Пользовательские поля из вашего скрипта |
Пример запроса
{
"startUrls": "https://example.com",
"pageFunction": 1,
"proxyConfiguration": {
"useApifyProxy": true
}
}
Пример ответа
{
"url": "https://example.com",
"title": "Example Domain",
"text": "Этот домен используется в иллюстративных примерах...",
"links": ["https://www.iana.org/domains/reserved"]
}
Ограничения и советы
- Для страниц с активным JavaScript используйте browser automation или browser automation. Для статичес кого HTML jsdom работает быстрее.
- Время обработки зависит от скорости загрузки страницы и сложности скрипта — обычно 10–60 секунд на страницу.
- Результаты кешируются на 15 минут. Повторный запрос с тем же URL может вернуть кешированные данные.
- Соблюдайте robots.txt и условия использования целевого сайта при парсинге.
On this page