yandex-archive-scraper

Search and extract data from Yandex.Archive (Яндекс.Архив) — metric books, newspapers, directories. Bypasses bot protection via Scrapling.

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "yandex-archive-scraper" with this command: npx skills add flobo3/yandex-archive-scraper

yandex-archive-scraper

A powerful skill for searching and extracting data from Yandex.Archive (Яндекс.Архив) using Scrapling to bypass bot protection and Cloudflare Turnstile.

Features

  • Converts natural language queries into optimized Yandex.Archive search URLs.
  • Uses Scrapling (StealthyFetcher) to bypass Yandex bot protection.
  • Extracts search results (document titles, text snippets, and direct links).
  • Supports pagination to collect multiple pages of results.
  • Can search across all three Yandex.Archive indexes:
    • archive (Архивы) — Metric books, revision tales, confessional statements.
    • mass_media (Периодика) — Old newspapers (e.g., "Senate Gazette", "Provincial Gazette").
    • directories (Справочники) — Address calendars, lists of residents, memorable books.

Tools

yandex_archive_search

Search Yandex.Archive based on a natural language query. Parameters:

  • query (string): The search query (e.g., "Александр Пушкин Москва").
  • index (string, optional): The index to search in. Options: archive (default), mass_media, directories.
  • max_pages (integer, optional): Maximum number of pages to scrape (default 1).

Requirements

  • scrapling
  • playwright
  • curl_cffi
  • patchright
  • msgspec
  • browserforge

yandex-archive-scraper (Русский)

Мощный скилл для поиска и извлечения данных из Яндекс.Архива с использованием фреймворка Scrapling для обхода защиты от ботов и Cloudflare Turnstile.

Возможности

  • Преобразует запросы на естественном языке в оптимизированные URL для поиска по Яндекс.Архиву.
  • Использует Scrapling (StealthyFetcher) для обхода защиты Яндекса.
  • Извлекает результаты поиска (названия документов, текстовые фрагменты/сниппеты и прямые ссылки).
  • Поддерживает пагинацию для сбора нескольких страниц результатов.
  • Умеет искать по всем трем базам Яндекс.Архива:
    • archive (Архивы) — Метрические книги, ревизские сказки, исповедные ведомости.
    • mass_media (Периодика) — Старые газеты (например, "Сенатские ведомости", "Губернские ведомости").
    • directories (Справочники) — Адрес-календари, списки жителей, памятные книжки.

Инструменты (Tools)

yandex_archive_search

Поиск по Яндекс.Архиву на основе текстового запроса. Параметры:

  • query (string): Поисковый запрос (например, "Александр Пушкин Москва").
  • index (string, optional): Раздел для поиска. Варианты: archive (по умолчанию), mass_media, directories.
  • max_pages (integer, optional): Максимальное количество страниц для парсинга (по умолчанию 1).

Зависимости

  • scrapling
  • playwright
  • curl_cffi
  • patchright
  • msgspec
  • browserforge

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Research

Gougoubi Arena Trade

Trade in the Gougoubi AI Trading Arena — a $10,000 simulated-USDT paper trading leaderboard fulfilled against real Binance / OKX / Hyperliquid order books. A...

Registry SourceRecently Updated
Research

Thinkdeep

Structured reasoning protocol for Claude — forces step-by-step analysis, self-critique, and confidence scoring before answering. Reduces wrong answers and ha...

Registry SourceRecently Updated
Research

股票实时行情分析器

A股/港股实时行情查询、基本面分析、深度报告生成与邮件发送一体化工具。触发场景:(1) 用户询问股票价格、市值、PE/PB等数据;(2) 用户要求分析某只或多只股票;(3) 用户要求生成股票分析报告;(4) 用户要求通过邮件发送股票报告。支持AkShare实时行情、聚宽基本面数据、QQ邮箱/Gmail发送。

Registry SourceRecently Updated
260Profile unavailable
Research

Keep 健康记录

Use when users are stating or logging their own health data to Keep or Keep App rather than asking for advice, analysis, or general chat, including weight, b...

Registry SourceRecently Updated
300Profile unavailable