PDF Vision Reader

図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。

クイックスタート

基本的な使い方

1. PDF を画像に変換

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"

2. 各画像を Read ツールで読み込んで解析

3. Markdown 形式でまとめる

前提条件

必要なパッケージ：

Python パッケージ

wsl pip3 install pdf2image Pillow

システムパッケージ (poppler)

wsl sudo apt-get update wsl sudo apt-get install -y poppler-utils

ワークフロー

ステップ1: PDF を画像に変換

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"

これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます：

page_001.png
page_002.png
page_003.png
...

ステップ2: 各画像を解析

Read ツールで各画像を順番に読み込み、内容を解析します。

解析時の指示例:

この画像の内容を詳しく説明してください：

タイトルや見出し
本文テキスト
図表の説明
グラフやチャートのデータ
重要なポイント

ステップ3: Markdown に統合

各ページの解析結果を統合して、一つの Markdown ファイルを作成します。

使用例

例1: プレゼンテーション資料を Markdown 化

User: "presentation.pdf を vision で解析して Markdown 化して" Assistant:

scripts/pdf_to_images.py で PDF を画像に変換
各画像を Read ツールで読み込み
各ページの内容を解析（タイトル、図表、テキスト）
全ページの解析結果を統合
Write ツールで Markdown ファイルに保存

例2: 特定のページのみ解析

User: "document.pdf の 5-10 ページだけ解析して" Assistant:

PDF を画像に変換（全ページ）
page_005.png から page_010.png のみ Read で読み込み
該当ページの内容を Markdown 化

解析の観点

自動的に抽出する情報

各ページの画像から以下を抽出：

テキスト情報

タイトル・見出し
本文テキスト
箇条書きリスト
注釈・キャプション

図表

図の種類（フローチャート、組織図、etc.）
図の説明・要約
主要な要素と関係性

グラフ・チャート

グラフの種類（棒グラフ、円グラフ、etc.）
軸ラベル
主要なデータポイント
トレンドや傾向

テーブル

テーブルの構造
ヘッダー行
データの内容
Markdown テーブル形式に変換

レイアウト・構造

ページ全体のレイアウト
セクション分け
強調されている情報

Markdown 出力フォーマット

[PDFタイトル]

解析日時: YYYY-MM-DD 総ページ数: N

Page 1: [ページタイトル]

概要

[ページの概要説明]

主要な内容

[ポイント1]
[ポイント2]

図表

図1: [図のタイトル] [図の説明]

テキスト内容

[ページ内のテキスト]

Page 2: [ページタイトル]

...

スクリプト詳細

pdf_to_images.py

機能:

PDF の各ページを PNG 画像に変換
解像度指定可能（デフォルト: 200 DPI）
出力ディレクトリの自動作成

使い方:

python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]

例

python scripts/pdf_to_images.py document.pdf ./images 300

出力:

[pdf_name]_pages/page_001.png
[pdf_name]_pages/page_002.png
...

対応可能なコンテンツ

✅ テキスト（日本語・英語）
✅ 図表・ダイアグラム
✅ グラフ・チャート
✅ テーブル
✅ スクリーンショット
✅ インフォグラフィック
✅ 複雑なレイアウト
⚠️ 手書きメモ（精度は状況による）
⚠️ 低解像度画像（精度低下の可能性）

テキスト抽出との違い

pdf-reader (テキスト抽出)

✅ テキストのみの PDF で高速
✅ 純粋なテキスト抽出
❌ 図表は抽出不可
❌ レイアウトは簡略化

pdf-vision-reader (画像解析)

✅ 図表・グラフを理解
✅ 複雑なレイアウトを保持
✅ ビジュアル要素の説明
⚠️ 処理時間が長い
⚠️ API コスト（画像解析）

推奨される使い分け

PDF の種類推奨スキル

テキスト中心の文書 pdf-reader

プレゼンテーション資料 pdf-vision-reader

図表・グラフが多い資料 pdf-vision-reader

技術図面・設計書 pdf-vision-reader

論文（図表含む） pdf-vision-reader

単純なテキストPDF pdf-reader

トラブルシューティング

pdf2image が見つからない

wsl pip3 install pdf2image

poppler-utils が見つからない

wsl sudo apt-get update wsl sudo apt-get install -y poppler-utils

画像変換が失敗する

PDF が破損していないか確認
ディスク容量を確認
メモリ不足の可能性（大きな PDF は分割処理）

解析精度が低い

DPI を上げる（300 推奨） python scripts/pdf_to_images.py document.pdf ./images 300
元の PDF の画質を確認

パフォーマンス

処理時間の目安

ページ数画像変換解析（Claude vision）合計

10ページ 5秒 30-60秒 ~1分

30ページ 15秒 90-180秒 ~3分

100ページ 50秒 300-600秒 ~10分

最適化のヒント

必要なページのみ処理

全ページ変換後、重要なページのみ解析

DPI の調整

図表が多い: 300 DPI
テキスト中心: 150-200 DPI

バッチ処理

複数 PDF を並行処理しない（順次処理）

パス変換

Windows パスから WSL パスへの変換：

C:\Users... → /mnt/c/Users/...
D:\Projects... → /mnt/d/Projects/...

pdf-vision-reader

Safety Notice

Copy this and send it to your AI assistant to learn

1. PDF を画像に変換

2. 各画像を Read ツールで読み込んで解析

3. Markdown 形式でまとめる

Python パッケージ

システムパッケージ (poppler)

[PDFタイトル]

Page 1: [ページタイトル]

概要

主要な内容

図表

テキスト内容

Page 2: [ページタイトル]

例

Source Transparency

Related Skills

arxiv-paper-writer

cli-proxy-troubleshooting

visual-summary-analysis

frontend-skill