PDF Vision Reader
図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。
クイックスタート
基本的な使い方
1. PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"
2. 各画像を Read ツールで読み込んで解析
3. Markdown 形式でまとめる
前提条件
必要なパッケージ:
Python パッケージ
wsl pip3 install pdf2image Pillow
システムパッケージ (poppler)
wsl sudo apt-get update wsl sudo apt-get install -y poppler-utils
ワークフロー
ステップ1: PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"
これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます:
-
page_001.png
-
page_002.png
-
page_003.png
-
...
ステップ2: 各画像を解析
Read ツールで各画像を順番に読み込み、内容を解析します。
解析時の指示例:
この画像の内容を詳しく説明してください:
- タイトルや見出し
- 本文テキスト
- 図表の説明
- グラフやチャートのデータ
- 重要なポイント
ステップ3: Markdown に統合
各ページの解析結果を統合して、一つの Markdown ファイルを作成します。
使用例
例1: プレゼンテーション資料を Markdown 化
User: "presentation.pdf を vision で解析して Markdown 化して" Assistant:
- scripts/pdf_to_images.py で PDF を画像に変換
- 各画像を Read ツールで読み込み
- 各ページの内容を解析(タイトル、図表、テキスト)
- 全ページの解析結果を統合
- Write ツールで Markdown ファイルに保存
例2: 特定のページのみ解析
User: "document.pdf の 5-10 ページだけ解析して" Assistant:
- PDF を画像に変換(全ページ)
- page_005.png から page_010.png のみ Read で読み込み
- 該当ページの内容を Markdown 化
解析の観点
自動的に抽出する情報
各ページの画像から以下を抽出:
テキスト情報
-
タイトル・見出し
-
本文テキスト
-
箇条書きリスト
-
注釈・キャプション
図表
-
図の種類(フローチャート、組織図、etc.)
-
図の説明・要約
-
主要な要素と関係性
グラフ・チャート
-
グラフの種類(棒グラフ、円グラフ、etc.)
-
軸ラベル
-
主要なデータポイント
-
トレンドや傾向
テーブル
-
テーブルの構造
-
ヘッダー行
-
データの内容
-
Markdown テーブル形式に変換
レイアウト・構造
-
ページ全体のレイアウト
-
セクション分け
-
強調されている情報
Markdown 出力フォーマット
[PDFタイトル]
解析日時: YYYY-MM-DD 総ページ数: N
Page 1: [ページタイトル]
概要
[ページの概要説明]
主要な内容
- [ポイント1]
- [ポイント2]
図表
図1: [図のタイトル] [図の説明]
テキスト内容
[ページ内のテキスト]
Page 2: [ページタイトル]
...
スクリプト詳細
pdf_to_images.py
機能:
-
PDF の各ページを PNG 画像に変換
-
解像度指定可能(デフォルト: 200 DPI)
-
出力ディレクトリの自動作成
使い方:
python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]
例
python scripts/pdf_to_images.py document.pdf ./images 300
出力:
-
[pdf_name]_pages/page_001.png
-
[pdf_name]_pages/page_002.png
-
...
対応可能なコンテンツ
-
✅ テキスト(日本語・英語)
-
✅ 図表・ダイアグラム
-
✅ グラフ・チャート
-
✅ テーブル
-
✅ スクリーンショット
-
✅ インフォグラフィック
-
✅ 複雑なレイアウト
-
⚠️ 手書きメモ(精度は状況による)
-
⚠️ 低解像度画像(精度低下の可能性)
テキスト抽出との違い
pdf-reader (テキスト抽出)
-
✅ テキストのみの PDF で高速
-
✅ 純粋なテキスト抽出
-
❌ 図表は抽出不可
-
❌ レイアウトは簡略化
pdf-vision-reader (画像解析)
-
✅ 図表・グラフを理解
-
✅ 複雑なレイアウトを保持
-
✅ ビジュアル要素の説明
-
⚠️ 処理時間が長い
-
⚠️ API コスト(画像解析)
推奨される使い分け
PDF の種類 推奨スキル
テキスト中心の文書 pdf-reader
プレゼンテーション資料 pdf-vision-reader
図表・グラフが多い資料 pdf-vision-reader
技術図面・設計書 pdf-vision-reader
論文(図表含む) pdf-vision-reader
単純なテキストPDF pdf-reader
トラブルシューティング
pdf2image が見つからない
wsl pip3 install pdf2image
poppler-utils が見つからない
wsl sudo apt-get update wsl sudo apt-get install -y poppler-utils
画像変換が失敗する
-
PDF が破損していないか確認
-
ディスク容量を確認
-
メモリ不足の可能性(大きな PDF は分割処理)
解析精度が低い
-
DPI を上げる(300 推奨) python scripts/pdf_to_images.py document.pdf ./images 300
-
元の PDF の画質を確認
パフォーマンス
処理時間の目安
ページ数 画像変換 解析(Claude vision) 合計
10ページ 5秒 30-60秒 ~1分
30ページ 15秒 90-180秒 ~3分
100ページ 50秒 300-600秒 ~10分
最適化のヒント
必要なページのみ処理
-
全ページ変換後、重要なページのみ解析
DPI の調整
-
図表が多い: 300 DPI
-
テキスト中心: 150-200 DPI
バッチ処理
- 複数 PDF を並行処理しない(順次処理)
パス変換
Windows パスから WSL パスへの変換:
-
C:\Users... → /mnt/c/Users/...
-
D:\Projects... → /mnt/d/Projects/...
関連ツール
-
pdf-reader: テキスト中心の PDF 用
-
docx-reader: Word 文書用
-
OCR ツール: pytesseract(テキスト特化)
バージョン履歴
-
v1.0.0 (2026-01-06): 初期リリース
-
PDF → 画像変換機能
-
Vision ベースの解析ワークフロー
-
図表・グラフの理解対応
-
Markdown 出力フォーマット