mixseek-evaluator-config

MixSeekの評価設定ファイル(evaluator.toml、judgment.toml)を生成します。「評価設定を作成」「スコアリング設定」「判定設定を作って」「メトリクスを設定」といった依頼で使用してください。Submissionの評価基準と最終判定ロジックを定義します。

Safety Notice

This listing is imported from skills.sh public index metadata. Review upstream SKILL.md and repository scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "mixseek-evaluator-config" with this command: npx skills add drillan/mixseek-plus/drillan-mixseek-plus-mixseek-evaluator-config

MixSeek 評価設定生成

概要

MixSeek-Coreの評価設定ファイル(evaluator.toml)と判定設定ファイル(judgment.toml)を生成します。TUMIXトーナメントにおけるSubmissionの評価基準、スコアリング方法、最終判定ロジックを定義します。

前提条件

  • ワークスペースが初期化されていること(mixseek-workspace-init参照)
  • 環境変数 MIXSEEK_WORKSPACE が設定されていること(推奨)

生成ファイル

ファイル用途配置場所
evaluator.tomlSubmissionのスコアリング設定configs/evaluators/
judgment.toml最終判定の設定configs/judgment/

使用方法

Step 1: 要件のヒアリング

ユーザーに以下を確認してください:

  1. 評価の重点: 何を重視して評価するか(明確性、カバレッジ、関連性など)
  2. 重み付け: 各メトリクスの重要度(均等 or カスタム)
  3. 判定スタイル: 決定論的(temperature=0)or 多様性重視

Step 2: メトリクス設定の提案

標準メトリクスから選択:

メトリクス説明用途
ClarityCoherence明確性と一貫性読みやすさ重視のタスク
Coverageカバレッジ網羅性重視のタスク
LLMPlain汎用LLM評価カスタム評価基準が必要なタスク
Relevance関連性的確さ重視のタスク

Step 3: 設定ファイルの生成

evaluator.toml:

default_model = "google-gla:gemini-2.5-pro"
temperature = 0.0

[[metrics]]
name = "ClarityCoherence"
weight = 0.34

[[metrics]]
name = "Coverage"
weight = 0.33

[[metrics]]
name = "Relevance"
weight = 0.33

judgment.toml:

model = "google-gla:gemini-2.5-pro"
temperature = 0.0
timeout_seconds = 60

Step 4: ファイルの保存

$MIXSEEK_WORKSPACE/configs/evaluators/evaluator.toml
$MIXSEEK_WORKSPACE/configs/judgment/judgment.toml

重要: カスタムパス(configs/evaluators/configs/judgment/)を使用する場合は、必ずorchestrator.tomlでパスを明示的に指定してください。指定しないとデフォルトパス(configs/evaluator.tomlconfigs/judgment.toml)が検索され、設定が反映されません。

# orchestrator.toml
[orchestrator]
evaluator_config = "configs/evaluators/evaluator.toml"
judgment_config = "configs/judgment/judgment.toml"

Step 5: 設定ファイルの検証(必須)

生成後は必ず検証を実行してください。

# Evaluator設定の検証
uv run python skills/mixseek-config-validate/scripts/validate-config.py \
    $MIXSEEK_WORKSPACE/configs/evaluators/evaluator.toml --type evaluator

# Judgment設定の検証
uv run python skills/mixseek-config-validate/scripts/validate-config.py \
    $MIXSEEK_WORKSPACE/configs/judgment/judgment.toml --type judgment

検証が成功したら、ユーザーに結果を報告します。失敗した場合は、エラー内容を確認して設定を修正してください。

標準メトリクス詳細

ClarityCoherence(明確性・一貫性)

回答の読みやすさと論理的一貫性を評価します。

評価観点:

  • 文章構造の明確さ
  • 論理的な流れ
  • 専門用語の適切な使用
  • 結論の明確さ

推奨用途:

  • 説明文の生成
  • レポート作成
  • 教育コンテンツ

Coverage(カバレッジ)

質問に対する回答の網羅性を評価します。

評価観点:

  • 質問の全側面への対応
  • 関連トピックの包含
  • 例示の充実度
  • 補足情報の有無

推奨用途:

  • リサーチタスク
  • FAQ作成
  • 技術ドキュメント

Relevance(関連性)

回答が質問に対してどれだけ的確かを評価します。

評価観点:

  • 質問への直接的な回答
  • 不要な情報の排除
  • 焦点の維持
  • 文脈への適合

推奨用途:

  • Q&A
  • カスタマーサポート
  • 検索結果の評価

LLMPlain(汎用LLM評価)

system_instructionで定義したカスタム評価基準に基づいてLLMが評価します。

特徴:

  • 事前定義された評価ロジックを持たない
  • system_instructionで完全にカスタマイズ可能
  • 特殊な評価基準が必要な場合に使用

推奨用途:

  • ドメイン固有の評価(法律、医療など)
  • プロジェクト固有の品質基準
  • 他のメトリクスでカバーできない観点

設定例:

[[metrics]]
name = "LLMPlain"
weight = 0.5
system_instruction = """
セキュリティ観点から回答を評価してください:
1. 機密情報の漏洩リスク
2. 安全なコーディング実践
3. 脆弱性の有無
0-100のスコアで評価してください。
"""

均等重み付け設定

User: 評価設定を作成して

Agent: 評価設定を提案します。

       メトリクス(均等重み付け):
       - ClarityCoherence: 33.4%
       - Coverage: 33.3%
       - Relevance: 33.3%

       この構成でよろしいですか?

User: はい

Agent: 設定ファイルを生成しました:
       ✓ configs/evaluators/evaluator.toml
       ✓ configs/judgment/judgment.toml

カスタム重み付け設定

User: 正確性を重視した評価設定を作って

Agent: 関連性(Relevance)を重視した設定を提案します。

       メトリクス:
       - Relevance: 50%(重視)
       - ClarityCoherence: 30%
       - Coverage: 20%

       この構成でよろしいですか?

User: はい

生成される設定ファイル例

evaluator.toml(カスタム重み付け):

# MixSeek Evaluator Configuration
# Generated by mixseek-evaluator-config skill

default_model = "google-gla:gemini-2.5-pro"
temperature = 0.0
timeout_seconds = 300
max_retries = 3

[[metrics]]
name = "Relevance"
weight = 0.5

[[metrics]]
name = "ClarityCoherence"
weight = 0.3

[[metrics]]
name = "Coverage"
weight = 0.2

judgment.toml:

# MixSeek Judgment Configuration
# Generated by mixseek-evaluator-config skill

model = "google-gla:gemini-2.5-pro"
temperature = 0.0
timeout_seconds = 60
max_retries = 3

重み付けルール

重み付けには以下のルールがあります:

  1. 全て指定 or 全て省略: 一部のメトリクスだけに重みを指定することはできません
  2. 合計1.0: 全ての重みの合計は1.0(±0.001)である必要があります
  3. 省略時は均等: 重みを省略すると自動的に均等配分されます
# 有効: 全て指定
[[metrics]]
name = "ClarityCoherence"
weight = 0.5

[[metrics]]
name = "Coverage"
weight = 0.5

# 有効: 全て省略(均等配分)
[[metrics]]
name = "ClarityCoherence"

[[metrics]]
name = "Coverage"

# 無効: 一部のみ指定
[[metrics]]
name = "ClarityCoherence"
weight = 0.5  # ❌

[[metrics]]
name = "Coverage"
# weight省略 ❌

トラブルシューティング

重み合計エラー

Error: Weights must sum to 1.0

解決方法:

  • 全ての重みの合計が1.0になるよう調整
  • または全ての重みを省略して均等配分

メトリクス名エラー

Error: Unknown metric name

解決方法:

  • 有効なメトリクス名を使用: ClarityCoherence, Coverage, LLMPlain, Relevance
  • 大文字小文字に注意

判定が不安定

解決方法:

  • judgment.tomltemperatureを0.0に設定(決定論的)
  • seedを固定値に設定

参照

  • TOMLスキーマ詳細: references/TOML-SCHEMA.md
  • 標準メトリクス: references/METRICS.md
  • オーケストレーター設定: skills/mixseek-orchestrator-config/

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

mixseek-orchestrator-config

No summary provided by upstream source.

Repository SourceNeeds Review
General

mixseek-team-config

No summary provided by upstream source.

Repository SourceNeeds Review
General

mixseek-debug

No summary provided by upstream source.

Repository SourceNeeds Review
General

mixseek-prompt-builder

No summary provided by upstream source.

Repository SourceNeeds Review