評価・最適化に戻る

RAGAS

7.5kスター

📊評価・最適化

人手によるラベル付け回答なしでLLMを使用してレスポンス品質を評価する評価フレームワーク。

タグ

pythonメトリクスLLM評価自動化

機能

コンテキスト精度
コンテキスト再現率
忠実度
回答関連性

ユースケース

RAG評価
品質保証
パイプラインテスト

リンク

ウェブサイト GitHub

ライセンス

Apache-2.0

関連アイテム

DeepEval

📊評価・最適化

14以上の評価メトリクスとCI/CD統合を備えたLLM向けユニットテストフレームワーク。

pythonテストメトリクスci-cd

Phoenix (Arize)

📊評価・最適化

トレーシング、評価、デバッグを備えたLLMアプリケーション向けオープンソースオブザーバビリティ。

pythonオブザーバビリティトレーシングデバッグ

TruLens

📊評価・最適化

フィードバック関数と包括的なダッシュボードを備えたLLM実験の評価とトラッキング。

pythonトラッキングフィードバックダッシュボード