RAG カタログ
ホーム
🏗️RAGフレームワーク📊評価・最適化⚙️RAGエンジン📄データ準備🗄️ベクトルデータベース🧠エンベディングモデル📚リソース・チュートリアル
検索
評価・最適化に戻る

DeepEval

4kスター
📊評価・最適化

14以上の評価メトリクスとCI/CD統合を備えたLLM向けユニットテストフレームワーク。

タグ

pythonテストメトリクスci-cd

機能

  • 14以上のメトリクス
  • Pytest統合
  • 合成データ
  • ベンチマーク

ユースケース

  • LLMテスト
  • CI/CDパイプライン
  • 品質ゲート

リンク

ウェブサイトGitHub

ライセンス

Apache-2.0

関連アイテム

RAGAS

7.5k
📊評価・最適化

人手によるラベル付け回答なしでLLMを使用してレスポンス品質を評価する評価フレームワーク。

pythonメトリクスLLM評価自動化

Phoenix (Arize)

4.5k
📊評価・最適化

トレーシング、評価、デバッグを備えたLLMアプリケーション向けオープンソースオブザーバビリティ。

pythonオブザーバビリティトレーシングデバッグ

TruLens

2.5k
📊評価・最適化

フィードバック関数と包括的なダッシュボードを備えたLLM実験の評価とトラッキング。

pythonトラッキングフィードバックダッシュボード

RAG カタログ

フレームワークGitHub