カタログに戻る

📊

評価・最適化

RAGパイプラインの評価と改善のためのツール

タグで絞り込み：

並び替え：

6件中6件を表示

Langfuse

📊評価・最適化

トレーシング、プロンプト管理、評価のためのオープンソースLLMエンジニアリングプラットフォーム。

typescriptトレーシングアナリティクスオープンソース

RAGAS

📊評価・最適化

人手によるラベル付け回答なしでLLMを使用してレスポンス品質を評価する評価フレームワーク。

pythonメトリクスLLM評価自動化

Phoenix (Arize)

📊評価・最適化

トレーシング、評価、デバッグを備えたLLMアプリケーション向けオープンソースオブザーバビリティ。

pythonオブザーバビリティトレーシングデバッグ

DeepEval

📊評価・最適化

14以上の評価メトリクスとCI/CD統合を備えたLLM向けユニットテストフレームワーク。

pythonテストメトリクスci-cd

TruLens

📊評価・最適化

フィードバック関数と包括的なダッシュボードを備えたLLM実験の評価とトラッキング。

pythonトラッキングフィードバックダッシュボード

ARES

📊評価・最適化

予測駆動推論による信頼区間を備えた合成データを使用して軽量LMジャッジをファインチューニング。

python研究ファインチューニングstanford