カタログに戻る
📊
評価・最適化
RAGパイプラインの評価と改善のためのツール
タグで絞り込み:
並び替え:
6件中6件を表示
Langfuse
8k
📊評価・最適化
トレーシング、プロンプト管理、評価のためのオープンソースLLMエンジニアリングプラットフォーム。
typescriptトレーシングアナリティクスオープンソース
RAGAS
7.5k
📊評価・最適化
人手によるラベル付け回答なしでLLMを使用してレスポンス品質を評価する評価フレームワーク。
pythonメトリクスLLM評価自動化
Phoenix (Arize)
4.5k
📊評価・最適化
トレーシング、評価、デバッグを備えたLLMアプリケーション向けオープンソースオブザーバビリティ。
pythonオブザーバビリティトレーシングデバッグ
DeepEval
4k
📊評価・最適化
14以上の評価メトリクスとCI/CD統合を備えたLLM向けユニットテストフレームワーク。
pythonテストメトリクスci-cd
TruLens
2.5k
📊評価・最適化
フィードバック関数と包括的なダッシュボードを備えたLLM実験の評価とトラッキング。
pythonトラッキングフィードバックダッシュボード
ARES
500
📊評価・最適化
予測駆動推論による信頼区間を備えた合成データを使用して軽量LMジャッジをファインチューニング。
python研究ファインチューニングstanford