予測駆動推論による信頼区間を備えた合成データを使用して軽量LMジャッジをファインチューニング。
Apache-2.0
人手によるラベル付け回答なしでLLMを使用してレスポンス品質を評価する評価フレームワーク。
トレーシング、評価、デバッグを備えたLLMアプリケーション向けオープンソースオブザーバビリティ。
14以上の評価メトリクスとCI/CD統合を備えたLLM向けユニットテストフレームワーク。