LLM向けの非構造化データの前処理と変換のためのオープンソースライブラリ。
Apache-2.0
PDFやその他のドキュメントを高忠実度で解析するIBMのドキュメント理解ライブラリ。
RAGアプリケーション向けの高速で軽量なテキストチャンキングライブラリ。
WebサイトをLLM対応Markdownに変換するWebスクレイピングAPI。