RAG カタログ
ホーム
🏗️RAGフレームワーク📊評価・最適化⚙️RAGエンジン📄データ準備🗄️ベクトルデータベース🧠エンベディングモデル📚リソース・チュートリアル
検索
データ準備に戻る

Unstructured

10kスター
📄データ準備

LLM向けの非構造化データの前処理と変換のためのオープンソースライブラリ。

タグ

pythonパースetlドキュメント

機能

  • PDF解析
  • テーブル抽出
  • OCR
  • チャンキング

ユースケース

  • ドキュメント取り込み
  • データ前処理
  • コンテンツ抽出

リンク

ウェブサイトGitHub

ライセンス

Apache-2.0

関連アイテム

Docling

18k
📄データ準備

PDFやその他のドキュメントを高忠実度で解析するIBMのドキュメント理解ライブラリ。

pythonibmpdfテーブル

Chonkie

3k
📄データ準備

RAGアプリケーション向けの高速で軽量なテキストチャンキングライブラリ。

pythonチャンキング高速軽量

Firecrawl

24k
📄データ準備

WebサイトをLLM対応Markdownに変換するWebスクレイピングAPI。

typescriptスクレイピングmarkdownapi

RAG カタログ

フレームワークGitHub