langchain_community.document_loaders.pdf.AmazonTextractPDFLoader

class langchain_community.document_loaders.pdf.AmazonTextractPDFLoader(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None)[source]

从本地文件系统、HTTP或S3加载PDF文件。

为了认证,AWS客户端使用以下方法自动加载凭证:https://boto3.amazonaws.com/v1/documentation/api/latest/guide/credentials.html

如果应使用特定的凭证配置文件,您必须从 ~/.aws/credentials 文件中传递配置文件名称。

请确保使用的凭证/角色具有访问Amazon Textract服务的必要策略。

示例

初始化加载器。

参数
  • file_path (str) – 输入文件的文件、url或s3路径

  • textract_features (可选[Sequence[str]]) – 用于提取的功能,每个功能应作为符合枚举*cite>Textract_Features的str传递,见*cite>amazon-textract-caller包

  • client (可选[Any]) – boto3 textract客户端(可选)

  • credentials_profile_name(《可选》)字符串类型 – AWS配置文件名,如果不使用默认配置(《可选》)

  • region_name(《可选》)字符串类型 – AWS区域,例如us-east-1(《可选》)

  • endpoint_url(《可选》)字符串类型 – Textract服务的端点URL(《可选》)

  • linearization_config(《可选》)TextLinearizationConfig实例 – 用于输出线性化的配置,应该是从

    textractor

    包中获取的TextLinearizationConfig实例

  • headers(《可选》)字典类型

属性

source

方法

__init__(文件路径[, textract_features, ...])

初始化加载器。

alazy_load()

Documents的惰性加载器。

aload()

将数据加载到Document对象中。

lazy_load()

惰性加载文档。

load()

将给定路径作为页面加载。

load_and_split([text_splitter])

加载Documents并将它们分成块。

__init__(file_path: str, textract_features: Optional[Sequence[str]] = None, client: Optional[Any] = None, credentials_profile_name: Optional[str] = None, region_name: Optional[str] = None, endpoint_url: Optional[str] = None, headers: Optional[Dict] = None, *, linearization_config: Optional[TextLinearizationConfig] = None) None[来源]

初始化加载器。

参数
  • file_path (str) – 输入文件的文件、url或s3路径

  • textract_features (可选[Sequence[str]]) – 用于提取的功能,每个功能应作为符合枚举*cite>Textract_Features的str传递,见*cite>amazon-textract-caller包

  • client (可选[Any]) – boto3 textract客户端(可选)

  • credentials_profile_name(《可选》)字符串类型 – AWS配置文件名,如果不使用默认配置(《可选》)

  • region_name(《可选》)字符串类型 – AWS区域,例如us-east-1(《可选》)

  • endpoint_url(《可选》)字符串类型 – Textract服务的端点URL(《可选》)

  • linearization_config(《可选》)TextLinearizationConfig实例 – 用于输出线性化的配置,应该是从

    textractor

    包中获取的TextLinearizationConfig实例

  • headers(《可选》)字典类型

返回类型

None

asyncalazy_load() AsyncIterator[Document]

Documents的惰性加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

惰性加载文档。

返回类型

Iterator[Document]

load() List[Document][source]

将给定路径作为页面加载。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其拆分为chunks。chunks以Document形式返回。

不要重写此方法。应考虑将其废弃!

参数

text_splitter (Optional[TextSplitter]) – 用于拆分文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

使用AmazonTextractPDFLoader的示例