langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader

class langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader[source]

基类: BaseLoader, BaseModel

从Apify爬虫、爬取和数据提取平台加载数据集。

详细了解,参见 https://docs.apify.com/platform/integrations/langchain

示例

from langchain_community.document_loaders import ApifyDatasetLoader
from langchain_core.documents import Document

loader = ApifyDatasetLoader(
    dataset_id="YOUR-DATASET-ID",
    dataset_mapping_function=lambda dataset_item: Document(
        page_content=dataset_item["text"], metadata={"source": dataset_item["url"]}
    ),
)
documents = loader.load()

使用Apify数据集ID和映射函数初始化加载器。

参数
  • dataset_id (str) – Apify平台上数据集的ID。

  • dataset_mapping_function (Callable) – 一个函数,它接收一个字典(一个Apify数据集项目)并将其转换为Document类的一个实例。

param apify_client: Any = None

来自apify-client Python包的ApifyClient类的一个实例。

param dataset_id: str [Required]

Apify平台上的数据集ID。

param dataset_mapping_function: Callable[[Dict], Document] [Required]

一个自定义函数,该函数接收一个字典(一个Apify数据集项目)并将其转换为Document类的一个实例。

async alazy_load() AsyncIterator[Document]

Documents的惰性加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

lazy_load() Iterator[Document]

Documents的惰性加载器。

返回类型

Iterator[Document]

load() List[Document][source]

加载文档。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其分割成块。块将以Document的形式返回。

不要重写此方法。应认为该方法已被弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

返回类型

Document列表

使用ApifyDatasetLoader的示例