`langchain_community.document_loaders.apify_dataset`.ApifyDatasetLoader¶

class langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader[source]¶

基类: BaseLoader, BaseModel

从Apify爬虫、爬取和数据提取平台加载数据集。

详细了解，参见 https://docs.apify.com/platform/integrations/langchain

示例

from langchain_community.document_loaders import ApifyDatasetLoader
from langchain_core.documents import Document

loader = ApifyDatasetLoader(
    dataset_id="YOUR-DATASET-ID",
    dataset_mapping_function=lambda dataset_item: Document(
        page_content=dataset_item["text"], metadata={"source": dataset_item["url"]}
    ),
)
documents = loader.load()

使用Apify数据集ID和映射函数初始化加载器。

参数

dataset_id (str) – Apify平台上数据集的ID。
dataset_mapping_function (Callable) – 一个函数，它接收一个字典（一个Apify数据集项目）并将其转换为Document类的一个实例。

param apify_client: Any = None¶: 来自apify-client Python包的ApifyClient类的一个实例。

param dataset_id: str [Required]¶: Apify平台上的数据集ID。

param dataset_mapping_function: Callable[[Dict], Document] [Required]¶: 一个自定义函数，该函数接收一个字典（一个Apify数据集项目）并将其转换为Document类的一个实例。

async alazy_load() → AsyncIterator[Document]¶

Documents的惰性加载器。

返回类型: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到Document对象中。

返回类型: List[Document]

lazy_load() → Iterator[Document]¶

Documents的惰性加载器。

返回类型: Iterator[Document]

load() → List[Document][source]¶

加载文档。

返回类型: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并将其分割成块。块将以Document的形式返回。

不要重写此方法。应认为该方法已被弃用！

参数: text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
返回：: 文档列表。
返回类型: Document列表

langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader¶

使用ApifyDatasetLoader的示例¶

`langchain_community.document_loaders.apify_dataset`.ApifyDatasetLoader¶