langchain_community.document_loaders.apify_dataset
.ApifyDatasetLoader¶
- class langchain_community.document_loaders.apify_dataset.ApifyDatasetLoader[source]¶
基类:
BaseLoader
,BaseModel
从Apify爬虫、爬取和数据提取平台加载数据集。
详细了解,参见 https://docs.apify.com/platform/integrations/langchain
示例
from langchain_community.document_loaders import ApifyDatasetLoader from langchain_core.documents import Document loader = ApifyDatasetLoader( dataset_id="YOUR-DATASET-ID", dataset_mapping_function=lambda dataset_item: Document( page_content=dataset_item["text"], metadata={"source": dataset_item["url"]} ), ) documents = loader.load()
使用Apify数据集ID和映射函数初始化加载器。
- 参数
dataset_id (str) – Apify平台上数据集的ID。
dataset_mapping_function (Callable) – 一个函数,它接收一个字典(一个Apify数据集项目)并将其转换为Document类的一个实例。
- param apify_client: Any = None¶
来自apify-client Python包的ApifyClient类的一个实例。
- param dataset_id: str [Required]¶
Apify平台上的数据集ID。
- param dataset_mapping_function: Callable[[Dict], Document] [Required]¶
一个自定义函数,该函数接收一个字典(一个Apify数据集项目)并将其转换为Document类的一个实例。
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并将其分割成块。块将以Document的形式返回。
不要重写此方法。应认为该方法已被弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- 返回类型
Document列表