langchain_community.document_loaders.spider.SpiderLoader

class langchain_community.document_loaders.spider.SpiderLoader(url: str, *, api_key: Optional[str] = None, mode: Literal['scrape', 'crawl'] = 'scrape', params: Optional[dict] = None)[source]

使用Spider AI将网页加载为文档。

必须安装Python包 spider-client 并有一个Spider API密钥。更多信息请参阅 https://spider.cloud

使用API密钥和URL进行初始化。

参数
  • url (str) – 要处理的URL。

  • api_key (Optional[str]) – Spider API密钥。如果未指定,将读取env

  • SPIDER_API_KEY. (var) –

  • mode (Literal['scrape', 'crawl']) – 运行加载器的模式。默认为“scrape”。选项包括“scrape”(单页)和“crawl”(跟随子页面的深度爬取)。

  • params (Optional[dict]) – Spider API的额外参数。

方法

__init__(url, *[, api_key, mode, params])

使用API密钥和URL进行初始化。

alazy_load()

Documents的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

根据指定模式加载文档。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载Documents并将其分割成块。

__init__(url: str, *, api_key: Optional[str] = None, mode: Literal['scrape', 'crawl'] = 'scrape', params: Optional[dict] = None)[source]

使用API密钥和URL进行初始化。

参数
  • url (str) – 要处理的URL。

  • api_key (Optional[str]) – Spider API密钥。如果未指定,将读取env

  • SPIDER_API_KEY. (var) –

  • mode (Literal['scrape', 'crawl']) – 运行加载器的模式。默认为“scrape”。选项包括“scrape”(单页)和“crawl”(跟随子页面的深度爬取)。

  • params (Optional[dict]) – Spider API的额外参数。

async alazy_load() AsyncIterator[Document]

Documents的懒加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

根据指定模式加载文档。

返回类型

Iterator[Document]

load() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块以文档的形式返回。

不要覆盖此方法。应考虑将其弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的 TextSplitter 实例。默认使用 RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

SpiderLoader 使用示例