langchain_community.document_loaders.firecrawl.FireCrawlLoader

class langchain_community.document_loaders.firecrawl.FireCrawlLoader(url: str, *, api_key: Optional[str] = None, api_url: Optional[str] = None, mode: Literal['crawl', 'scrape'] = 'crawl', params: Optional[dict] = None)[源代码]

使用FireCrawl加载网页作为文档。

需要安装Python包firecrawl并拥有FireCrawl API密钥。更多信息请见

https://www.firecrawl.dev/

用API密钥和URL初始化。

参数
  • url (str) – 要抓取的URL。

  • api_key (Optional[str]) – Firecrawl API密钥。若未指定,将读取环境变量FIRECRAWL_API_KEY。获取API密钥

  • api_url (Optional[str]) – Firecrawl API URL。若未指定,将读取环境变量FIRECRAWL_API_URL或默认为https://api.firecrawl.dev

  • mode (Literal['crawl', 'scrape']) – 运行加载器的模式。默认为“crawl”。选项包括“scrape”(单个URL)和“crawl”(所有可访问的子页面)。

  • params (Optional[dict]) – 要传递给Firecrawl API的参数。例如,crawlerOptions。更多详情请访问: https://github.com/mendableai/firecrawl-py

方法

__init__(url, *[, api_key, api_url, mode, ...])

用API密钥和URL初始化。

alazy_load()

用于文档的懒加载。

aload()

将数据加载到文档对象中。

lazy_load()

用于文档的懒加载。

load()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并分割成片段。

__init__(url: str, *, api_key: Optional[str] = None, api_url: Optional[str] = None, mode: Literal['crawl', 'scrape'] = 'crawl', params: Optional[dict] = None)[source]

用API密钥和URL初始化。

参数
  • url (str) – 要抓取的URL。

  • api_key (Optional[str]) – Firecrawl API密钥。若未指定,将读取环境变量FIRECRAWL_API_KEY。获取API密钥

  • api_url (Optional[str]) – Firecrawl API URL。若未指定,将读取环境变量FIRECRAWL_API_URL或默认为https://api.firecrawl.dev

  • mode (Literal['crawl', 'scrape']) – 运行加载器的模式。默认为“crawl”。选项包括“scrape”(单个URL)和“crawl”(所有可访问的子页面)。

  • params (Optional[dict]) – 要传递给Firecrawl API的参数。例如,crawlerOptions。更多详情请访问: https://github.com/mendableai/firecrawl-py

async alazy_load() AsyncIterator[Document]

用于文档的懒加载。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

用于文档的懒加载。

返回类型

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将它们分割成块。块以Document形式返回。

不要重写此方法。应考虑将其弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

使用FireCrawlLoader的示例