langchain_community.document_loaders.firecrawl
.FireCrawlLoader¶
- class langchain_community.document_loaders.firecrawl.FireCrawlLoader(url: str, *, api_key: Optional[str] = None, api_url: Optional[str] = None, mode: Literal['crawl', 'scrape'] = 'crawl', params: Optional[dict] = None)[源代码]¶
使用FireCrawl加载网页作为文档。
- 需要安装Python包firecrawl并拥有FireCrawl API密钥。更多信息请见
用API密钥和URL初始化。
- 参数
url (str) – 要抓取的URL。
api_key (Optional[str]) – Firecrawl API密钥。若未指定,将读取环境变量FIRECRAWL_API_KEY。获取API密钥
api_url (Optional[str]) – Firecrawl API URL。若未指定,将读取环境变量FIRECRAWL_API_URL或默认为https://api.firecrawl.dev
mode (Literal['crawl', 'scrape']) – 运行加载器的模式。默认为“crawl”。选项包括“scrape”(单个URL)和“crawl”(所有可访问的子页面)。
params (Optional[dict]) – 要传递给Firecrawl API的参数。例如,crawlerOptions。更多详情请访问: https://github.com/mendableai/firecrawl-py
方法
__init__
(url, *[, api_key, api_url, mode, ...])用API密钥和URL初始化。
用于文档的懒加载。
aload
()将数据加载到文档对象中。
用于文档的懒加载。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载文档并分割成片段。
- __init__(url: str, *, api_key: Optional[str] = None, api_url: Optional[str] = None, mode: Literal['crawl', 'scrape'] = 'crawl', params: Optional[dict] = None)[source]¶
用API密钥和URL初始化。
- 参数
url (str) – 要抓取的URL。
api_key (Optional[str]) – Firecrawl API密钥。若未指定,将读取环境变量FIRECRAWL_API_KEY。获取API密钥
api_url (Optional[str]) – Firecrawl API URL。若未指定,将读取环境变量FIRECRAWL_API_URL或默认为https://api.firecrawl.dev
mode (Literal['crawl', 'scrape']) – 运行加载器的模式。默认为“crawl”。选项包括“scrape”(单个URL)和“crawl”(所有可访问的子页面)。
params (Optional[dict]) – 要传递给Firecrawl API的参数。例如,crawlerOptions。更多详情请访问: https://github.com/mendableai/firecrawl-py
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并将它们分割成块。块以Document形式返回。
不要重写此方法。应考虑将其弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]