langchain_community.document_loaders.chromium.AsyncChromiumLoader

class langchain_community.document_loaders.chromium.AsyncChromiumLoader(urls: List[str], *, headless: bool = True, user_agent: Optional[str] = None)[源代码]

使用无头浏览器实例从URL爬取HTML页面。

使用一组URL路径初始化加载器。

参数
  • urls (列表[str]) – 要从中爬取内容的一组URL列表。

  • headless (bool) – 是否以无头模式运行浏览器。

  • user_agent (可选的[str]) – 浏览器要使用的用户代理。

抛出

ImportError – 如果未安装所需的‘playwright’包。

方法

__init__(urls, *[, headless, user_agent])

使用一组URL路径初始化加载器。

alazy_load()

异步从提供的URL加载文本内容。

aload()

将数据加载到Document对象中。

ascrape_playwright(url)

异步使用Playwright的异步API爬取指定URL的内容。

lazy_load()

从提供的URL延迟加载文本内容。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载Documents并将其拆分为块。

__init__(urls: List[str], *, headless: bool = True, user_agent: Optional[str] = None)[source]

使用一组URL路径初始化加载器。

参数
  • urls (列表[str]) – 要从中爬取内容的一组URL列表。

  • headless (bool) – 是否以无头模式运行浏览器。

  • user_agent (可选的[str]) – 浏览器要使用的用户代理。

抛出

ImportError – 如果未安装所需的‘playwright’包。

async alazy_load() AsyncIterator[Document][source]

异步从提供的URL加载文本内容。

该方法利用 asyncio 同时启动所有提供的 URL 的抓取。通过使用并发异步请求,它提高了性能。一旦文档的内容可用,就会立即生成每个文档,封装抓取的内容。

生成

Document – 包含抓取内容及其源 URL 作为元数据的文档对象。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到Document对象中。

返回类型

列表[Document]

async ascrape_playwright(url: str) str[source]

异步使用 Playwright 的异步 API 抓取给定 URL 的内容。

参数

url (str) – 要抓取的 URL。

返回

抓取的 HTML 内容或出现异常时的错误消息。

返回类型

str

lazy_load() 迭代器[Document][来源]

从提供的URL延迟加载文本内容。

此方法在抓取时一次返回一个 Documents 对象,而不是等待抓取所有 URL 后再返回。

生成

Document – 封装在 Document 对象内的抓取内容。

返回类型

迭代器[Document]

load() 列表[Document]

将数据加载到Document对象中。

返回类型

列表[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) 列表[Document]

加载文档并将其拆分为块。块作为 Documents 返回。

请不要覆盖此方法。应将其视为已弃用!

参数

text_splitter (可选[TextSplitter]) – 用于拆分文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

列表[Document]

使用 AsyncChromiumLoader 的示例