langchain_community.document_loaders.chromium
.AsyncChromiumLoader¶
- class langchain_community.document_loaders.chromium.AsyncChromiumLoader(urls: List[str], *, headless: bool = True, user_agent: Optional[str] = None)[源代码]¶
使用无头浏览器实例从URL爬取HTML页面。
使用一组URL路径初始化加载器。
- 参数
urls (列表[str]) – 要从中爬取内容的一组URL列表。
headless (bool) – 是否以无头模式运行浏览器。
user_agent (可选的[str]) – 浏览器要使用的用户代理。
- 抛出
ImportError – 如果未安装所需的‘playwright’包。
方法
__init__
(urls, *[, headless, user_agent])使用一组URL路径初始化加载器。
异步从提供的URL加载文本内容。
aload
()将数据加载到Document对象中。
ascrape_playwright
(url)异步使用Playwright的异步API爬取指定URL的内容。
从提供的URL延迟加载文本内容。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载Documents并将其拆分为块。
- __init__(urls: List[str], *, headless: bool = True, user_agent: Optional[str] = None)[source]¶
使用一组URL路径初始化加载器。
- 参数
urls (列表[str]) – 要从中爬取内容的一组URL列表。
headless (bool) – 是否以无头模式运行浏览器。
user_agent (可选的[str]) – 浏览器要使用的用户代理。
- 抛出
ImportError – 如果未安装所需的‘playwright’包。
- async alazy_load() AsyncIterator[Document] [source]¶
异步从提供的URL加载文本内容。
该方法利用 asyncio 同时启动所有提供的 URL 的抓取。通过使用并发异步请求,它提高了性能。一旦文档的内容可用,就会立即生成每个文档,封装抓取的内容。
- 生成
Document – 包含抓取内容及其源 URL 作为元数据的文档对象。
- 返回类型
AsyncIterator[Document]
- async ascrape_playwright(url: str) str [source]¶
异步使用 Playwright 的异步 API 抓取给定 URL 的内容。
- 参数
url (str) – 要抓取的 URL。
- 返回
抓取的 HTML 内容或出现异常时的错误消息。
- 返回类型
str
- lazy_load() 迭代器[Document] [来源]¶
从提供的URL延迟加载文本内容。
此方法在抓取时一次返回一个 Documents 对象,而不是等待抓取所有 URL 后再返回。
- 生成
Document – 封装在 Document 对象内的抓取内容。
- 返回类型
迭代器[Document]
- load_and_split(text_splitter: Optional[TextSplitter] = None) 列表[Document] ¶
加载文档并将其拆分为块。块作为 Documents 返回。
请不要覆盖此方法。应将其视为已弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于拆分文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
列表[Document]