langchain_community.document_loaders.url_playwright
.PlaywrightURLLoader¶
- class langchain_community.document_loaders.url_playwright.PlaywrightURLLoader(urls: List[str]], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]¶
使用 Playwright 加载 HTML 页面并以 Unstructured 进行解析。
这对于需要 JavaScript 渲染的页面加载非常有用。
- 参数
urls (List[str]) –
continue_on_failure (bool) –
headless (bool) –
remove_selectors (Optional[List[str]]) –
evaluator (Optional[PlaywrightEvaluator]) –
proxy (Optional[Dict[str, str]]) –
- urls¶
要加载的 URL 列表。
- 类型
List[str]
- continue_on_failure¶
如果为 True,则在发生失败时继续加载其他 URL。
- 类型
bool
- headless¶
如果为 True,浏览器将在无头模式下运行。
- 类型
bool
- proxy¶
如果设置,浏览器将通过指定的代理访问URL。
- 类型
可选[Dict[str, str]]
示例
from langchain_community.document_loaders import PlaywrightURLLoader urls = ["https://api.ipify.org/?format=json",] proxy={ "server": "https://xx.xx.xx:15818", # https://<host>:<port> "username": "username", "password": "password" } loader = PlaywrightURLLoader(urls, proxy=proxy) data = loader.load()
使用Playwright加载URL列表。
方法
__init__
(urls[, continue_on_failure, ...])使用Playwright加载URL列表。
使用Playwright加载指定的URL并异步创建文档。
aload
()使用Playwright加载指定的URL并异步创建文档。
使用Playwright加载指定的URL并创建文档实例。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载文档并将其拆分为块。
- __init__(urls: List[str], continue_on_failure: bool = True, headless: bool = True, remove_selectors: Optional[List[str]] = None, evaluator: Optional[PlaywrightEvaluator] = None, proxy: Optional[Dict[str, str]] = None)[source]¶
使用Playwright加载URL列表。
- 参数
urls (List[str]) –
continue_on_failure (bool) –
headless (bool) –
remove_selectors (Optional[List[str]]) –
evaluator (Optional[PlaywrightEvaluator]) –
proxy (Optional[Dict[str, str]]) –
- async alazy_load() AsyncIterator[Document] [source]¶
使用Playwright加载指定的URL并创建文档,当处于jupyter notebook环境时使用此函数。
- 返回
含有加载内容的文档实例列表。
- 返回类型
AsyncIterator[Document]
- async aload() List[Document] [source]¶
使用Playwright加载指定的URL并创建文档,当处于jupyter notebook环境时使用此函数。
- 返回
含有加载内容的文档实例列表。
- 返回类型
List[Document]
- lazy_load() Iterator[Document] [source]¶
使用Playwright加载指定的URL并创建文档实例。
- 返回
含有加载内容的文档实例列表。
- 返回类型
Iterator[Document]
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] ¶
加载文档并将其拆分为块。块作为文档返回。
不要重写此方法。应考虑将其弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于拆分文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]