langchain.chains.natbot.crawler.Crawler

class langchain.chains.natbot.crawler.Crawler[source]

网页爬虫。

安全提示:这是爬虫的一个实现,它通过以下方式使用浏览器:

Playwright。

此爬虫可用于加载任意网页,包括来自本地文件系统的内容。

控制谁可以提交爬取请求以及爬虫具有哪些网络访问权限。

请确保将权限范围限定为应用程序所需的最小权限。

有关更多信息,请参阅https://python.langchain.ac.cn/docs/security

方法

__init__()

click(id)

crawl()

enter()

go_to_page(url)

scroll(direction)

type(id, text)

__init__() None[source]
返回类型

None

click(id: Union[str, int]) None[source]
参数

id (Union[str, int]) –

返回类型

None

crawl() List[str][source]
返回类型

List[str]

enter() None[source]
返回类型

None

go_to_page(url: str) None[source]
参数

url (str) –

返回类型

None

scroll(direction: str) None[source]
参数

direction (str) –

返回类型

None

type(id: Union[str, int], text: str) None[source]
参数
  • id (Union[str, int]) –

  • text (str) –

返回类型

None