langchain_community.document_loaders.blackboard.BlackboardLoader

class langchain_community.document_loaders.blackboard.BlackboardLoader(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Optional[Tuple[str, str]] = None, cookies: Optional[dict] = None, continue_on_failure: bool = False, show_progress: bool = True)[源代码]

加载一个 Blackboard 课程。

此加载器可能与所有Blackboard课程不兼容。它仅适用于使用新Blackboard界面的课程。要使用此加载器,您必须拥有BbRoutercookie。您可以通过登录课程并从浏览器开发者工具中复制BbRoutercookie的值来获取此cookie。

示例

from langchain_community.document_loaders import BlackboardLoader

loader = BlackboardLoader(
    blackboard_course_url="https://blackboard.example.com/webapps/blackboard/execute/announcement?method=search&context=course_entry&course_id=_123456_1",
    bbrouter="expires:12345...",
)
documents = loader.load()

使用Blackboard课程URL初始化。

BbRouter cookie对于大多数Blackboard课程都是必需的。

参数
  • blackboard_course_url (str) – Blackboard课程URL。

  • bbrouter (str) – BbRouter cookie。

  • load_all_recursively (bool) – 如果为True,则递归加载所有文档。

  • basic_auth (Optional[Tuple[str, str]]) – 基本认证凭据。

  • cookies (Optional[dict]) – Cookie。

  • continue_on_failure (bool) – 当在加载URL时发生错误时是否继续加载网站地图,发出警告而不是引发异常。将此设置为True会使加载器更健壮,但也可能导致数据丢失。默认值:False

  • show_progress (bool) – 是否在加载时显示进度条。默认值:True

引发

ValueError – 如果Blackboard课程URL无效。

属性

web_path

方法

__init__(blackboard_course_url, bbrouter[, ...])

使用Blackboard课程URL初始化。

alazy_load()

用于文档的懒加载器。

aload()

以异步方式从 web_path 中的 URL 加载文本到文档中。

check_bs4()

检查是否已安装 BeautifulSoup4。

download(path)

从 URL 下载文件。

fetch_all(urls)

以速率限制同时获取所有 URL。

lazy_load()

从 web_path 中的 URL(s) 懒加载文本。

load()

将数据加载到文档对象。

load_and_split([text_splitter])

加载文档并将它们分割成块。

parse_filename(url)

从 URL 解析文件名。

scrape([parser])

从网页抓取数据并以 BeautifulSoup 格式返回。

scrape_all(urls[, parser])

获取所有 URL,然后返回所有结果的对齐列表。

__init__(blackboard_course_url: str, bbrouter: str, load_all_recursively: bool = True, basic_auth: Optional[Tuple[str, str]] = None, cookies: Optional[dict] = None, continue_on_failure: bool = False, show_progress: bool = True)[源代码]

使用Blackboard课程URL初始化。

BbRouter cookie对于大多数Blackboard课程都是必需的。

参数
  • blackboard_course_url (str) – Blackboard课程URL。

  • bbrouter (str) – BbRouter cookie。

  • load_all_recursively (bool) – 如果为True,则递归加载所有文档。

  • basic_auth (Optional[Tuple[str, str]]) – 基本认证凭据。

  • cookies (Optional[dict]) – Cookie。

  • continue_on_failure (bool) – 当在加载URL时发生错误时是否继续加载网站地图,发出警告而不是引发异常。将此设置为True会使加载器更健壮,但也可能导致数据丢失。默认值:False

  • show_progress (bool) – 是否在加载时显示进度条。默认值:True

引发

ValueError – 如果Blackboard课程URL无效。

异步alazy_load() AsyncIterator[Document]

用于文档的懒加载器。

返回类型

AsyncIterator[Document]

aload() List[Document]

以异步方式从 web_path 中的 URL 加载文本到文档中。

返回类型

列表[Document]

check_bs4() None[源代码]

检查是否已安装 BeautifulSoup4。

引发

导入错误 - 如果未安装 BeautifulSoup4。

返回类型

None

download(path: str) None[源代码]

从 URL 下载文件。

参数

path (str) – 文件路径。

返回类型

None

async fetch_all(urls: List[str]) Any

以速率限制同时获取所有 URL。

参数

urls (List[str]) –

返回类型

Any

lazy_load() Iterator[Document]

从 web_path 中的 URL(s) 懒加载文本。

返回类型

Iterator[Document]

load() List[Document][源代码]

将数据加载到文档对象。

返回

文档列表。

返回类型

列表[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块以文档的形式返回。

不要重写此方法。应考虑将其弃用!

参数

text_splitter (Optional[TextSplitter]) – 用于分割文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

parse_filename(url: str) str[source]

从 URL 解析文件名。

参数

url (str) – 从中解析文件名的URL。

返回

文件名。

返回类型

str

scrape(parser: Optional[str] = None) Any

从网页抓取数据并以 BeautifulSoup 格式返回。

参数

parser (Optional[str]) –

返回类型

Any

scrape_all(urls: List[str], parser: Optional[str] = None) List[Any]

获取所有 URL,然后返回所有结果的对齐列表。

参数
  • urls (List[str]) –

  • parser (Optional[str]) –

返回类型

List[Any]

使用BlackboardLoader的示例