langchain_community.document_loaders.pyspark_dataframe.PySparkDataFrameLoader

class langchain_community.document_loaders.pyspark_dataframe.PySparkDataFrameLoader(spark_session: Optional[SparkSession] = None, df: Optional[Any] = None, page_content_column: str = 'text', fraction_of_memory: float = 0.1)[源代码]

加载 PySpark DataFrame。

使用 Spark DataFrame 对象初始化。

参数
  • spark_session (可选[SparkSession]) – SparkSession 对象。

  • df (可选[任何]) – Spark DataFrame 对象。

  • page_content_column (字符串) – 包含页面内容的列名称。默认为“text”。

  • fraction_of_memory (浮点数) – 要使用的内存比例。默认为 0.1。

方法

__init__([spark_session, df, ...])

使用 Spark DataFrame 对象初始化。

alazy_load()

Documents 的 lazy loader。

aload()

将数据加载到 Document 对象中。

get_num_rows()

获取 DataFrame 的“可行”行数

lazy_load()

文档内容的 lazy loader。

load()

从数据框加载。

load_and_split([text_splitter])

加载 Documents 并分割成块。

__init__(spark_session: Optional[SparkSession] = None, df: Optional[Any] = None, page_content_column: str = 'text', fraction_of_memory: float = 0.1)[source]

使用 Spark DataFrame 对象初始化。

参数
  • spark_session (可选[SparkSession]) – SparkSession 对象。

  • df (可选[任何]) – Spark DataFrame 对象。

  • page_content_column (字符串) – 包含页面内容的列名称。默认为“text”。

  • fraction_of_memory (浮点数) – 要使用的内存比例。默认为 0.1。

async alazy_load() AsyncIterator[Document]

Documents 的 lazy loader。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到 Document 对象中。

返回类型

List[Document]

get_num_rows() Tuple[int, int][source]

获取DataFrame中“可行”行的数量

返回类型

Tuple[int, int]

lazy_load() 迭代器[Document][source]

文档内容的 lazy loader。

返回类型

迭代器[Document]

load() 列表[Document][source]

从数据框加载。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) 列表[Document]

加载文档并将它们分成块。块将以Document的形式返回。

不要重写此方法。应考虑将其弃用!

参数

text_splitter (可选TextSplitter) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

返回类型

列表[Document]

PySparkDataFrameLoader的使用示例