langchain_community.document_loaders.pyspark_dataframe
.PySparkDataFrameLoader¶
- class langchain_community.document_loaders.pyspark_dataframe.PySparkDataFrameLoader(spark_session: Optional[SparkSession] = None, df: Optional[Any] = None, page_content_column: str = 'text', fraction_of_memory: float = 0.1)[源代码]¶
加载 PySpark DataFrame。
使用 Spark DataFrame 对象初始化。
- 参数
spark_session (可选[SparkSession]) – SparkSession 对象。
df (可选[任何]) – Spark DataFrame 对象。
page_content_column (字符串) – 包含页面内容的列名称。默认为“text”。
fraction_of_memory (浮点数) – 要使用的内存比例。默认为 0.1。
方法
__init__
([spark_session, df, ...])使用 Spark DataFrame 对象初始化。
Documents 的 lazy loader。
aload
()将数据加载到 Document 对象中。
获取 DataFrame 的“可行”行数
文档内容的 lazy loader。
load
()从数据框加载。
load_and_split
([text_splitter])加载 Documents 并分割成块。
- __init__(spark_session: Optional[SparkSession] = None, df: Optional[Any] = None, page_content_column: str = 'text', fraction_of_memory: float = 0.1)[source]¶
使用 Spark DataFrame 对象初始化。
- 参数
spark_session (可选[SparkSession]) – SparkSession 对象。
df (可选[任何]) – Spark DataFrame 对象。
page_content_column (字符串) – 包含页面内容的列名称。默认为“text”。
fraction_of_memory (浮点数) – 要使用的内存比例。默认为 0.1。
- load_and_split(text_splitter: Optional[TextSplitter] = None) 列表[Document] ¶
加载文档并将它们分成块。块将以Document的形式返回。
不要重写此方法。应考虑将其弃用!
- 参数
text_splitter (可选:TextSplitter) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- 返回类型
列表[Document]