langchain.smith.evaluation.config.RunEvalConfig

class langchain.smith.evaluation.config.RunEvalConfig[source]

继承自: BaseModel

运行的评估配置。

参数
  • 评估器 (列表[集合[EvaluatorType, EvalConfig, RunEvaluator, Callable]]) – 对数据集运行应用的评估器配置。可以是 EvaluatorType 的字符串,例如 EvaluatorType.QA,评估器类型字符串(“qa”),或者特定评估器的配置(例如,RunEvalConfig.QA)。

  • custom_evaluators (可选项[列表[集合[RunEvaluator, StringEvaluator]]]) – 对数据集运行应用的自定义评估器。

  • reference_key (可选项[str]) – 数据集运行中用作参考字符串的键。如果未提供,将自动推断。

  • prediction_key (可选项[str]) – 从跟踪运行输出的字典中使用的键,用作表示预测。如果未提供,将自动推断。

  • input_key (可选项[str]) – 从跟踪运行输入的字典中使用的键,用作表示输入。如果未提供,将自动推断。

  • eval_llm (可选项[BaseLanguageModel]) – 将传递给任何使用语言模型的评估器的语言模型。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param batch_evaluators: Optional[List[Callable[[Sequence[Run], Optional[Sequence[Example]]], Union[EvaluationResult, EvaluationResults, dict]]]] = None

在聚合/批量级别运行的评估器。

这生成 1 或多个指标,这些指标分配给完整的测试运行。因此,它们与单个跟踪不相关。

参数 custom_evaluators: Optional[List[Union[Callable[[Run, Optional[Example]], Union[EvaluationResult, EvaluationResults, dict]], RunEvaluator, StringEvaluator]]] = None

为数据集运行应用的自定义评估器。

参数 eval_llm: Optional[BaseLanguageModel] = None

传递给任何需要语言模型的评估器的语言模型。

参数 evaluators: List[Union[EvaluatorType, str, EvalConfig, Callable[[Run, Optional[Example]], Union[EvaluationResult, EvaluationResults, dict]], RunEvaluator, StringEvaluator]] [可选]

对于哪些评估器应用于数据集运行的配置。每个可以是 EvaluatorType 字符串,如 EvaluatorType.QA、评估器类型字符串(“qa”),或特定评估器的配置(例如,RunEvalConfig.QA)。

param input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

class CoTQA[source]

基类: SingleKeyEvalConfig

基于上下文的 QA 评估器的配置。

参数
  • 提示 (可选用于生成问题的提示模板。

  • llm (可选用于评估链的语言模型。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param evaluator_type : EvaluatorType = EvaluatorType.CONTEXT_QA
参数 input_key: 可选[字符串] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

参数 llm: 可选[BaseLanguageModel] = None
参数 prediction_key: 可选[字符串] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

参数 prompt: 可选[BasePromptTemplate] = None
参数 reference_key: 可选[字符串] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() 字典[字符串, 任意类型]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class ContextQA[源代码]

基类: SingleKeyEvalConfig

基于上下文的 QA 评估器的配置。

参数
  • 提示 (可选用于生成问题的提示模板。

  • llm (可选用于评估链的语言模型。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

参数 evaluator_type: EvaluatorType = EvaluatorType.CONTEXT_QA
param input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param llm: Optional[BaseLanguageModel] = None
param prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param prompt: Optional[BasePromptTemplate] = None
param reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class Criteria[source]

基类: SingleKeyEvalConfig

无参考基准评估器的配置。

参数
  • criteria可选 [ CRITERIA_TYPE ])- 要评估的基准。

  • llm (可选用于评估链的语言模型。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

参数 criteria : 可选[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None
参数 evaluator_type : EvaluatorType = EvaluatorType.CRITERIA
参数 input_key : 可选[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

参数 llm : 可选[BaseLanguageModel] = None
参数 prediction_key : 可选[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

参数 reference_key : 可选[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class EmbeddingDistance[源代码]

基类: SingleKeyEvalConfig

嵌入距离评估器的配置。

参数
  • embeddings可选嵌入对象]) – 用于计算距离的嵌入。

  • distance_metric可选EmbeddingDistanceEnum) – 用于计算距离的距离度量。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param distance_metric: Optional[EmbeddingDistance] = None
param embeddings: Optional[Embeddings] = None
param evaluator_type: EvaluatorType = EvaluatorType.EMBEDDING_DISTANCE
param input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class ExactMatch[源代码]

基类: SingleKeyEvalConfig

精确匹配字符串评估器的配置。

参数
  • ignore_case (bool) – 在比较字符串时是否忽略大小写。

  • ignore_punctuation (bool) – 在比较字符串时是否忽略标点符号。

  • ignore_numbers (bool) – 在比较字符串时是否忽略数字。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param evaluator_type : EvaluatorType = EvaluatorType.EXACT_MATCH
param ignore_case : bool = False
param ignore_numbers : bool = False
param ignore_punctuation : bool = False
param input_key : Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param prediction_key : Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

参数 reference_key: 可选[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

JsonEqualityEvaluator[source]

基类: EvalConfig

Json相等性评估器的配置。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

参数 evaluator_type: EvaluatorType = EvaluatorType.JSON_EQUALITY
get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

JsonValidity[source]

基类: SingleKeyEvalConfig

Json有效性评估器的配置。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

参数 evaluator_type: EvaluatorType = EvaluatorType.JSON_VALIDITY
参数 input_key: 可选[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class LabeledCriteria[source]

基类: SingleKeyEvalConfig

带引用标签的评估器配置。

参数
  • criteria可选 [ CRITERIA_TYPE ])- 要评估的基准。

  • llm (可选用于评估链的语言模型。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param criteria: Optional[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None
param evaluator_type: EvaluatorType = EvaluatorType.LABELED_CRITERIA
param input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

参数 llm:Optional[BaseLanguageModel] = None
参数 prediction_key:Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

参数 reference_key:Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

LabeledScoreString[source]

继承自:ScoreString

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

参数 criteria:Optional[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None
参数 evaluator_type: EvaluatorType = EvaluatorType.LABELED_SCORE_STRING
参数 input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

参数 llm: Optional[BaseLanguageModel] = None
参数 normalize_by: Optional[float] = None
参数 prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

参数 prompt: Optional[BasePromptTemplate] = None
参数 reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class QA[源代码]

基类: SingleKeyEvalConfig

QA评估器的配置。

参数
  • 提示 (可选用于生成问题的提示模板。

  • llm (可选用于评估链的语言模型。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param evaluator_type: EvaluatorType = EvaluatorType.QA
param input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param llm: Optional[BaseLanguageModel] = None
param prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param prompt: Optional[BasePromptTemplate] = None
param reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class RegexMatch[源代码]

基类: SingleKeyEvalConfig

正则匹配字符串评估器的配置。

参数

flags (int) – 传递给正则表达式的标志。例如:re.IGNORECASE。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param evaluator_type: EvaluatorType = EvaluatorType.REGEX_MATCH
param flags: int = 0
param input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

param prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class ScoreString[源代码]

基类: SingleKeyEvalConfig

分数字符串评估器的配置。这与标准评估器类似,但默认配置为返回1到10的分数。

建议通过将《normalize_by》设置为10来对这些分数进行归一化。

参数
  • criteria可选 [ CRITERIA_TYPE ])- 要评估的基准。

  • llm (可选用于评估链的语言模型。

  • normalize_by (可选[int] = None) – 如需归一化分数,则使用该分母。如果未提供,则分数将在1和10之间(默认)。

  • prompt (可选[BasePromptTemplate]) –

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

参数criteria: Optional[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None
参数evaluator_type: EvaluatorType = EvaluatorType.SCORE_STRING
参数input_key: Optional[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

参数llm: Optional[BaseLanguageModel] = None
参数normalize_by: Optional[float] = None
参数prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

param prompt: 可选[BasePromptTemplate] = None
param reference_key: 可选[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]

class StringDistance[source]

基类: SingleKeyEvalConfig

字符串距离评估器的配置。

参数

distance (可选[StringDistanceEnum]) – 要使用的字符串距离度量。

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,将引发 ValidationError。

param distance: 可选[StringDistance] = None

要使用的字符串距离度量。damerau_levenshtein: Damerau-Levenshtein距离。levenshtein: Levenshtein距离。jaro: Jaro距离。jaro_winkler: Jaro-Winkler距离。

param evaluator_type: EvaluatorType = EvaluatorType.STRING_DISTANCE
param input_key: 可选[str] = None

用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。

参数normalize_score: bool = True

是否将距离归一化到0到1之间。仅适用于Levenshtein和Damerau-Levenshtein距离。

参数prediction_key: Optional[str] = None

用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。

参数reference_key: Optional[str] = None

用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。

get_kwargs() Dict[str, Any]

获取调用 load_evaluator 的关键字参数。

返回值

调用 load_evaluator 的关键字参数。

返回类型

字典[str, 任意类型]