langchain.smith.evaluation.config
.RunEvalConfig¶
- class langchain.smith.evaluation.config.RunEvalConfig[source]¶
继承自:
BaseModel
运行的评估配置。
- 参数
评估器 (列表[集合[EvaluatorType, EvalConfig, RunEvaluator, Callable]]) – 对数据集运行应用的评估器配置。可以是
EvaluatorType
的字符串,例如 EvaluatorType.QA,评估器类型字符串(“qa”),或者特定评估器的配置(例如,RunEvalConfig.QA
)。custom_evaluators (可选项[列表[集合[RunEvaluator, StringEvaluator]]]) – 对数据集运行应用的自定义评估器。
reference_key (可选项[str]) – 数据集运行中用作参考字符串的键。如果未提供,将自动推断。
prediction_key (可选项[str]) – 从跟踪运行输出的字典中使用的键,用作表示预测。如果未提供,将自动推断。
input_key (可选项[str]) – 从跟踪运行输入的字典中使用的键,用作表示输入。如果未提供,将自动推断。
eval_llm (可选项[BaseLanguageModel]) – 将传递给任何使用语言模型的评估器的语言模型。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param batch_evaluators: Optional[List[Callable[[Sequence[Run], Optional[Sequence[Example]]], Union[EvaluationResult, EvaluationResults, dict]]]] = None¶
在聚合/批量级别运行的评估器。
这生成 1 或多个指标,这些指标分配给完整的测试运行。因此,它们与单个跟踪不相关。
- 参数 custom_evaluators: Optional[List[Union[Callable[[Run, Optional[Example]], Union[EvaluationResult, EvaluationResults, dict]], RunEvaluator, StringEvaluator]]] = None¶
为数据集运行应用的自定义评估器。
- 参数 eval_llm: Optional[BaseLanguageModel] = None¶
传递给任何需要语言模型的评估器的语言模型。
- 参数 evaluators: List[Union[EvaluatorType, str, EvalConfig, Callable[[Run, Optional[Example]], Union[EvaluationResult, EvaluationResults, dict]], RunEvaluator, StringEvaluator]] [可选]¶
对于哪些评估器应用于数据集运行的配置。每个可以是
EvaluatorType
字符串,如 EvaluatorType.QA、评估器类型字符串(“qa”),或特定评估器的配置(例如,RunEvalConfig.QA
)。
- param input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- class CoTQA[source]¶
-
基于上下文的 QA 评估器的配置。
- 参数
提示 (可选):用于生成问题的提示模板。
llm (可选):用于评估链的语言模型。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param evaluator_type : EvaluatorType = EvaluatorType.CONTEXT_QA¶
- 参数 input_key: 可选[字符串] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- 参数 llm: 可选[BaseLanguageModel] = None¶
- 参数 prediction_key: 可选[字符串] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- 参数 prompt: 可选[BasePromptTemplate] = None¶
- 参数 reference_key: 可选[字符串] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() 字典[字符串, 任意类型] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class ContextQA[源代码]¶
-
基于上下文的 QA 评估器的配置。
- 参数
提示 (可选):用于生成问题的提示模板。
llm (可选):用于评估链的语言模型。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- 参数 evaluator_type: EvaluatorType = EvaluatorType.CONTEXT_QA¶
- param input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param llm: Optional[BaseLanguageModel] = None¶
- param prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param prompt: Optional[BasePromptTemplate] = None¶
- param reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class Criteria[source]¶
-
无参考基准评估器的配置。
- 参数
criteria (可选 [ CRITERIA_TYPE ])- 要评估的基准。
llm (可选):用于评估链的语言模型。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- 参数 criteria : 可选[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None¶
- 参数 evaluator_type : EvaluatorType = EvaluatorType.CRITERIA¶
- 参数 input_key : 可选[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- 参数 llm : 可选[BaseLanguageModel] = None¶
- 参数 prediction_key : 可选[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- 参数 reference_key : 可选[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class EmbeddingDistance[源代码]¶
-
嵌入距离评估器的配置。
- 参数
embeddings (可选:嵌入对象]) – 用于计算距离的嵌入。
distance_metric (可选:EmbeddingDistanceEnum) – 用于计算距离的距离度量。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param distance_metric: Optional[EmbeddingDistance] = None¶
- param embeddings: Optional[Embeddings] = None¶
- param evaluator_type: EvaluatorType = EvaluatorType.EMBEDDING_DISTANCE¶
- param input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any]¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class ExactMatch[源代码]¶
-
精确匹配字符串评估器的配置。
- 参数
ignore_case (bool) – 在比较字符串时是否忽略大小写。
ignore_punctuation (bool) – 在比较字符串时是否忽略标点符号。
ignore_numbers (bool) – 在比较字符串时是否忽略数字。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param evaluator_type : EvaluatorType = EvaluatorType.EXACT_MATCH¶
- param ignore_case : bool = False¶
- param ignore_numbers : bool = False¶
- param ignore_punctuation : bool = False¶
- param input_key : Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param prediction_key : Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- 参数 reference_key: 可选[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- 类 JsonEqualityEvaluator[source]¶
基类:
EvalConfig
Json相等性评估器的配置。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- 参数 evaluator_type: EvaluatorType = EvaluatorType.JSON_EQUALITY¶
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- 类 JsonValidity[source]¶
-
Json有效性评估器的配置。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- 参数 evaluator_type: EvaluatorType = EvaluatorType.JSON_VALIDITY¶
- 参数 input_key: 可选[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any]¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class LabeledCriteria[source]¶
-
带引用标签的评估器配置。
- 参数
criteria (可选 [ CRITERIA_TYPE ])- 要评估的基准。
llm (可选):用于评估链的语言模型。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param criteria: Optional[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None¶
- param evaluator_type: EvaluatorType = EvaluatorType.LABELED_CRITERIA¶
- param input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- 参数 llm:Optional[BaseLanguageModel] = None¶
- 参数 prediction_key:Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- 参数 reference_key:Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- 类 LabeledScoreString[source]¶
继承自:
ScoreString
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- 参数 criteria:Optional[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None¶
- 参数 evaluator_type: EvaluatorType = EvaluatorType.LABELED_SCORE_STRING¶
- 参数 input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- 参数 llm: Optional[BaseLanguageModel] = None¶
- 参数 normalize_by: Optional[float] = None¶
- 参数 prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- 参数 prompt: Optional[BasePromptTemplate] = None¶
- 参数 reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class QA[源代码]¶
-
QA评估器的配置。
- 参数
提示 (可选):用于生成问题的提示模板。
llm (可选):用于评估链的语言模型。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param evaluator_type: EvaluatorType = EvaluatorType.QA¶
- param input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param llm: Optional[BaseLanguageModel] = None¶
- param prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param prompt: Optional[BasePromptTemplate] = None¶
- param reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any]¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class RegexMatch[源代码]¶
-
正则匹配字符串评估器的配置。
- 参数
flags (int) – 传递给正则表达式的标志。例如:re.IGNORECASE。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param evaluator_type: EvaluatorType = EvaluatorType.REGEX_MATCH¶
- param flags: int = 0¶
- param input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- param prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class ScoreString[源代码]¶
-
分数字符串评估器的配置。这与标准评估器类似,但默认配置为返回1到10的分数。
建议通过将《normalize_by》设置为10来对这些分数进行归一化。
- 参数
criteria (可选 [ CRITERIA_TYPE ])- 要评估的基准。
llm (可选):用于评估链的语言模型。
normalize_by (可选[int] = None) – 如需归一化分数,则使用该分母。如果未提供,则分数将在1和10之间(默认)。
prompt (可选[BasePromptTemplate]) –
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- 参数criteria: Optional[Union[Mapping[str, str], Criteria, ConstitutionalPrinciple]] = None¶
- 参数evaluator_type: EvaluatorType = EvaluatorType.SCORE_STRING¶
- 参数input_key: Optional[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- 参数llm: Optional[BaseLanguageModel] = None¶
- 参数normalize_by: Optional[float] = None¶
- 参数prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- param prompt: 可选[BasePromptTemplate] = None¶
- param reference_key: 可选[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any] ¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]
- class StringDistance[source]¶
-
字符串距离评估器的配置。
- 参数
distance (可选[StringDistanceEnum]) – 要使用的字符串距离度量。
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,将引发 ValidationError。
- param distance: 可选[StringDistance] = None¶
要使用的字符串距离度量。damerau_levenshtein: Damerau-Levenshtein距离。levenshtein: Levenshtein距离。jaro: Jaro距离。jaro_winkler: Jaro-Winkler距离。
- param evaluator_type: EvaluatorType = EvaluatorType.STRING_DISTANCE¶
- param input_key: 可选[str] = None¶
用于表示输入的已跟踪运行输入字典中的键。如果没有提供,将自动推断。
- 参数normalize_score: bool = True¶
是否将距离归一化到0到1之间。仅适用于Levenshtein和Damerau-Levenshtein距离。
- 参数prediction_key: Optional[str] = None¶
用于表示预测的已跟踪运行输出字典中的键。如果没有提供,将自动推断。
- 参数reference_key: Optional[str] = None¶
用于在数据集运行中作为参考字符串的键。如果没有提供,我们将尝试自动推断。
- get_kwargs() Dict[str, Any]¶
获取调用 load_evaluator 的关键字参数。
- 返回值
调用 load_evaluator 的关键字参数。
- 返回类型
字典[str, 任意类型]