Claude 技术文档学习
date
Sep 3, 2024
slug
claude-technical-document-study-notes
status
Published
tags
AI
summary
学习 Claude 的官方文档记录的笔记
type
Post
对于人类需要思考的任务,如复杂数学、多步骤分析、撰写复杂文档或涉及多个因素的决策,请使用 CoT。
BLEU 分数:比较机器生成的翻译与多个参考翻译之间的相似度,衡量翻译的准确性和流畅性,BLEU 分数基于共现的 n 元组(通常是单词或短语)的匹配程度来计算,得分越高表示机器翻译的质量越好。
困惑度:模型预测某个词序列的平均不确定度,困惑度越低,表示模型对词序列的预测越准确,模型的性能越好。高困惑度通常意味着模型在处理数据时的不确定性较大。
- 我们可以通过添加系统提示来控制回答的格式、语气和个性。
- 召回率
召回率是评估模型性能的一个指标,用于衡量模型 正确识别出的正例 在 所有实际正例 中的比例。它反映了模型在查找相关实例方面的能力。
大模型判断出的正数据,占全部正数据的比例

- 准确率:大模型正确预测的数量占总预测数的比例

- 精确度:大模型所判断的正数据中,实际为正占的比例

- F1 分数:

指标 | 过高时特点 | 适用情况 | 过低时特点 | 适用情况 |
精确率 | 高度准确的正类识别 | 高假阳性代价的场合(医疗检测,垃圾邮件过滤) | 许多正类被误判为负类 | 重要性较低的场合 |
准确率 | 数据集平衡且模型整体表现优秀 | 类别较为平衡的任务 | 模型总体分类效果差 | 需审视模型特征、算法及数据处理方法 |
召回率 | 识别出大多数正类实例 | 高假阴性代价的情况(疾病筛查,欺诈检测) | 难以识别正类,漏掉许多正类 | 假阳性代价高且假阴性可接受的场合 |
F1 分数 | 精确率与召回率良好平衡 | 分类任务的理想情况下 | 精确率和召回率极差 | 模型表现不佳,需改进追踪性能 |
ROC 曲线 | 显示模型在不同阈值下的真阳性率与假阳性率关系,评估分类能力。 |
AUC | ROC 曲线下的面积,接近 1 表示模型分类能力强。 |
特异性 | 负类识别的准确性,评估实际负类中正确预测为负类的比例。 |
负类预测值 (NPV) | 在预测为负类的实例中,实际负类的比例,用于评估未患病者的准确性。 |
Matthews 相关系数 (MCC) | 综合考虑各类预测结果的相关性,值介于 -1 到 1,越接近 1 表示模型越好。 |
分类损失 | 评估模型预测和实际结果的差距,用于训练优化。 |
Kappa 系数 | 衡量分类模型与随机分类差异的程度,值越接近 1 表示表现越好。 |
困惑矩阵 | 以表格形式展示模型 TP、TN、FP、FN 的数量,便于直观分析模型表现。 |
R²(决定系数) | 表示回归模型对目标变量变异的解释能力,值越接近 1 表示模型越好。 |
训练时间和推理时间 | 评估模型训练效率和推理速度,在实时应用中重要。 |
ㅤ | ㅤ |