Claude 技术文档学习

date
Sep 3, 2024
slug
claude-technical-document-study-notes
status
Published
tags
AI
summary
学习 Claude 的官方文档记录的笔记
type
Post
对于人类需要思考的任务,如复杂数学、多步骤分析、撰写复杂文档或涉及多个因素的决策,请使用 CoT。

BLEU 分数:比较机器生成的翻译与多个参考翻译之间的相似度,衡量翻译的准确性和流畅性,BLEU 分数基于共现的 n 元组(通常是单词或短语)的匹配程度来计算,得分越高表示机器翻译的质量越好。
困惑度:模型预测某个词序列的平均不确定度,困惑度越低,表示模型对词序列的预测越准确,模型的性能越好。高困惑度通常意味着模型在处理数据时的不确定性较大。

  • 我们可以通过添加系统提示来控制回答的格式、语气和个性
 
  • 召回率
召回率是评估模型性能的一个指标,用于衡量模型 正确识别出的正例 所有实际正例 中的比例。它反映了模型在查找相关实例方面的能力。
大模型判断出的正数据,占全部正数据的比例
notion image
  • 准确率:大模型正确预测的数量占总预测数的比例
notion image
  • 精确度:大模型所判断的正数据中,实际为正占的比例
notion image
  • F1 分数:
notion image
指标
过高时特点
适用情况
过低时特点
适用情况
精确率
高度准确的正类识别
高假阳性代价的场合(医疗检测,垃圾邮件过滤)
许多正类被误判为负类
重要性较低的场合
准确率
数据集平衡且模型整体表现优秀
类别较为平衡的任务
模型总体分类效果差
需审视模型特征、算法及数据处理方法
召回率
识别出大多数正类实例
高假阴性代价的情况(疾病筛查,欺诈检测)
难以识别正类,漏掉许多正类
假阳性代价高且假阴性可接受的场合
F1 分数
精确率与召回率良好平衡
分类任务的理想情况下
精确率和召回率极差
模型表现不佳,需改进追踪性能
ROC 曲线
显示模型在不同阈值下的真阳性率与假阳性率关系,评估分类能力。
AUC
ROC 曲线下的面积,接近 1 表示模型分类能力强。
特异性
负类识别的准确性,评估实际负类中正确预测为负类的比例。
负类预测值 (NPV)
在预测为负类的实例中,实际负类的比例,用于评估未患病者的准确性。
Matthews 相关系数 (MCC)
综合考虑各类预测结果的相关性,值介于 -1 到 1,越接近 1 表示模型越好。
分类损失
评估模型预测和实际结果的差距,用于训练优化。
Kappa 系数
衡量分类模型与随机分类差异的程度,值越接近 1 表示表现越好。
困惑矩阵
以表格形式展示模型 TP、TN、FP、FN 的数量,便于直观分析模型表现。
R²(决定系数)
表示回归模型对目标变量变异的解释能力,值越接近 1 表示模型越好。
训练时间和推理时间
评估模型训练效率和推理速度,在实时应用中重要。
 

 

2024 - 2025 © 张静