type
status
slug
summary
tags
category
password
date
icon

机器学习

线性回归模型

🦄
将你的数据拟合成一条直线,世界上使用最广泛的语言
监督学习模型
  • 回归模型
  • 分类模型
术语
  • training set : data used to train models 训练集
  • x feature
  • y target
  • (x, y)
  • y_hat prediction(estimated y)
  • univariate linear regression单变量回归

成本函数

  • model
  • parameter
  • cost function
  • 最小化cost function
for fixed w, function of x;
function of w;
目标是使用代码来编写一个自动找到参数w和b的值,从而得到最好的拟合线 梯度下降

梯度下降

梯度下降时一种可用于尝试最小化任何函数的算法
notion image
聚类(Clustering)是一种无监督学习方法,用于将数据分为若干个组或簇(cluster),使得同一个簇内的数据点之间具有较高的相似性,而不同簇之间的数据点相似性较低
在没有事先给定标签的情况下,聚类算法通过分析数据内在的结构,自动将数据分组。聚类在许多应用中都非常有用,比如市场细分、社交网络分析、组织计算机集群、图像分割等领域。

常用的聚类算法包括:

  1. K-均值聚类(K-means Clustering)
      • 选择K个点作为初始的簇中心。
      • 将每个点分配到最近的簇中心,形成K个簇。
      • 重新计算每个簇的中心点。
      • 重复上述过程直到簇中心不再变化。
  1. 层次聚类(Hierarchical Clustering)
      • 将每个数据点视为一个簇。
      • 将最近的两个簇合并。
      • 重复合并过程直到所有的数据点都被合并到一个簇中,或者达到预定的簇数量。
  1. DBSCAN(基于密度的空间聚类的应用与噪声)
      • 基于密度的聚类,能够识别出任意形状的簇,并能处理噪声数据。
      • 核心对象、边界对象和噪声对象的概念。
      • 参数选择包括邻域大小(ε)和最小点数(MinPts)。
      🦄
      聚类的效果很大程度上依赖于所选算法的性质和参数设置。不同的聚类算法和参数设置可能导致完全不同的聚类结果。因此,选择合适的聚类算法和调整适当的参数是实现好的聚类效果的关键。
      在聚类分析中,"Intra-cluster distances are minimized"(簇内距离最小化)和"Inter-cluster distances are maximized"(簇间距离最大化)是两个非常重要的原则,这两个原则帮助评估聚类的质量和有效性。

      簇内距离最小化(Intra-cluster Distances Minimized)

      簇内距离指的是同一个簇内各数据点之间的距离。簇内距离最小化的目标是确保同一个簇内的数据点尽可能相似或者接近,这表示一个簇内的成员具有较高的同质性。这可以通过减少簇内各点到簇中心的平均距离(或总距离)来实现。例如,在K-均值聚类中,一个簇内所有点到簇中心(均值点)的平方距离和是需要被最小化的目标函数。

      簇间距离最大化(Inter-cluster Distances Maximized)

      簇间距离是指不同簇之间的数据点的距离。簇间距离最大化的目标是确保不同簇之间的数据点尽可能不相似或者远离,这表示簇与簇之间具有较高的区分度。这通常通过最大化不同簇中心之间的距离来实现。例如,在K-均值聚类中,我们希望不同簇的中心点之间的距离尽可能大。
      🦄
      这两个原则是衡量聚类效果好坏的关键指标。理想的聚类结果应该是簇内距离小,簇间距离大。这意味着同一个簇内的数据点非常相似(紧密),而不同簇的数据点则明显不同(分散),从而确保了聚类的准确性和实用性。
      notion image

      K-means

       

      机器学习 in CMU

      作业题的启发

      • 几种不同类型的attributes
        • nominal
          • gender
          • just name
        • ordinal
          • level of satisfaction with hotel services
          • rank in an exam
          • names with ranking
        • interval
          • height above sea level
          • score of an English exam
          • differences are meaningful
        • ratio
          • number of patients in a hospital
          重点在于记住一些常见的数据格式,然后区分
          notion image
          notion image
           
数据分析面试计科经验分享
Loading...
fufu酱
fufu酱
一个爱折腾的大学生
公告
👋
欢迎 欢迎来到fufu酱的blog! 💞️我是22级浙江大学竺可桢学院计算机科学与技术专业的学生 一个爱折腾的大学生 🌱我会在这个网站上更新我的笔记和工具分享 🌈目前all in MLLM 📫你可以用下面的方式联系到我
🍀
今後ともよろしくお願いします