跳到主要内容

milvus术语

  • Collection:包含一组entity,可以等价于关系型数据库中的表
  • Schema:Schema 是定义数据类型和数据属性的元信息。每个集合都有自己的集合 schema,定义集合的字段、启用自动 ID(主键)分配,并包括集合描述。集合 schema 中还包括定义字段名称、数据类型和其他属性的字段模式。
  • Segment:段是由 Milvus 自动创建的用于容纳插入数据的数据文件。
  • Entity:实体是代表现实世界对象的一组字段。在 Milvus 中,每个实体都由唯一的主键表示。
  • Field:字段是组成实体的单元。字段可以是结构化数据(例如数字、字符串)或向量。
  • Embedding Vector:嵌入向量是对非结构化数据(如电子邮件、IoT 传感器数据、Instagram 照片、蛋白质结构等)的特征抽象。从数学上讲,嵌入向量是一组浮点数或二进制数的数组。现代嵌入技术用于将非结构化数据转换为嵌入向量。
  • Vector Index:向量索引是从原始数据派生出的重新组织的数据结构,可以大大加速向量相似度搜索的过程。
  • Mapping:一系列规则用于定义 collection 如何组织数据
  • Vector similarity search:向量相似度搜索是比较一个向量与数据库中的向量,以找到与目标搜索向量最相似的向量的过程。用于计算向量之间的相似度的算法通常采用近似最近邻(ANN)搜索。
  • Sharing:分片是将写入操作分配到不同节点上,以充分利用 Milvus 集群的并行计算能力来写入数据。默认情况下,单个集合包含两个分片。