核心概念 (Core Concepts)

在使用 Loambase Foundry 之前,理解以下几个核心概念将帮助你更好地构建应用。平台的核心模型围绕着 “数据集成 -> 数据加工 -> 语义映射 -> 动作执行” 的逻辑链条展开。


1. 数据源 (DataSource)

定义:代表一个与外部系统交互的物理连接配置,是所有数据注入平台的入口。

  • 它本身不存储数据,仅维护连接凭证与网络连通性。
  • 支持的类型包括关系型数据库(MySQL、PostgreSQL)、消息队列(Kafka)、文件系统(S3)以及第三方 REST API。
  • 平台会自动对密码等敏感字段进行加密存储。

2. 数据集 (Dataset)

定义:平台内存储数据的最小粒度单元(相当于一张物理表或一个文件集合)。Dataset 是数据处理管道的唯一输入与输出对象。

根据其在平台中的生命周期,分为两类:

  • 原始数据集 (Raw Dataset):通过 DataSource 直接从外部系统同步过来的数据,保持原汁原味。
  • 派生数据集 (Derived Dataset):经过平台 Pipeline 清洗、转换后生成的更高质量的数据集。

无论哪种类型,每个 Dataset 都会被抽象为统一的 Schema(如 STRING, INTEGER, TIMESTAMP),屏蔽底层存储引擎的差异。


3. 流水线 (Pipeline) & 算子 (Transform)

定义:Pipeline 是数据转换与加工的逻辑编排,在平台中被抽象为有向无环图 (DAG)

  • 节点 (Node):图中的节点就是 Dataset(输入或输出)。
  • 边 (Edge):图中的边或中间计算节点称为算子 (Transform)
  • 算子定义了具体的计算逻辑,比如:原生的 SQL 查询、条件过滤(Filter)、数据关联(Join)或聚合(Aggregate)。

Pipeline 支持手动触发,也支持通过 CRON 表达式配置定时调度。每次成功运行后,输出的 Dataset 版本号会自动递增。


4. 本体语义层 (Ontology)

定义:本体是数据的高阶抽象,构成了终端用户进行图谱探索和应用构建的 语义层 (Semantic Layer)

它将底层冰冷的 Dataset 映射为业务用户能直接理解的真实世界实体。本体主要由以下三个部分构成:

4.1 对象类 (ObjectType)

定义一类业务实体,例如“员工”、“订单”、“工厂”。

  • 每个 ObjectType 都会映射到一个底层的高质量 Dataset 上。
  • 必须指定 Dataset 中的某一列作为该本体对象的唯一主键。

4.2 属性 (Property)

定义 ObjectType 下的具体属性,将 Dataset 的物理列映射为业务属性。

  • 例如,将物理列 first_name 映射为业务属性 employee_name
  • 你可以配置该属性是否允许作为全局搜索的过滤条件。

4.3 关联关系 (LinkType)

定义 ObjectType 之间的关联,构成知识图谱的边。

  • 例如:定义“员工”起点对象类,与“部门”终点对象类之间的 belongs_to 关系。
  • 关系支持一对一 (ONE_TO_ONE)、一对多 (ONE_TO_MANY) 和多对多 (MANY_TO_MANY) 的基数配置。

5. 动作 (Action)

定义:Ontology 解决了数据的“读”和“关联”问题,而 Action 解决了数据的**“写”和“业务校验”**问题。

  • 它不是简单的底层数据库 UPDATE/INSERT 语句,而是带有业务语义的操作(例如:“审批请假申请”、“修改订单状态”)。
  • Action 可以配置强类型的输入参数、前置校验规则,并且所有操作都会记录在系统的审计日志中。
  • 这也是大模型 Agent 与业务系统交互时,最安全、最受控的调用入口(Tool)。