核心概念 (Core Concepts)
在使用 Loambase Foundry 之前,理解以下几个核心概念将帮助你更好地构建应用。平台的核心模型围绕着 “数据集成 -> 数据加工 -> 语义映射 -> 动作执行” 的逻辑链条展开。
1. 数据源 (DataSource)
定义:代表一个与外部系统交互的物理连接配置,是所有数据注入平台的入口。
- 它本身不存储数据,仅维护连接凭证与网络连通性。
- 支持的类型包括关系型数据库(MySQL、PostgreSQL)、消息队列(Kafka)、文件系统(S3)以及第三方 REST API。
- 平台会自动对密码等敏感字段进行加密存储。
2. 数据集 (Dataset)
定义:平台内存储数据的最小粒度单元(相当于一张物理表或一个文件集合)。Dataset 是数据处理管道的唯一输入与输出对象。
根据其在平台中的生命周期,分为两类:
- 原始数据集 (Raw Dataset):通过 DataSource 直接从外部系统同步过来的数据,保持原汁原味。
- 派生数据集 (Derived Dataset):经过平台 Pipeline 清洗、转换后生成的更高质量的数据集。
无论哪种类型,每个 Dataset 都会被抽象为统一的 Schema(如 STRING, INTEGER, TIMESTAMP),屏蔽底层存储引擎的差异。
3. 流水线 (Pipeline) & 算子 (Transform)
定义:Pipeline 是数据转换与加工的逻辑编排,在平台中被抽象为有向无环图 (DAG)。
- 节点 (Node):图中的节点就是 Dataset(输入或输出)。
- 边 (Edge):图中的边或中间计算节点称为算子 (Transform)。
- 算子定义了具体的计算逻辑,比如:原生的 SQL 查询、条件过滤(Filter)、数据关联(Join)或聚合(Aggregate)。
Pipeline 支持手动触发,也支持通过 CRON 表达式配置定时调度。每次成功运行后,输出的 Dataset 版本号会自动递增。
4. 本体语义层 (Ontology)
定义:本体是数据的高阶抽象,构成了终端用户进行图谱探索和应用构建的 语义层 (Semantic Layer)。
它将底层冰冷的 Dataset 映射为业务用户能直接理解的真实世界实体。本体主要由以下三个部分构成:
4.1 对象类 (ObjectType)
定义一类业务实体,例如“员工”、“订单”、“工厂”。
- 每个 ObjectType 都会映射到一个底层的高质量 Dataset 上。
- 必须指定 Dataset 中的某一列作为该本体对象的唯一主键。
4.2 属性 (Property)
定义 ObjectType 下的具体属性,将 Dataset 的物理列映射为业务属性。
- 例如,将物理列
first_name映射为业务属性employee_name。 - 你可以配置该属性是否允许作为全局搜索的过滤条件。
4.3 关联关系 (LinkType)
定义 ObjectType 之间的关联,构成知识图谱的边。
- 例如:定义“员工”起点对象类,与“部门”终点对象类之间的
belongs_to关系。 - 关系支持一对一 (
ONE_TO_ONE)、一对多 (ONE_TO_MANY) 和多对多 (MANY_TO_MANY) 的基数配置。
5. 动作 (Action)
定义:Ontology 解决了数据的“读”和“关联”问题,而 Action 解决了数据的**“写”和“业务校验”**问题。
- 它不是简单的底层数据库
UPDATE/INSERT语句,而是带有业务语义的操作(例如:“审批请假申请”、“修改订单状态”)。 - Action 可以配置强类型的输入参数、前置校验规则,并且所有操作都会记录在系统的审计日志中。
- 这也是大模型 Agent 与业务系统交互时,最安全、最受控的调用入口(Tool)。