ZBX Blog

热爱生活,健康工作

TransformerBlock class TransformerBlock(nn.Module): def __init__(self, cfg): super().__init__() self.att = MultiHeadAttention( d_in=cfg["emb_dim"], d_ou...

Dify调研

Dify调研

简要说明 Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。 Docker Compose 部署 进入 Dify 源代码的 Docker 目录 cd dif...

LLM微调

LLM微调

什么是微调Fine-tuning? 微调是指在预训练模型的基础上,使用特定任务(如文本分类、摘要生成)或领域(如法律、医学)的数据集对模型进行一步训练的过程。预训练模型通常在大规模、通用语料库上训练,学习了丰富的语言模型和知识。 微调的方法分类 (1) 全参数微调(Full Fine-tuning) 更新模型所有参数。 (2) 参数高效微调(Parameter-Efficient ...

用大模型进行文献阅读

用大模型进行文献阅读

Prompt 请你作为一位本文献研究领域的专家,将文献翻译为中文,翻译结果需要精准且符合学术表达习惯 请你作为本文献研究领域的专家,对文献进行精读 请你作为一位本文献研究领域的专家,对文献的摘要部分进行精读。精读过程中围绕以下两个问题: 1、作者想解决什么问题?2、作者通过什么理论/模型来解决这个问题? 请你作为一位本文献研究领域的专家,对文献的引言部分进行精读。精读过程...

分布式训练

分布式训练

分布式训练 分布式训练是一种利用多台机器或多个计算设备(如GPU、TPU)协同工作来加速模型训练的技术,主要用于处理大规模数据或参数量极大的模型(如深度学习)。其核心目标是通过并行计算解决单设备内存不足、训练速度慢的问题。 一、为什么需要分布式训练? 数据/模型规模大:现代模型参数量可达千亿(如GPT-3),单设备无法存储。 训练速度需求:单GPU训练大型数据集耗时过长(如几...

Transformer实践中的小例子

Transformer实践中的小例子

词嵌入矩阵V 假设我们正在进行一个机器翻译任务,输入的是英文句子,输出是翻译成法文的句子。为了简单起见,假设我们使用了一个非常小的模型。 batch_size:一次性处理的样本数量,假设是 2,表示我们有 2 个英文句子要翻译。 seq_len:每个句子的最大长度。假设每个句子有 4 个词。 d_model:每个词的表示维度。假设我...

Transformer原理

Transformer原理

Transformer结构 1. Input Embedding 对于输入文本序列,先通过Input Embedding 将每个单词转换为其相对应的向量表示。 在送入编码器端建模其上下文语义之前,在词嵌入中加入位置编码(Positional Encoding)。 Positional Encoding(位置编码) 来显式地为输入的词向量添加位置信息,使得模型能够利用这些信息来区分...

Apache Kylin调研

Apache Kylin调研

概念 介绍 model design 模型设计指的是建立数据表之间的关系,以便从多维数据中快速提取关键信息。模型设计的核心元素包括计算列、维度、度量值和连接关系。 Index design 索引设计指的是在模型中创建索引(CUBEs),以预计算查询结果,从而减少查询响应时间。精心设计的索引不仅可以提高查询性能,还有助于...

SkyWalking初探&浅析

SkyWalking初探&浅析

APM系统概述 什么是APM系统? 目前主流的产品借助Google的Dapper论文实现的,一下是Dapper的翻译版本: Dapper,大规模分布式系统的跟踪系统 日志Logs 指标 Metrics 链路追踪 Traces 主流的APM系统 日志 ELK Stack 指标 Prometheus 链路追踪 SkyWalking OpenTraci...

本体论&digitalbuilding使用

本体论&digitalbuilding使用

Digital Buildings Project 数字建筑项目是一个开放源代码、Apache许可证的项目,旨在创建一个统一的模式和工具集,用于表示建筑物及其安装设备的结构化信息。目前,数字建筑本体论和工具集的一个版本正在被谷歌用于管理其投资组合中的建筑物。数字建筑项目起源于以可扩展的方式管理大量且异构建筑物组合的需要。该项目旨在实现在建筑物...