自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1325)
  • 收藏
  • 关注

原创 RagFlow v0.20.X保姆级教程(非常详细)!双向MCP、Agentic智能体全解析,看这篇就够了!

关注**RagFlow**的小伙伴们在催更**RagFlow** 最新版的进展😎

2025-10-21 10:08:37 245

原创 一文讲透AgentS(非常详细)!搞懂“替代”到“赋能”的范式革命,看这篇就够了!

过去几年,大语言模型(LLM)几乎成了科技圈的“超级明星”。它们能写代码、能写文章、能帮忙做决策,甚至还能在会议上给你提炼要点。无论是程序员、作家还是企业高管,似乎都能从中找到一个“万能助手”。

2025-10-21 10:06:05 416

原创 DiagnosisArena保姆级教程(非常详细)!上海交大重磅发布,基于真实病例的多模态评估,看这篇就够了!

文章《DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models》 是一个面向临床诊断推理能力的基准评估框架,旨在以标准化、可重复的方式量化和比较大型语言模型在真实世界诊断情景中的表现。该框架通过结构化的病例任务集(包含病例描述、实验结果与时间线信息等)、多阶段推理任务(初步诊断、鉴别诊断、证据权重整合、诊断解释与不确定性表述)以及统一的评估指标来测量模型的诊断准确性、覆盖度、推理路径的透明度、证据匹配质量、对罕见病

2025-10-21 10:03:49 454

原创 AI Agent不确定性控制从入门到精通:万字长文揭秘10大核心策略,让你的Agent从“混沌”到“可控”,收藏这篇就够了!

大语言模型(LLM)在理解和生成自然语言方面展现了强大的能力,但它们输出的不确定性在一些需要高度准确、结果可预测和可审计的企业场景中,却限制了AI智能体(Agent)的应用:回答的随机偏差甚至“幻觉”式错误可能带来严重后果。这种不确定性会侵蚀企业领域对AI的信任,甚至引发损失。因此,如何控制LLM带来的Agent行为的不确定性,成为企业Agent系统的最大挑战之一。

2025-10-20 20:51:55 522

原创 大模型解数学题从入门到精通:万字长文揭秘概率模型背后的逻辑,收藏这篇就够了!

大模型到底是不是概率模型?---------------**答案是:是的,大模型本质上就是概率模型。

2025-10-20 20:49:09 602

原创 LLM首Token加速从入门到精通:Strata框架万字长文,5倍提速全攻略,收藏这篇就够了!

随着上下文窗口的不断扩大,大型语言模型(LLM)面临着显著的性能瓶颈。尽管键值(KV)缓存对于避免重复计算至关重要,但长上下文缓存的存储开销会迅速超出GPU内存容量,迫使生产系统在多级内存结构中采用分层缓存策略。然而,将大量缓存的上下文重新加载回GPU会引发严重的性能瓶颈:由于分页布局导致数据碎片化,I/O操作无法充分利用带宽;现有调度器未能考虑缓存加载延迟,导致系统受限于加载而非计算能力。

2025-10-20 20:47:13 560

原创 手把手带你从零搭建RAG!文本分块、向量检索、指代消解,这篇教程把每个坑都给你填平了!

RAG(检索增强生成)本质上就是给AI模型外挂一个知识库。平常用ChatGPT只能基于训练数据回答问题,但RAG可以让它查阅你的专有文档——不管是内部报告、技术文档还是业务资料,都能成为AI的参考资源。

2025-10-19 10:45:00 1226

原创 20251018_103502_Parallel-R1:基于强化学习实现大语言模型并行思考

首个通用数学任务的并行思考RL框架**:Parallel-R1是首个通过强化学习(RL)让大语言模型(LLMs)在**真实复杂数学推理任务**中自主学习并行思考的框架,突破了现有方法仅依赖监督微调(SFT)或局限于玩具任务的瓶颈。

2025-10-18 10:37:32 851

原创 ## 如何学习大模型 AI ? 我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,**预计到2025年,这一缺口将急剧扩

前几天OpenAI推出了拖拽式构建Agent方案,感觉大家普遍不是很看好,今天Anthropic也推出了一项名为Agent Skills(智能体技能)的重磅新功能,可以快速构建专属领域的Agent,这个方案概念非常清晰简单,可执行性又强,分享给大家看看

2025-10-17 22:51:20 658

原创 Agentic RL for LLM终极圣经:最新进展与未来挑战全解析,idea爆棚,收藏这篇就够了!

近年来,大语言模型(LLMs)和强化学习(RL)的融合正在彻底改变我们构建和部署AI系统的方式。早期的LLM强化学习(LLM-RL)主要关注如何通过人类反馈(如RLHF)让模型生成更符合人类偏好的单轮响应。虽然这类方法在指令遵循和价值观对齐方面取得了成功,但它们却忽略了一个更本质的问题:**真正的智能往往体现在序列决策中**——面对复杂、动态、部分可见的环境,能够持续规划、使用工具、记忆历史、自我反思并执行多步行动。

2025-10-16 19:31:54 724

原创 Prompt Engineering终极指南:大模型提示词技巧从入门到精通,收藏这篇就够了!

你在写prompt时候,是不是总觉得大模型它不听话。要么答非所问、要么一堆废话。扒开思考过程仔细阅读时而觉得它聪明绝顶,时而又觉得它愚蠢至极。明明已经对了怎么又推理到错的地方去了,明明在提示词中提醒过了不要这么思考它怎么就瞎想了。这也许就是每一个Prompt Engineer的困扰。怎么能让模型按照要求去思考。

2025-10-16 19:30:25 578

原创 LLM优化终极指南:字节DuPO横空出世,突破RLHF瓶颈,收藏这篇就够了!

大型语言模型(LLMs) 在数学推理和多语言翻译 等任务上已取得显著进展。为进一步提升模型能力,各种强化学习范式被广泛应用。其中,RLHF依赖成本高昂且一致性不足的人工标注;RLVR依赖外部监督,获取可验证答案仍是一个瓶颈。对偶学习(Dual learning)利用任务的对偶性(如翻译与回译)来生成内在反馈,提供了一种自监督的替代方案。 然而,传统的对偶学习应用于LLMs时面临两大挑战:首先,大多数任务(例如创意写作、数学推理)缺乏严格的可逆性,这破坏了对偶循环并使自监督失效;其次,LLMs在原始/对偶任务

2025-10-16 19:29:08 922

原创 大模型参数终极指南!为什么需要万亿级?一文讲透“非线性跃升”的秘密,看这篇就够了!

当代人工智能的发展进入了一个以“规模”为中心的阶段。无论是语言模型、视觉模型,还是多模态综合模型,其能力提升都伴随着参数数量的指数级增长。从百万到亿级,再到万亿级,模型规模的扩展似乎与智能表现之间有某种持续有效的规律。研究者不断提出新的架构与算法,但最后都趋向于同一个方向——参数数量的迅速增加。这一趋势并非偶然,而是深层数学、信息论与优化结构共同作用的结果。

2025-10-15 20:19:32 538

原创 ReactionSeek终极指南!清华Agent新作,一文搞懂AI驱动的有机合成文献挖掘,看这篇就够了!

核心突破:ReactionSeek首次将大型语言模型与化学信息学工具结合,实现有机合成文献的自动化多模态数据挖掘,在Organic Syntheses百年数据集上实现关键反应参数95%以上的准确率,为AI驱动的化学发现扫清数据障碍。

2025-10-15 20:17:50 630

原创 保姆级教程:手把手教你ST-SSDL“偏差建模”,让时空预测模型学会“自我纠错”,一篇就通!

TL;DR:**我们提出了一种用于时空序列预测的新框架 **ST-SSDL**,通过**自监督偏差建模(Self-Supervised Deviation Learning)**显式建模当前数据与历史状态之间的偏差,从而提升模型的泛化性与鲁棒性。

2025-10-15 20:15:46 1012

原创 收藏!LLM Agent终极指南:从语言到行动,这篇超详细综述一篇搞定!

对人类水平人工智能(AI)的追求显著推动了自主智能体和大型语言模型(LLM)的发展。LLM现在被广泛用作决策智能体,因为它们能够解释指令、管理顺序任务并通过反馈进行适应。本综述旨在审视LLM作为自主智能体和工具使用者方面的最新进展,并涵盖七个研究问题。我们仅使用了2023年至2025年间在A\*和A级会议以及Q1期刊上发表的论文。本综述对LLM智能体的架构设计原则进行了结构化分析,将其应用分为单智能体和多智能体系统,并提出了集成外部工具的策略。此外,还研究了LLM的认知机制,包括推理、规划和记忆,以及提示方

2025-10-14 18:13:45 824

原创 从入门到精通:浙大KnowRL框架全方位指南,让大模型告别瞎编,收藏这篇就够了!

该文章提出的知识增强强化学习 框架,通过将事实性知识嵌入强化学习的奖励机制,让大模型在保持推理能力的同时,幻觉率降低了38.7%。

2025-10-14 18:11:16 717

原创 Agentic强化学习看这篇就够了!100页硬核综述,从入门到精通,收藏这篇就够了!

由Oxford、UCSD、NUS、ICL、UIUC、UCL、上海AI Lab 等全球16家顶尖机构的研究者联合撰写,并整合了500+篇研究成果,且首次全面描绘了 Agentic Reinforcement Learning(Agentic RL,具身智能体强化学习) 的研究版图的一篇极具深入、系统化的论文综述强势来袭!

2025-10-14 18:09:39 872

原创 AI产品经理逆袭必看!死磕这3大命脉(数据、算法、算力),从入门到精通,一篇封神!

作为AI产品经理,你有没有遇到过这些场景?* 算法团队说:“模型效果上不去,因为数据质量差。” 你点头称是,但不知道怎么改进。* 老板问:“为什么我们不用更大的模型?” 你支支吾吾,说不清算力成本。* 客户反馈:“AI回答不准。” 你第一反应是“模型不行”,却忽略了底层逻辑。

2025-10-13 20:26:51 748

原创 收藏这篇就够了!谷歌Agent的“进化论”:在实战中自我学习,这篇把核心秘密都扒光了!

作者提出了一套面向智能体(LLM agents)的“可迁移推理记忆”框架——ReasoningBank。它不是简单存动作轨迹或成功流程,而是从成功与失败经验中提炼可复用的高层“推理策略”(标题、描述、内容三段式记忆单元),在测试期持续检索—使用—沉淀,促成自进化。在此基础上,作者提出记忆感知的测试期扩展(MaTTS),通过并行/串行扩展产生更多对比性经验,以更好合成高质量记忆,形成“记忆 × 测试期扩展”正反馈的新型扩展维度。实验覆盖 Web 浏览(WebArena、Mind2Web)与软件工程(SWE-B

2025-10-13 20:25:02 625

原创 RAG多轮对话总忘事?别再让AI“失忆”了!这套问题改写方法,一篇搞定!

在之前讲过一个RAG检索优化的方法论,简单来说就是通过对问题进行改写和优化;比如说用户输入一个问题query,但由于我们无法控制用户的行为,因此用户输入的内容query可以是任何东西,包括可能存在错别字,语义错误,甚至是一些无意义内容。

2025-10-13 20:14:22 585

原创 RAG数据准备保姆级教程!任何格式秒级转换,彻底解决最头疼环节,建议收藏!

传统RAG系统开发者都知道,从PDF、Word、音频等复杂文件中提取结构化文本,往往需要整合多个工具、编写大量胶水代码,整个流程耗时费力且容易出错。

2025-10-12 10:45:00 970

原创 RAGFlow保姆级教程!融合Agent能力,零门槛搭建企业级AI知识库,彻底搞懂!

随着大模型在企业落地加速,“如何让LLM精准理解私有数据、避免幻觉”成为核心痛点。Retrieval-Augmented Generation(RAG)技术因能连接外部知识库、提升回答可信度,成为解决该问题的关键方案。而今天要介绍的**RAGFlow**,正是一款将前沿RAG与Agent能力深度融合的开源引擎——无论是个人搭建知识库,还是企业级部署,它都能帮你快速将复杂数据转化为生产级AI系统。

2025-10-11 19:54:05 1074

原创 从零到一,手撸一个Transformer!这篇硬核教程,带你揭开AI大模型的神秘面纱!

Transformer 架构是 Google 于 2017 年提出的一种神经网络模型架构,最早应用于机器翻译任务。机器翻译的目标是将源语言转换为目标语言。Transformer 完全依赖注意力机制来建模源语言序列和目标语言序列的全局依赖关系。如今,几乎所有大型语言模型都以 Transformer 架构为基础。本节以机器翻译任务中的 Transformer 编码器和解码器结构为例,介绍该模型的核心组成。

2025-10-10 21:28:46 717

原创 Embedding保姆级教程:从零开始,把文字、图片变成数字!AI大模型入门到精通,收藏这篇就够了!

如果要用一句话来解释:**Embedding 就是把原本“看不懂”的符号,翻译成机器能理解的数字向量。

2025-10-10 21:27:28 975

原创 别再为RAG的“长上下文”发愁了!港城大&腾讯开源神器CORE,3% token实现性能反超,这篇详解就够了!

检索增强生成(RAG)技术通过从大规模知识库中检索相关文档并将其作为上下文信息前置到原始输入中,显著提升了大语言模型在知识密集型任务中的表现。然而,随着检索文档数量的增加,输入序列长度急剧增长,导致计算成本大幅上升。传统方法通常采用启发式规则或监督学习进行文档压缩,但这些方法往往以牺牲终端任务性能为代价。

2025-10-10 21:25:19 906

原创 AI政务落地终极指南!从技术演进到场景实践,一张架构图全搞定,收藏这篇就够了!

AI技术演进路径图:

2025-10-09 15:57:56 658

原创 Agentic Reasoning终极指南!LLM智能体“思考”的秘密,从理论到实战,收藏这篇就够了!

近年来,大型语言模型(LLMs)如GPT-4、Claude等展现出惊人的语言理解和生成能力,不仅在聊天、写作、翻译等日常任务中表现优异,更在代码生成、科学推理等复杂任务中接近人类水平。然而,LLMs也存在“幻觉”(胡说八道)、知识过时、推理过程不透明等问题,限制了其在医疗、金融、科研等高风险领域的可靠应用。

2025-10-09 15:54:22 664

原创 AI幻觉终结指南!GCR框架保姆级教程,从原理到实战,收藏这篇就够了!

本文提出一种名为图约束推理(GCR)的新框架,**旨在解决大型语言模型(LLMs)在知识图谱(KGs)推理中存在的知识缺口和幻觉问题**。GCR通过构建KG-Trie索引将KG结构融入LLM解码过程,约束生成忠实于KG的推理路径,并结合轻量级KG专用LLM生成推理路径与假设答案,再利用通用LLM进行归纳推理,最终实现零幻觉、高精度的KG推理,且在未见KG上具有零样本迁移能力。

2025-10-09 15:51:51 258

原创 揭秘微信内部RAG实践!代码补全效率翻倍,腾讯架构师万字长文,一篇就够!

在这篇文章中,我们将深入探讨一篇关于检索增强生成(RAG)在代码补全领域应用的专业研究。

2025-10-08 21:56:28 698

原创 20250930_110204_大模型评估全攻略:挑战、实战经验和最佳实践

评估大型语言模型(LLM)感觉就像是试图解开一个巨大的线团——事情千头万绪,往往不知道应该从哪一头开始。从应对不可预测的用户输入到选择合适的指标,整个过程可能让人不知所措。但是,请不要惊慌!在这篇文章中,我们将为你梳理一些**久经考验的最佳实践、常见的陷阱和实用技巧**,帮助你对 LLM 的性能进行基准测试。无论你是刚刚入门还是需要快速复习,这些指导原则都将确保你的评估策略稳固可靠。

2025-10-06 10:45:00 600

原创 别再错过!SimpleVLA-RL颠覆VLA训练范式,RL实现端到端进化,收藏这篇就够了!

想让机器人灵活干活,视觉-语言-动作(VLA)模型是关键,但现在的训练方法太 “娇气” 了!靠监督微调(SFT)训练,不仅要海量人类操控轨迹数据(采集贵到离谱还难扩规模),遇到没见过的任务或环境,性能直接 “翻车”。

2025-10-05 09:45:00 1633

原创 MLLM重大革命!北大袁粒团队Look-Back揭秘:大模型终于学会“记忆回溯”,收藏这篇就够了!

近年来,多模态大模型(MLLMs)在视觉与语言推理方面取得突破进展。然而,大量最新研究发现:**现有MLLM在推理后期普遍“忘图靠文”,过度依赖文本线索,视觉输入逐步被忽视,导致“看图推理”名不副实!

2025-10-04 10:45:00 1917

原创 AI进化史全揭秘!普通人学习AI的5大阶段+3步走路线图,收藏这篇就够了!

想要入门 AI,最忌讳的就是“过早深入细节而缺乏系统视角”:还没搞懂基础模型的特点,就急着学微调;连工具调用的逻辑都没摸透,就想去做 Agent;这种 ’碎片化学习’ 方式往往导致知识体系缺乏连贯性,学习者难以理解各技术点间的内在联系,不仅容易因看不到整体而放弃,还会在遇到复杂问题时感到更加困惑。我一直有个根深蒂固的习惯 — 面对任何新领域,必须先摸清它的“完整轮廓”。就像拼一幅复杂的拼图前,一定要先看一眼盒盖上的终局图,知道手里的每一块碎片对应整体的哪个位置,后续的学习才不会迷茫。

2025-10-03 10:45:00 1299

原创 上下文工程实施总踩坑?5大挑战+7大优化策略全拆解,搞懂这一篇就够了!

开门见山地说:**如果你现在还在只谈论“提示词工程”,那你就已经落后了。**在大语言模型(LLM)的发展初期,精心设计提示词确实是核心任务。

2025-10-02 10:45:00 664

原创 ICLR 2025 爆款!PerturboLLaVA 横空出世:用“语言图”粉碎多模态大模型幻觉!每句话都靠谱!

本篇文章首先假设MLLM幻觉来自于模型对模型预训练语言知识的过度依赖,接着基于此种假设,提出了基于扰动的减少多模态幻觉的训练方法。

2025-10-01 10:45:00 1054

原创 GraphRAG+Agentic架构终极指南!以Palantir图谱为标杆,Neo4j+NeoConverse实战从入门到精通,收藏这一篇!

在日益发展的AI领域,检索增强生成(RAG)已成为利用外部数据增强大语言模型(LLM)的首选方法。然而,传统的RAG往往依赖于缺乏深度关系感知的、以文档为中心的非结构化方法。本文介绍了GraphRAG,一种新兴的方法,它利用基于图的数据表示来提供更丰富的上下文、动态查询和更可靠的答案。我们还将探讨Agentic架构,以及如何将GraphRAG和Agentic架构结合到一起,来实现更强大的AI应用。最后,本文介绍了NeoConverse,一个将GraphRAG和Agentic架构结合在一起的实验性GenAI应

2025-09-30 11:01:36 848

原创 别再混淆了!RAG(找知识)与上下文工程(用知识)生死搭档全攻略:一张图从入门到精通!

我帮客户落地大模型时,发现90%团队把RAG当Prompt升级版,结果幻觉翻倍、预算爆炸。其实一个负责‘搬弹药’,一个负责‘瞄准镜’,缺谁都打不准。本文用一张流程图+实战代码,带你3分钟看清它们如何联手治幻觉、又在哪互相甩锅,附赠可直接抄作业的选型决策树。

2025-09-30 11:00:06 751

原创 重磅!清华北大联手根治大模型“编造”病!CANOE横空出世:说的每句话都有据可查!

近年来,大语言模型(LLMs)在文本生成领域取得了革命性进展,但其"幻觉生成"(Hallucination)问题——即生成内容与输入上下文不符的现象——严重影响了模型的可信度。这一问题在法律摘要、医疗报告等对准确性要求极高的领域尤为突出。

2025-09-29 10:43:20 857

原创 RAG实战必看!4步设计神级提示词,终结大模型“幻觉”与检索偏差!从入门到精通全攻略,收藏这篇就够了!

在RAG系统中,提示词是协调用户查询、检索上下文和大语言模型三者协同工作的核心指令。一个设计精良的提示词策略能最大化利用外部知识,最小化模型“幻觉”,并控制输出质量。有效的策略往往是多种底层提示词工程技术的有机结合。

2025-09-28 20:01:46 1098

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除