DashScope Embedding 长文本支持方案
本文记录了在 LangChain + DashScope 构建知识库时,如何通过扩展 DashScopeEmbeddings 类实现长文本(>8192 tokens)的安全嵌入支持。核心方法复用 OpenAI 的 length-safe 机制,结合 DashScope 官方 tokenizer(qwen-turbo)进行精准分块与加权合并,并附有容错降级策略与 embedding_ctx_length 实测调优建议。
本文记录了在 LangChain + DashScope 构建知识库时,如何通过扩展 DashScopeEmbeddings 类实现长文本(>8192 tokens)的安全嵌入支持。核心方法复用 OpenAI 的 length-safe 机制,结合 DashScope 官方 tokenizer(qwen-turbo)进行精准分块与加权合并,并附有容错降级策略与 embedding_ctx_length 实测调优建议。