把长文拆成“有意义的小块”,按主题、段落或论点分组,保留上下文连贯与句子完整。每块控制在易翻译的文本或字符上限内,必要时再分为句子级小段,翻译后按原结构逐段合并并统一术语与风格,最后整体润色校对,必要时借助分批上传和术语表以保证一致性与效率。注意特殊格式、表格与图片说明,必要时人工审校并保留原文记录

先说为什么要分段(用最通俗的话)
把一篇长文章交给翻译工具就像把一整张复杂的拼图一次性倒在地上:你可能能看到颜色和大体图案,但要拼出每一块的边缘和细节非常困难。分段翻译相当于先把拼图按颜色或图案分堆,这样每堆都更容易对齐、校对和修饰。对于易翻译这样的全场景翻译工具,分段还能减少上下文丢失、控制字符/请求上限、便于术语一致性管理和后期人工润色。
分段的基本原则(就像做菜的几个关键步骤)
- 以语义为单位:不要在句中或固定短语中间切断。一段应完整表达一个小观点、一个场景或一个论据。
- 保留上下文边缘:每个段落的开头或结尾如果与前后段落耦合紧密,翻译时可以在当前段落开头附带一两句前文摘要,或在结尾保留连接句。
- 控制长度:工具通常对单次请求有字符或句子限制。常见做法是把每块控制在300–1,200字之间(视文本复杂度和工具响应质量而定)。
- 保持格式与结构:标题、列表、表格、脚注等尽量单独作为块处理,便于保留排版信息。
- 保留术语一致性:关键术语提前建立表格或在每次分段提交时附带术语清单,减少不一致翻译。
具体分段流程(一步一步来)
1. 预处理:读一遍、标记大纲
快速通读全文,确定结构:章节、子标题、段落、图表位置、注释等。用高亮或注释标出“逻辑节点”(例如:引言、背景、方法、结果、讨论)和“术语节点”(专有名词、缩写、公式)。这一步像把菜切好,便于后面分锅。
2. 决定分段策略(按文体选择)
- 新闻/短文/博客:按自然段或每2–3个短段为一块,保持口语连贯性。
- 技术文档/学术论文:按章节或小节分块,表格、公式和图注单独处理,关键术语在每块顶部声明。
- 合同/法律文本:以条款或条目为单位,严格保留编号和法律术语的翻译一致性,建议增加人工审校步骤。
- 小说/文学:按场景或对话段落切分,保留人物口吻与前后铺垫。
3. 切分与编号(让系统“记住”上下文)
给每个段落一个唯一编号,例如:01_引言_段1、02_方法_段3。提交到易翻译时,保留编号并在翻译后把译文按编号复原。编号对多人协作或分批提交尤为关键。
4. 保持必要的上下文(避免“断句接龙”)
当段落非常依赖前文时,可以在翻译请求中附上一句或两句前文摘要,或者采用“滑动窗口”策略:每次提交都带上一小段前文作为上下文(例如带上前一段的最后一句)。注意不要把上下文重复过多次,以免浪费字符限制或造成翻译歧义。
5. 处理表格、图示与代码
这些元素尽量单独导出为文本或CSV,或另行提交说明翻译要求。表格的列名和单位要单独列出术语表,图片中的文字或说明要以文字形式提交并注明图片位置,例如“图3:XXX(位于第5页)”。
如何保证术语和风格一致(实用做法)
- 建立术语表:把文中专有名词、机构名、技术词汇、简称及其首选译法列成表格,最好包含示例句与上下文。
- 提供写作风格要求:例如“英式/美式用法、正式/口语、被动/主动优先”,把这些写在首个或每个段落的说明栏。
- 使用示例句:在术语表中附带1–2句示例,帮助机器“学习”上下文用法。
- 若易翻译支持用户词库或短语记忆:导入术语表并启用优先匹配,保证批量一致。
典型分段方案举例(给出可直接套用的模板)
下面给出三种常见文稿长度的分段参考。
| 文稿长度 | 建议段大小 | 分段方式 | 备注 |
| 1,000–3,000字 | 400–800字/段 | 按自然段或小节分,标题单独为段 | 适合短报告、长篇博客 |
| 3,000–10,000字 | 300–700字/段 | 按章节再细分,表格和图注单列 | 适合白皮书、技术文档 |
| >10,000字 | 200–500字/段 | 章节→小节→句级分段,建立翻译记忆库 | 大型手册或书籍,建议分批提交并结合人工校对 |
如何实际在易翻译中操作(通用步骤)
- 预先在本地拆分好文件,按编号保存为若干文本文件或CSV。
- 准备一个术语清单和风格说明文档,作为每批提交的附件或首条说明。
- 如果易翻译支持批量上传或API:使用批量接口一次提交多个编号块;若只支持逐条提交,严格按照编号顺序上传并把译文下载合并。
- 译后合并时,按原编号复位结构,检查并统一术语与标点、数字格式(例如千分位、小数点、日期格式)。
- 进行整体润色:人工通读全文,修正句子衔接、语气一致性、引用与脚注编号。
质量控制(少走弯路的检查清单)
- 术语一致性核对(自动或手工对照术语表)。
- 数字和单位核对(是否发生单位转换或小数/千分位错误)。
- 引用、脚注与参考文献的完整性(编号、一致性)。
- 连贯性检查(段与段之间是否出现跳跃或重复)。
- 风险点人工审校(合同条款、法律声明、技术规范)。
示例:把一篇5,000字的技术文章分段的实操样例
实际操作时我常用的思路是:先按章节划分,再把每个章节细分为约400–600字的小段,标题、表格、公式单独作为段提交。下面是简短的编号示例:
- 01_引言_01(正文第1段,含研究目的)
- 01_引言_02(正文第2段,背景综述)
- 02_方法_01(方法总述)
- 02_方法_02(材料与设备)
- 02_方法_03(实验步骤,若长则拆为02_方法_03a / 03b)
- 03_结果_01(结果总体)
- 表1_实验参数(表格单独提取为CSV并附原位置说明)
每个提交的文本开头我会加上“编号:03_结果_01;术语表见附件;风格:学术正式;上下文前1行:02_方法_03的最后一句”。这样即便多人同时处理,也能保持清晰。
一些常见问题与解决方案(边做边想出的、常见坑)
- 问题:段落间出现代词“它/他们”指代不清。
解决:在提交段落时把前一句的主语简短带入,或者在备注中标明代词指代对象。 - 问题:表格翻译后格式乱。
解决:表头与单位单独列出,表格导出为CSV或Excel并翻译对应列,最后再导回原表。 - 问题:术语被翻成多种不同译法。
解决:在首段明确术语表并在每个段落顶部重复关键术语的首选译法。 - 问题:批量上传后合并时出现段落顺序错位。
解决:严格使用编号文件名,合并时用脚本或表格按编号排序再拼接。
工具与自动化建议(如果你想把流程半自动化)
- 使用脚本(Python/Node)自动按规则切分长文本并生成编号文件。
- 若易翻译提供API,写个小脚本批量提交,保存每次请求的原文与译文对应关系。
- 生成合并脚本:按编号把译文合并,并自动替换表格、图片说明位置标记。
- 利用版本控制(如Git)或协作文档记录每次人工修改,便于回溯。
关于“保留上下文但不浪费字符”的小技巧
上下文很重要,但重复太多会浪费配额。我常用的策略是:
- 只带上一到二句最关键的前文(例如含代词的先行词或逻辑衔接句)。
- 对于长篇论证,先提交该章节的小结,让翻译工具“先抓住框架”,再提交详细段落。
- 如果有模型记忆功能或连续对话模式,尽量利用会话上下文而非每次重复整段。
最后说点比较生活化的经验(像朋友提醒你那样)
分段翻译不是把文章切成越小越好,而是把它切成便于理解、便于保留信息同时又不浪费翻译额度的块。开始时可以多尝试几种粒度:先粗后细,逐步调整。别忘了给自己留点时间做整体润色——机器翻得再好,最后那点“人味儿”还是要靠你去补。
如果你愿意,下次可以把你手头的一篇文章发上来,我可以按上面的流程演示一次切分和提交示例,边做边讲解,比较直观——不过现在先得洗个咖啡,继续想下一步怎么把这些步骤做得更顺手。