基于IBM Model 1的词对齐与短语抽取Python实现
本学习报告是作为2018年春季学期《机器翻译》课程的部分笔记和实验报告。参考书为 Philipp Koehn 的 Statistical Machine Translation1。完整代码见于我的GitHub Repo。
说明
其中实验所使用的运行环境如下:
操作系统:Linux
Python版本:3.6
可选:csvkit(pip3 install csvkit)
基于词的翻译模型
简介
基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作,教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。
显然这个任务中,我们即不知道英文词和外文词
...