基于IBM Model 1的词对齐与短语抽取Python实现

发表于 2018-04-17 | 阅读次数:

本学习报告是作为2018年春季学期《机器翻译》课程的部分笔记和实验报告。参考书为 Philipp Koehn 的 Statistical Machine Translation1。完整代码见于我的GitHub Repo。说明其中实验所使用的运行环境如下：操作系统：Linux Python版本：3.6 可选：csvkit（pip3 install csvkit）基于词的翻译模型简介基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作，教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。显然这个任务中，我们即不知道英文词和外文词 ...

阅读全文 »

Apriori与FP-Growth算法的实现与比较

发表于 2018-01-18 | 阅读次数:

本文是哈工大2017年秋季《数据挖掘理论与算法》课程实验第一大题的实验报告。主要实现了Apriori算法和FP-Growth算法并对他们做了时间、内存性能上的比较。实验说明书和源代码参见GitHub Repo。实验要求也可以见于每一小节的开头。 Algorithm Implementation (a) Describe your implementation. If open-source software is referenced, please acknowledge the authors of the software. In this project we use Py ...

阅读全文 »

论文笔记：Visualizing data using t-SNE

发表于 2017-12-01 | 阅读次数:

Introduction Visualizes high-dimensional data by giving each data point a location in a 2 or 3-dimensional map. Most of these techniques simply provide tools to display more than two data dimensions, and leave the interpretation of the data to the human observer. The aim of dimensionality reduction ...

阅读全文 »

t-SNE简介：A 60 Minute Blitz

发表于 2017-12-01 | 阅读次数:

说明本文是用作2017-12-03晚晚茶会的试讲大纲。由于晚茶会时间有限，本文目的是做成一个60分钟t-SNE闪电入门简介，可能无法详细讲解原理，学术帝请移步我的另一篇博文：论文笔记：Visualizing data using t-SNE 基础篇认识高维空间：维数灾难维数灾难（curse of dimensionality）描述的是高维空间中若干迥异于低维空间、甚至反直觉的现象。该现象的详细论述可以参考文献1，其中通过超立方体和其内切球的推导十分精彩，这里不再赘述。高维空间中数据样本极其稀疏。需要维度几何级数的数据才能满足在高维空间密采样（dense sample）。反过来 ...

阅读全文 »

基于HMM模型的词性标注器Python实现

发表于 2017-10-23 | 阅读次数:

说明本文代码对应Graham Neubig的nlptutorial系列中的第四讲Part of Speech Tagging with Hidden Markov Models，主要讲解用隐马尔科夫模型（Hidden Markov Model，HMM）实现一个词性标注器。对应Slides位于此处。本文的示例代码位于此处。依赖 Python3 numpy 建议在阅读代码（5 HMM 训练~8 HMM 测试（维特比算法）小节）之前，至少需要过一遍简单的真实例子（4 HMM 真实例子小节），知道代码在干什么。也建议快速读一下基础部分（1 生成式模型基础和2 HMM 基础），该部分既不严 ...

阅读全文 »

test_my_site

发表于 2017-09-14 | 阅读次数:

阅读全文 »

Hello World

发表于 2017-09-14 | 阅读次数:

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. Quick Start Create a new post 1$ hexo new "My New Post" More info: Writing Run server 1$ hexo server More ...

阅读全文 »