文章目录
  1. 1. 安装gensim
  2. 2. 步骤
    1. 2.1. 将xml的文件转换成txt文件
    2. 2.2. 繁体转成简体
      1. 2.2.1. opencc windows
    3. 2.3. 结巴分词
    4. 2.4. 去除多余的其他字符
    5. 2.5. 训练模型
    6. 2.6. 模型测试
  3. 3. 中文语料训练结果
  4. 4. 英文语料训练结果

需要代码的可以联系我,python建议用anaconda,非常强大

安装gensim

pip install gensim

中文语料数据

英文语料数据

步骤

将xml的文件转换成txt文件

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

得到wiki.cn.text

繁体转成简体

opencc windows

1.进入opencc文件中

2.把简繁转换的源文件(例如是深蓝词库转换出来的无拼音纯简体字文档)放在D:\opencc目录下,假设是sc.txt

2.打开命令提示符,进入D:\opencc目录

3.键入opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json(也可键入“opencc –help”参阅详细命令说明)

4.转换后的文档就是 wiki.cn.text.jian,同样在D:\opencc目录下

结巴分词

python separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq

得到wiki.cn.text.jian.seq

去除多余的其他字符

python remove_words.py wiki.cn.text.jian.seq wiki.cn.text.jian.removed

得到wiki.cn.text.jian.removed

训练模型

python train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector

其中wiki.en.text.jian.model是我们训练出来的模型

模型测试

python test_model.py

中文语料训练结果

英文语料训练结果

文章目录
  1. 1. 安装gensim
  2. 2. 步骤
    1. 2.1. 将xml的文件转换成txt文件
    2. 2.2. 繁体转成简体
      1. 2.2.1. opencc windows
    3. 2.3. 结巴分词
    4. 2.4. 去除多余的其他字符
    5. 2.5. 训练模型
    6. 2.6. 模型测试
  3. 3. 中文语料训练结果
  4. 4. 英文语料训练结果