如何把翻译语料分成不同的文件

JST_JC_ENVI-ABST-06A0281759-PAR1-SEN1 ||| C高度语料库d管理设施的像

＆ |||但C＆d管理设施基础复杂JST_JC_ENVI-ABST-06A0281759-PAR1-SEN2 |||缅因州波特兰拥有滨江回收设施（RRF），垃圾填埋场建设和拆除（C＆d）垃圾它坐落在地面上。 |||缅因状态基础Namitoku兰拥是里弗赛德循环使用设施（RRF），然而其却位置选定于建设及拆卸（C＆d）垃圾基础Hamauma土地。 JST_JC_ENVI-ABST-06A0281759-PAR1-SEN3 |||这个设施是大件垃圾，但是已经接受了树叶和C＆d浪费了居民，并介绍了其近期的工作情况。 |||该设设施接收体积大的特定废弃产品，家用人丢弃的洋子一些C＆d垃圾，通过绍了该设设施近期具体工作业情衰退文本。

的中国和日本都是以前缀JST_JC_ENVI-abstXXXXXXXX字符串开头和|||.

拆分所以我的问题是如何删除所有相同的前缀“JST_JC_ENVI-abstXXXXXXXX”字符串和输出到中国通过chinese.txt线，日本为japanese.txt通过线？

谢谢。

来源

2017-03-28 renzhe0009

首先，处理线和分割与空间。

# -*- coding: utf-8 -*- 

import sys 
reload(sys) 
sys.setdefaultencoding('utf-8') 

infile=open('dev.txt','r') 
outfile1 =open('dev-mid.txt','w') 
lines = infile.read() 
i = lines.split() 
for e in i: 
    outfile1.write(e+'\n')

然后，用WORD在DEV-mid.txt删除空间和相同的前缀字符串。

最后，

import os 


    infile=open('dev-mid.txt','r') 
    outfile1 =open('dev-in.txt','w') 
    outfile2 =open('dev-out.txt','w') 

    i=1 

    for line in infile.readlines(): 
     if i%2==1: 
    ##  print(line) 
      outfile1.write(line) 
      i+=1 
     else: 
      i+=1 
    ##  print(line) 
      outfile2.write(line) 
    infile.close() 
    outfile1.close() 
    outfile2.close()

01 。

与奇数和偶数行处理 DEV-in.txt是日本和DEV-out.txt是中国人：-D

来源

2017-03-29 07:38:48 renzhe0009

如何把翻译语料分成不同的文件

回答

相关问题