2017-03-28 17 views
0

我要对付一行翻译日本和中国之间 如何把翻译语料分成不同的文件

JST_JC_ENVI-ABST-06A0281759-PAR1-SEN1 ||| C高度语料库d管理设施的像

& |||但C&d管理设施基础复杂JST_JC_ENVI-ABST-06A0281759-PAR1-SEN2 |||缅因州波特兰拥有滨江回收设施(RRF),垃圾填埋场建设和拆除(C&d)垃圾它坐落在地面上。 |||缅因状态基础Namitoku兰拥是里弗赛德循环使用设施(RRF),然而其却位置选定于建设及拆卸(C&d)垃圾基础Hamauma土地。 JST_JC_ENVI-ABST-06A0281759-PAR1-SEN3 |||这个设施是大件垃圾,但是已经接受了树叶和C&d浪费了居民,并介绍了其近期的工作情况。 |||该设设施接收体积大的特定废弃产品,家用人丢弃的洋子一些C&d垃圾,通过绍了该设设施近期具体工作业情衰退文本。

的中国和日本都是以前缀JST_JC_ENVI-abstXXXXXXXX字符串开头和|||.

拆分所以我的问题是如何删除所有相同的前缀“JST_JC_ENVI-abstXXXXXXXX”字符串和输出到中国通过chinese.txt线,日本为japanese.txt通过线

谢谢。

回答

0

首先,处理线和分割与空间。

# -*- coding: utf-8 -*- 

import sys 
reload(sys) 
sys.setdefaultencoding('utf-8') 

infile=open('dev.txt','r') 
outfile1 =open('dev-mid.txt','w') 
lines = infile.read() 
i = lines.split() 
for e in i: 
    outfile1.write(e+'\n') 

然后,用WORDDEV-mid.txt删除空间和相同的前缀字符串。

最后,

import os 


    infile=open('dev-mid.txt','r') 
    outfile1 =open('dev-in.txt','w') 
    outfile2 =open('dev-out.txt','w') 

    i=1 

    for line in infile.readlines(): 
     if i%2==1: 
    ##  print(line) 
      outfile1.write(line) 
      i+=1 
     else: 
      i+=1 
    ##  print(line) 
      outfile2.write(line) 
    infile.close() 
    outfile1.close() 
    outfile2.close() 
01 。

与奇数和偶数行处理 DEV-in.txt是日本和DEV-out.txt是中国人:-D

相关问题