2017-08-04 41 views
-3

有没有什么方法可以让我经历了一系列的视频在这里列出:在视频中查找特定的口语单词吗?

http://archive.org/details/trumparchive&tab=collection

,并找到他们讲了话与时间匹配特定的词?

背景
我试图做一个编译某种机器人,所以我最初的想法是找一个系列成绩单(最好包含讲话的成绩单与在近似时间数据库哪些词是说出来的),然后使用一个程序来查找视频,用所说的词切出剪辑,然后将所有剪辑编译成一个视频。

+0

欢迎来到StackOverflow。避免downvotes记住...这个网站是关于**编程**问题。你需要开始一些事情并且在代码中遇到问题才能获得建议(一个_overflow_会导致计算机崩溃)。标记使用的编码语言,显示未按预期工作的代码,等等...... –

回答

0

” ......有什么办法,我可以去通过一系列的视频在这里列出:

http://archive.org/details/trumparchive&tab=collection

并找到在此,他们 时间匹配特定的词说?”

如果视频有它的字幕文件(如:一个SRT或WebVTT插入文件),它可能是可能的。

注:
下下面是手工完成的,但练习之后,你可以只写一个程序自动做...

纵观列出的项目: http://archive.org/details/trumparchive&tab=collection

我们可以挑一个:The O'Reilly Factor : FOXNEWSW : February

并检查(HTML)的源代码,看是否有.srt.vtt文件中列出:

href="/download/FOXNEWSW_20170207_040300_The_OReilly_Factor/FOXNEWSW_20170207_040300_The_OReilly_Factor.align.srt" 

所以发现字幕位于:
https://archive.org/download/FOXNEWSW_20170207_040300_The_OReilly_Factor/FOXNEWSW_20170207_040300_The_OReilly_Factor.align.srt

以下是文字的样本。现在你知道他们说话的视频中的文字和具体时间。

1 
00:00:00,0 --> 00:00:04,570 
A "WASHINGTON TIMES" REPORTER. 
TONIGHT, WE HAVE A NUMBER OF 

2 
00:00:04,572 --> 00:00:03,482 
SUBJECTS THAT WE PRESENTED TO PRESIDENT 
TRUMP. 

3 
00:00:03,484 --> 00:00:09,479 
HERE THEY ARE. LET'S TALK ABOUT 
IRAN, YOUR 

4 
00:00:09,481 --> 00:00:14,261 
ASSESSMENT, DO YOU THINK WE ARE 
ON A COLLISION COURSE WITH THE 

5 
00:00:14,263 --> 00:00:16,463 
-- WITH THATED COUNTRY? PRESIDENT 
TRUMP: I THINK IT 

6 
00:00:16,465 --> 00:00:18,221 
WAS THE WORST DEAL I EVER SEE NEGOTIATED. 

7 
00:00:18,223 --> 00:00:19,841 
IT WAS IT DEAL THAT NEVER SHOULD 
HAVE BEEN NEGOTIATED. 
+0

非常感谢!这帮了一大笔钱。 –