如何提取电影(美剧)里的单词,以便集中攻克?
来源:网络收集 点击: 时间:2024-02-18下载美剧字幕文件,后缀为“.ass”,直接点击更改此后缀为“.txt”。
在此以老友记第一季第一集为例

删除前面序幕部分(唱歌的那一段)

将剩余部分全选(alt+a),复制(ctrl+c)

在新建的word文件里,以“粘贴为文本”的格式进行粘贴

找规律,可以看到,字幕文件里,每一句字幕是以“Dialogue:开头的一堆乱七八糟的东西(黄底)+中文字幕(绿底)+一堆代码(蓝底)+英文字幕(紫底)组成。
而且,每一条字幕的黄底部分长度是一样的,每一条字幕的蓝底部分是一摸一样的。那就好办了

关键步骤来了。
调出查找框(ctrl+f),word 选择左下角的“更多”勾选使用通配符。
然后在查找框内输入:“Dialogue:??????????????????????????????????????????????????????????????????????????????????????????????????????”
嗯,大概是104个“?”,你若现在在“查找”栏,此时点击“阅读突出显示”按钮,可以看出来,这样会把所有中文字幕以前的那部分代码全部标注出来。
切换到“替换”界面,“替换为”后面的框里什么也别输,直接全部替换。则中文字幕之前的所有内容都会消失。

同样的用替换法,将中文字幕与英文字幕之间的那段乱七八糟的内容复制到替换框内,注意:勾选掉“使用通配符”选项(就是不再使用通配符),进行全文替换,
还有一个小尾巴{\r},也进行全文替换
然后你剩下的就是只有中文字幕和英文字幕了。

然后将剩下的部分,全部复制,粘贴到另外一个txt的文本文件中去,并保存

启动excel,用excel打开上面保存的txt文件。
右下角的选项里,选择“所有文件”否则你用excel是看不到txt文件的
然后选择分隔符,逗号,分号,空格,全选上,如下图。
注意动画演示中,原先的中文字幕变成了乱码,因为我这里默认的是什么“土耳其语”,反正我也不看中文,也就没改。你若看不惯可以更改下。

然后基本上就是一个单元格一个单词的样子了。
整个表格复制下,粘贴到一个新的空白excel表格内。
11/15对于老友记第一季第一集而言,总共是354行,最多的一行到R列。
将这些不同的列,全部复制粘贴到第一列中去。
当然,有懒办法:输入公式,拖……

所有项都转移到第一列之后,务必记得把第一列整个复制,粘贴为值

然后,对A列进行排序,然后进行一些修饰性的替换,比如把一些标点符号进行替换等等,注意如果要替换“?”,在excel中,必须以“~?”进行替换,直接替换会是什么效果?你自己试一试哦
14/15下一步,全选A列,然后点击“插入”“数据透视表”,将数据拖入行,拖入列,如下图所示,你将获得这一集中每一个单词及每一个单词出现的次数。
剩下的,自己复制到word里打印出来背诵吧。

我自己整理出来的效果,第一集总共涉及600来个单词,把这600个单词背下来,日常英语是不是就没啥问题了?

版权声明:
1、本文系转载,版权归原作者所有,旨在传递信息,不代表看本站的观点和立场。
2、本站仅提供信息发布平台,不承担相关法律责任。
3、若侵犯您的版权或隐私,请联系本站管理员删除。
4、文章链接:http://www.ff371.cn/art_64342.html