自然语言断句处理程序,包括如何文件内容进行
作者:明浩   来源:网络整理   时间:2021-07-11 12:47

有时需要将文本中的内容进行断句,一般是根据标点符号来短句,本人想了一个比较简单的方法,如下:

1. 删除文件中的中文、西文空格
2. 将篇章切分为一个个的句子,切分标志为:。 ! ? … ;等,句中如果有引号,要求左右匹配
3. 对句子按长度从大到小分行排序。
4. 在每行句子前加上序号
5. 统计一个文件中各种长度的句子的频次,按照句长频次降序输出统计结果


代码如下:

import re
 
path = r'C:UsersdminDesktopstudyS.txt'
# 先读取内容
result = open(path).read()
print(result)
# 再讲读取的内容(str)用"  "统一替换所有的标点符号
result = re.sub("[s+.!/_,$%^*(+"')]+|[+——()?【】“”!,。?、~@#¥%……&*()]+", " ",result)
# 再根据" "进行分割
result = result.split(' ')
# 如果文本中是以标点符号结尾,这一步不能省略,要不会产生一个"",要将其删除
del result[-1]
print(result)