您可以使用Python中的正则表达式来去掉Excel中的非汉字字符。以下是一个简单的示例代码:
import re
import xlrd
import xlwt
# 打开Excel文件
workbook = xlrd.open_workbook('example.xls')
sheet = workbook.sheet_by_index(0)
# 创建新的Excel文件
new_workbook = xlwt.Workbook(encoding='utf-8')
new_sheet = new_workbook.add_sheet('Sheet1')
# 定义正则表达式,匹配所有非汉字字符
pattern = re.compile('[^\u4e00-\u9fa5]+')
# 遍历Excel中的每个单元格,去掉非汉字字符并写入新的Excel文件
for i in range(sheet.nrows):
for j in range(sheet.ncols):
cell_value = sheet.cell_value(i, j)
new_cell_value = pattern.sub('', cell_value)
new_sheet.write(i, j, new_cell_value)
# 保存新的Excel文件
new_workbook.save('new_example.xls')
在上面的代码中,我们首先使用xlrd模块打开原始的Excel文件,并使用xlwt模块创建一个新的Excel文件。然后,我们定义了一个正则表达式,用于匹配所有非汉字字符。接下来,我们遍历原始Excel文件中的每个单元格,使用正则表达式去掉非汉字字符,并将处理后的结果写入新的Excel文件中。最后,我们使用new_workbook.save()方法保存新的Excel文件。
请注意,上述代码仅仅是一个简单的示例,实际情况可能会更加复杂。如果您遇到了问题,建议您查阅相关文档或者咨询相关专业人士寻求帮助。
python怎么去掉excel里的非汉字
xls处理需要特殊组件,可以考虑转换成cvs,然后就可以像文本一样解析了,处理完再转换回来就Ok了。