您的位置:首页 >如何在Python中按每10个文件为一组批量处理CSV文件
发布于2026-04-10 阅读(0)
扫一扫,手机访问

本文介绍在Google Colab等环境中,对有序命名的CSV文件(如M0000.csv–M0099.csv)进行分块处理的方法:将100个文件按每10个一组归并,每组读取全部文本内容并存入独立列表,最终构建包含10个子列表的all_text结构。
本文介绍在Google Colab等环境中,对有序命名的CSV文件(如M0000.csv–M0099.csv)进行分块处理的方法:将100个文件按每10个一组归并,每组读取全部文本内容并存入独立列表,最终构建包含10个子列表的`all_text`结构。
要实现“每10个文件执行一次聚合操作”,关键在于按序分组而非简单计数——因为filenumber % 10 == 0仅能触发第10、20、30…个文件的边界动作,但无法自然构建分组容器(如all_text[0]对应前10个文件)。更健壮、可读性更强的做法是使用整除运算确定当前所属组索引,并动态初始化或追加到对应子列表中。
以下是完整、可直接运行的解决方案(适配Google Colab + Google Drive路径):
import glob
import pandas as pd
dir_path = 'drive/My Drive/Tri/'
all_text = [] # 最终结构:all_text[i] 是第i组(共10组)的文本列表
# 按文件名排序确保M0000.csv, M0001.csv, ..., M0099.csv顺序正确
file_list = sorted(glob.glob(dir_path + "M*.csv"))
# 遍历所有匹配文件,按每10个一组组织
for idx, file in enumerate(file_list):
# 计算当前文件属于第几组(0-indexed:0~9)
group_idx = idx // 10
# 确保 all_text 至少有 group_idx + 1 个空列表
if len(all_text) <= group_idx:
all_text.append([])
print(f"Processing {file} → Group {group_idx} (file #{idx + 1})")
try:
# 读取CSV文件全部行作为纯文本(忽略列解析,适配fwf格式)
df = pd.read_fwf(file, header=None, on_bad_lines='skip', delimiter="\n")
# 提取每行文本(去除NaN和空白),转为字符串列表
texts_in_file = [str(row.iloc[0]).strip() for _, row in df.iterrows() if not pd.isna(row.iloc[0])]
all_text[group_idx].extend(texts_in_file)
except Exception as e:
print(f"⚠️ Warning: Failed to process {file}: {e}")
# 验证结果
print(f"\n✅ Done! Generated {len(all_text)} groups.")
for i, group in enumerate(all_text):
print(f"Group {i}: {len(group)} text lines (files {i*10}–{i*10+9})")? 关键说明与注意事项:
该方案结构清晰、容错性强,既满足题目中all_text[0]至all_text[9]的明确索引需求,也便于后续对每组文本统一做NLP清洗、向量化或批量保存等操作。
上一篇:Excel时间简输设置技巧
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9