如何在Python中按每10个文件为一组批量处理CSV文件

　　发布于2026-04-10　阅读（0）

扫一扫，手机访问

本文介绍在Google Colab等环境中，对有序命名的CSV文件（如M0000.csv–M0099.csv）进行分块处理的方法：将100个文件按每10个一组归并，每组读取全部文本内容并存入独立列表，最终构建包含10个子列表的all_text结构。

本文介绍在Google Colab等环境中，对有序命名的CSV文件（如M0000.csv–M0099.csv）进行分块处理的方法：将100个文件按每10个一组归并，每组读取全部文本内容并存入独立列表，最终构建包含10个子列表的`all_text`结构。

要实现“每10个文件执行一次聚合操作”，关键在于按序分组而非简单计数——因为filenumber % 10 == 0仅能触发第10、20、30…个文件的边界动作，但无法自然构建分组容器（如all_text[0]对应前10个文件）。更健壮、可读性更强的做法是使用整除运算确定当前所属组索引，并动态初始化或追加到对应子列表中。

以下是完整、可直接运行的解决方案（适配Google Colab + Google Drive路径）：

import glob
import pandas as pd

dir_path = 'drive/My Drive/Tri/'
all_text = []  # 最终结构：all_text[i] 是第i组（共10组）的文本列表

# 按文件名排序确保M0000.csv, M0001.csv, ..., M0099.csv顺序正确
file_list = sorted(glob.glob(dir_path + "M*.csv"))

# 遍历所有匹配文件，按每10个一组组织
for idx, file in enumerate(file_list):
    # 计算当前文件属于第几组（0-indexed：0~9）
    group_idx = idx // 10

    # 确保 all_text 至少有 group_idx + 1 个空列表
    if len(all_text) <= group_idx:
        all_text.append([])

    print(f"Processing {file} → Group {group_idx} (file #{idx + 1})")

    try:
        # 读取CSV文件全部行作为纯文本（忽略列解析，适配fwf格式）
        df = pd.read_fwf(file, header=None, on_bad_lines='skip', delimiter="\n")
        # 提取每行文本（去除NaN和空白），转为字符串列表
        texts_in_file = [str(row.iloc[0]).strip() for _, row in df.iterrows() if not pd.isna(row.iloc[0])]
        all_text[group_idx].extend(texts_in_file)
    except Exception as e:
        print(f"⚠️ Warning: Failed to process {file}: {e}")

# 验证结果
print(f"\n✅ Done! Generated {len(all_text)} groups.")
for i, group in enumerate(all_text):
    print(f"Group {i}: {len(group)} text lines (files {i*10}–{i*10+9})")

? 关键说明与注意事项：

✅ idx // 10 是分组核心：0–9 → 0, 10–19 → 1, …, 90–99 → 9，天然对齐题目要求的10组结构；
✅ 动态扩容 all_text：避免预分配导致内存浪费或索引越界；
✅ 使用 pd.read_fwf(..., delimiter="\n") 确保将每行视为独立文本单元（符合原始需求中“save all text”语义）；
⚠️ 若文件实际数量不足100，请在循环前用 file_list = file_list[:100] 截断，防止最后一组不完整；
⚠️ Google Colab需先挂载Google Drive：from google.colab import drive; drive.mount('/content/drive')；
? 进阶优化：若需更高性能（尤其大文件），可用原生open()逐行读取替代pandas，避免DataFrame开销。

该方案结构清晰、容错性强，既满足题目中all_text[0]至all_text[9]的明确索引需求，也便于后续对每组文本统一做NLP清洗、向量化或批量保存等操作。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：Excel时间简输设置技巧

下一篇：1688买家采购入口及批发市场官方链接

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

TensorFlow Keras图像增强随机性解析

本文深入探讨了TensorFlowKeras中图像数据增强的工作机制，特别关注增强操作的随机性如何影响模型在训练过程中对原始图像的感知。我们将解释数据增强是动态且随机应用于每个批次，这意味着模型通常会看到原始图像的多种变体，而非固定不变的原始图像，并讨论这对于模型泛化能力的重要性。

10分钟前 0
正版软件

高效提取NumPy数组首元素子元素方法

本文介绍如何在嵌套列表或NumPy数组中，根据指定的首元素值（如3）快速筛选并提取所有匹配项的第二个元素，形成新列表，并提供纯Python与NumPy向量化两种实现方式。

25分钟前 0
正版软件

PHP递归函数实现删除功能的代码示例

首先使用递归函数或SPL迭代器遍历目录内容，逐个删除文件和子目录，最后删除空目录，并通过异常处理确保操作的可靠性。

40分钟前 PHP递归函数 0
正版软件

CSV 带引号逗号如何正确处理不乱码

本文详解pandas读取含嵌套引号与字段内逗号的非标准CSV时的关键问题，指出quoting=csv.QUOTE_NONE与引号字段共存的逻辑冲突，并提供安全解析、保序还原与输出一致性的完整解决方案。

55分钟前 0
正版软件

Go 自定义 fatal 函数保留原始调用行号的方法如下：在 Go 中，fmt 包的 Println 或 Printf 函数不会自动显示调用者的文件和行号。如果

Go标准日志的log.Fatal默认显示日志语句所在行号，而非错误发生处；通过runtime.Caller(1)可获取调用者（如main中）的文件名与行号，并结合自定义logger实现行号“透传”。

1小时前 09:00 0

如何在Python中按每10个文件为一组批量处理CSV文件

产品推荐

最新发布

相关推荐

热门关注