商城首页欢迎来到中国正版软件门户

您的位置:首页 >Python多列数据合并导入NumPy数组方法

Python多列数据合并导入NumPy数组方法

  发布于2026-04-09 阅读(0)

扫一扫,手机访问

如何在 Python 中将文件的多列数据按模式合并导入同一 NumPy 数组

本文介绍使用 Pandas 高效读取含头尾行的结构化文本文件,自动按列交错模式(如 x1,y1,x2,y2,…)提取并扁平化为多个一维浮点数组,支持自定义列分组数、逗号小数点转换及 latin-1 编码。

本文介绍使用 Pandas 高效读取含头尾行的结构化文本文件,自动按列交错模式(如 x1,y1,x2,y2,…)提取并扁平化为多个一维浮点数组,支持自定义列分组数、逗号小数点转换及 latin-1 编码。

在处理类似实验数据或传感器记录的结构化文本时,常遇到“交错列布局”:每行包含多组同类型变量(如 x1 y1 x2 y2 x3 y3),且文件前后含非数据行(标题/页脚)。目标是将所有 x 值(第0、2、4…列)合并为一个升序排列的一维浮点数组,所有 y 值(第1、3、5…列)同理。手动拆解列并拼接不仅冗长,还难以扩展。

推荐采用 Pandas + NumPy 协同方案,兼顾可读性、健壮性与扩展性:

import pandas as pd
import numpy as np

# 1. 跳过头两行和最后一行,用正则匹配任意空白符分隔(兼容 tab/空格)
df = pd.read_csv(
    "file.txt",
    header=None,
    skiprows=2,           # 跳过前2行(header lines)
    skipfooter=1,         # 跳过末1行(footer line)
    sep=r"\s+",           # 强制按空白符(含tab)分割
    engine="python",      # 兼容 skipfooter(默认 C 引擎不支持)
    encoding="latin-1"    # 指定文件编码
)

# 2. 统一替换逗号为点,并转为 float(自动处理尾部空格)
df = df.replace(",", ".", regex=True).astype(float)

# 3. 定义分组数:此处 n=2 表示每组含2个变量(x 和 y)
n = 2

# 4. 按列索引模 n 分组:i=0 → 所有 x 列(0,2,4,...);i=1 → 所有 y 列(1,3,5,...)
# 使用 order="F"(Fortran order)实现列优先扁平化,确保 [x1,x2,x3,...,xN] 的自然顺序
arrays = [df.iloc[:, i::n].to_numpy().flatten(order="F") for i in range(n)]

x_values, y_values = arrays[0], arrays[1]
print("x_values:", x_values)
print("y_values:", y_values)

输出结果

x_values: [1. 2. 3. 4. 5. 6. 7. 8. 9.]  
y_values: [1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5]

关键说明与注意事项

  • skipfooter=1 需显式指定 engine="python",否则会报错(C 引擎不支持该参数);
  • sep=r"\s+" 比 delimiter="" 更鲁棒,能同时处理 tab 和连续空格;
  • replace(..., regex=True) 一次性处理整张表,比逐列 converter 更简洁高效;
  • flatten(order="F") 是核心:它按列优先展开,使 [[x1,x2,x3],[x4,x5,x6]] 变为 [x1,x4,x2,x5,x3,x6]?不——注意!本例中 df.iloc[:, i::n] 提取的是离散列(如列0、2、4),它们在原始 DataFrame 中已是“垂直堆叠”的逻辑结构;而 order="F" 确保对每个子 DataFrame(如 x_cols = df[:, [0,2,4]])执行列主序展平,即先取第0列全部值,再取第2列全部值……最终得到 [x1,x2,x3, x4,x5,x6, x7,x8,x9] ——这正是题目要求的“所有 x 合并为单一有序数组”;
  • 若需适配其他分组数(如每组3列:x,y,z),仅需修改 n = 3,arrays 将自动产出3个数组;
  • 如需保留原始列名或进一步校验,可在 read_csv 中添加 names=["x1","y1","x2","y2",...],但本方案无需预知列数,更具通用性。

此方法彻底摆脱了硬编码列索引与多次 concatenate,以声明式逻辑清晰表达“按步长分组→列优先合并”的数据意图,是处理此类交错格式的推荐实践。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注