您的位置:首页 >Python多列数据合并导入NumPy数组方法
发布于2026-04-09 阅读(0)
扫一扫,手机访问

本文介绍使用 Pandas 高效读取含头尾行的结构化文本文件,自动按列交错模式(如 x1,y1,x2,y2,…)提取并扁平化为多个一维浮点数组,支持自定义列分组数、逗号小数点转换及 latin-1 编码。
本文介绍使用 Pandas 高效读取含头尾行的结构化文本文件,自动按列交错模式(如 x1,y1,x2,y2,…)提取并扁平化为多个一维浮点数组,支持自定义列分组数、逗号小数点转换及 latin-1 编码。
在处理类似实验数据或传感器记录的结构化文本时,常遇到“交错列布局”:每行包含多组同类型变量(如 x1 y1 x2 y2 x3 y3),且文件前后含非数据行(标题/页脚)。目标是将所有 x 值(第0、2、4…列)合并为一个升序排列的一维浮点数组,所有 y 值(第1、3、5…列)同理。手动拆解列并拼接不仅冗长,还难以扩展。
推荐采用 Pandas + NumPy 协同方案,兼顾可读性、健壮性与扩展性:
import pandas as pd
import numpy as np
# 1. 跳过头两行和最后一行,用正则匹配任意空白符分隔(兼容 tab/空格)
df = pd.read_csv(
"file.txt",
header=None,
skiprows=2, # 跳过前2行(header lines)
skipfooter=1, # 跳过末1行(footer line)
sep=r"\s+", # 强制按空白符(含tab)分割
engine="python", # 兼容 skipfooter(默认 C 引擎不支持)
encoding="latin-1" # 指定文件编码
)
# 2. 统一替换逗号为点,并转为 float(自动处理尾部空格)
df = df.replace(",", ".", regex=True).astype(float)
# 3. 定义分组数:此处 n=2 表示每组含2个变量(x 和 y)
n = 2
# 4. 按列索引模 n 分组:i=0 → 所有 x 列(0,2,4,...);i=1 → 所有 y 列(1,3,5,...)
# 使用 order="F"(Fortran order)实现列优先扁平化,确保 [x1,x2,x3,...,xN] 的自然顺序
arrays = [df.iloc[:, i::n].to_numpy().flatten(order="F") for i in range(n)]
x_values, y_values = arrays[0], arrays[1]
print("x_values:", x_values)
print("y_values:", y_values)✅ 输出结果:
x_values: [1. 2. 3. 4. 5. 6. 7. 8. 9.] y_values: [1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5]
关键说明与注意事项:
此方法彻底摆脱了硬编码列索引与多次 concatenate,以声明式逻辑清晰表达“按步长分组→列优先合并”的数据意图,是处理此类交错格式的推荐实践。
上一篇:小众圈子测试链接与工具推荐
下一篇:Excel多分隔符拆分文本技巧
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
7
9