Python多列数据合并导入NumPy数组方法

　　发布于2026-04-09　阅读（0）

扫一扫，手机访问

如何在 Python 中将文件的多列数据按模式合并导入同一 NumPy 数组

本文介绍使用 Pandas 高效读取含头尾行的结构化文本文件，自动按列交错模式（如 x1,y1,x2,y2,…）提取并扁平化为多个一维浮点数组，支持自定义列分组数、逗号小数点转换及 latin-1 编码。

本文介绍使用 Pandas 高效读取含头尾行的结构化文本文件，自动按列交错模式（如 x1,y1,x2,y2,…）提取并扁平化为多个一维浮点数组，支持自定义列分组数、逗号小数点转换及 latin-1 编码。

在处理类似实验数据或传感器记录的结构化文本时，常遇到“交错列布局”：每行包含多组同类型变量（如 x1 y1 x2 y2 x3 y3），且文件前后含非数据行（标题/页脚）。目标是将所有 x 值（第0、2、4…列）合并为一个升序排列的一维浮点数组，所有 y 值（第1、3、5…列）同理。手动拆解列并拼接不仅冗长，还难以扩展。

推荐采用 Pandas + NumPy 协同方案，兼顾可读性、健壮性与扩展性：

import pandas as pd
import numpy as np

# 1. 跳过头两行和最后一行，用正则匹配任意空白符分隔（兼容 tab/空格）
df = pd.read_csv(
    "file.txt",
    header=None,
    skiprows=2,           # 跳过前2行（header lines）
    skipfooter=1,         # 跳过末1行（footer line）
    sep=r"\s+",           # 强制按空白符（含tab）分割
    engine="python",      # 兼容 skipfooter（默认 C 引擎不支持）
    encoding="latin-1"    # 指定文件编码
)

# 2. 统一替换逗号为点，并转为 float（自动处理尾部空格）
df = df.replace(",", ".", regex=True).astype(float)

# 3. 定义分组数：此处 n=2 表示每组含2个变量（x 和 y）
n = 2

# 4. 按列索引模 n 分组：i=0 → 所有 x 列（0,2,4,...）；i=1 → 所有 y 列（1,3,5,...）
# 使用 order="F"（Fortran order）实现列优先扁平化，确保 [x1,x2,x3,...,xN] 的自然顺序
arrays = [df.iloc[:, i::n].to_numpy().flatten(order="F") for i in range(n)]

x_values, y_values = arrays[0], arrays[1]
print("x_values:", x_values)
print("y_values:", y_values)

✅ 输出结果：

x_values: [1. 2. 3. 4. 5. 6. 7. 8. 9.]  
y_values: [1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5]

关键说明与注意事项：

skipfooter=1 需显式指定 engine="python"，否则会报错（C 引擎不支持该参数）；
sep=r"\s+" 比 delimiter="" 更鲁棒，能同时处理 tab 和连续空格；
replace(..., regex=True) 一次性处理整张表，比逐列 converter 更简洁高效；
flatten(order="F") 是核心：它按列优先展开，使 [[x1,x2,x3],[x4,x5,x6]] 变为 [x1,x4,x2,x5,x3,x6]？不——注意！本例中 df.iloc[:, i::n] 提取的是离散列（如列0、2、4），它们在原始 DataFrame 中已是“垂直堆叠”的逻辑结构；而 order="F" 确保对每个子 DataFrame（如 x_cols = df[:, [0,2,4]]）执行列主序展平，即先取第0列全部值，再取第2列全部值……最终得到 [x1,x2,x3, x4,x5,x6, x7,x8,x9] ——这正是题目要求的“所有 x 合并为单一有序数组”；
若需适配其他分组数（如每组3列：x,y,z），仅需修改 n = 3，arrays 将自动产出3个数组；
如需保留原始列名或进一步校验，可在 read_csv 中添加 names=["x1","y1","x2","y2",...]，但本方案无需预知列数，更具通用性。

此方法彻底摆脱了硬编码列索引与多次 concatenate，以声明式逻辑清晰表达“按步长分组→列优先合并”的数据意图，是处理此类交错格式的推荐实践。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：小众圈子测试链接与工具推荐

下一篇：Excel多分隔符拆分文本技巧

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

Go 中忽略空嵌套结构体的 JSON 序列化方法

在Go的json.Marshal中，omitempty标签无法跳过零值嵌套结构体（如ColorGroup{}），因其本身不被视为“空值”；正确做法是将嵌套字段声明为指针类型（如*ColorGroup），使未赋值时为nil，从而被omitempty正确忽略。

19分钟前 0
正版软件

Go 解析嵌套 XML 提取 CDATA 内容方法

本文详解如何用Go的encoding/xml包解析含CDATA的嵌套XML，重点解决外层XML中<detail>标签包裹的内层XML字符串（如PowerShell执行配置）的二次解析问题，并实现对每个字段（如swid、file_name、param等）的独立访问。

34分钟前 0
正版软件

WooCommerce 密码重置仅限邮箱验证

本文介绍如何在WooCommerce中强制用户只能通过邮箱（而非用户名）重置密码，通过WordPress原生钩子lostpassword_errors和WooCommerce兼容钩子lostpassword_post实现输入校验与错误提示。

49分钟前 0
正版软件

Go 语言 select 用法详解

Go的select语句在进入时仅对通道操作数（如<-ch）求值一次，而非每次循环迭代重复检查；其底层基于运行时调度器的非忙等机制，零开销轮询，性能远优于原子变量轮询或空for循环。

1小时前 09:00 0
正版软件

如何在 Go 中正确导入外部包

Go不支持使用相对路径（如../Helper）导入包，必须通过规范的导入路径引用已安装的包，且包路径需与$GOPATH/src/下的目录结构严格对应。

1小时前 08:45 0

Python多列数据合并导入NumPy数组方法

产品推荐

最新发布

相关推荐

热门关注