1
将元信息保存到数据框的最佳做法是什么?我知道下面的编码实践如何处理与熊猫数据框关联的元数据?
import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'
,但在这篇文章Adding meta-information/metadata to pandas DataFrame说这与底肥功能,如“GROUPBY,支点,加入或LOC”,因为他们可能会返回“丢失信息的风险没有附加元数据的新数据框“。
这仍然有效,或者在此期间更新了元信息处理吗?什么是另一种编码习惯?
我不认为建立一个单独的对象是非常合适的。使用Multiindex也不能说服我。比方说,我想用数据框与收入来划分数据框。使用Multiindices将会非常重要。
#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)
# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
[['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]],
columns=e_index)
price.divide(earnings.values, level=1, axis=0)
在上面的例子中,我甚至没有确保公司指数真的匹配。我可能需要调用一个pd.DataFrame.reindex()或类似的。在我看来,这不是一个好的编码习惯。
在这种情况下,我没有看到处理元信息的问题是否有直接的解决方案?
预先感谢您