Pandas中怎么实现SQL查询数据操作
本篇文章给大家分享的是有关Pandas中怎么实现SQL查询数据操作,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
临淄网站制作公司哪家好,找创新互联建站!从网页设计、网站建设、微信开发、APP开发、响应式网站开发等网站项目制作,到程序开发,运营维护。创新互联建站公司2013年成立到现在10年的时间,我们拥有了丰富的建站经验和运维经验,来保证我们的工作的顺利进行。专注于网站建设就选创新互联建站。
1. 选择行
SELECT * FROM
如果要选择整个表,只需调用表的名称:
# SQL SELECT * FROM table_df # Pandas table_df
SELECT a, b FROM
如果要从表中选择特定列,请在双括号中列出要的列:
# SQL SELECT column_a, column_b FROM table_df # Pandas table_df[['column_a', 'column_b']]
SELECT DISTINCT
只需使用 .drop\u duplicates()即可获得不同的值:
# SQL SELECT DISTINCT column_a FROM table_df # Pandas table_df['column_a'].drop_duplicates()
SELECT a as b
如果要重命名列,请使用 .rename():
# SQL SELECT column_a as Apple, column_b as Banana FROM table_df # Pandas table_df[['column_a', 'column_b']].rename(columns={'column_a': 'Apple', 'column_b':'Banana'})
SELECT CASE WHEN
对于"SELECT CASE WHEN"的等效项,可以使用 np.select(), 其中首先指定每个选项的选择和值。
# SQL SELECT CASE WHEN column_a > 30 THEN "Large" WHEN column_a <= 30 THEN "Small" END AS Size FROM table_df # Pandas conditions = [table_df['column_a']>30, table_df['column_b']<=30] choices = ['Large', 'Small'] table_df['Size'] = np.select(conditions, choices)
2. 组合表格
INNER/LEFT/RIGHT JOIN
只需使用 .merge()来连接表,就可以使用“how”参数指定它是 LEFT、RIGHT、 INNER 或者 OUTER联接。
# SQL SELECT * FROM table_1 t1 LEFT JOIN table_2 t1 on t1.lkey = t2.rkey # Pandas table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left')
UNION ALL
只需使用 pd.concat():
# SQL SELECT * FROM table_1 UNION ALL SELECT * FROM table_2 # Pandas final_table = pd.concat([table_1, table_2])
3. 筛选表
SELECT WHERE
在筛选数据帧时,与在 SQL 中使用 WHERE 子句的方式相同时,只需在方括号中定义条件:
# SQL SELECT * FROM table_df WHERE column_a = 1 # Pandas table_df[table_df['column_a'] == 1]
SELECT column_a WHERE column_b
如果要从表中选择某个列并筛选其他列,请按照以下格式操作:
# SQL SELECT column_a FROM table_df WHERE column_b = 1 # Pandas table_df[table_df['column_b']==1]['column_a']
SELECT WHERE AND
如果要按多个条件进行筛选,只需将每个条件换在括号中,并使用"&"分隔每个条件。
# SQL SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 # Pandas table_df[(table_df['column_a']==1) & (table_df['column_b']==2)]
SELECT WHERE LIKE
SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感,只需在参数中添加 case=False。
# SQL SELECT * FROM table_df WHERE column_a LIKE '%ball%' # Pandas table_df[table_df['column_a'].str.contains('ball')]
SELECT WHERE column IN()
SQL 中 IN() 的等效项为 .isin()。
# SQL SELECT * FROM table_df WHERE column_a IN('Canada', 'USA') # Pandas table_df[table_df['column_a'].isin(['Canada', 'USA'])]
4.排序值
ORDER BY one column
在SQL中,ORDER BY 的等同于 .sort_values()。使用 'ascending' 参数指定是按升序还是降序对值排序,默认值与 SQL 一样升序。
# SQL SELECT * FROM table_df ORDER BY column_a DESC # Pandas table_df.sort_values('column_a', ascending=False)
ORDER BY multiple columns
如果要按多个列排序,可以列出括号中的列,并在括号中的 “ascending” 参数中指定排序方向。请确保遵循列出的列的相应顺序。
# SQL SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC # Pandas table_df.sort_values(['column_a', 'column_b'], ascending=[False, True])
5.聚合函数
COUNT DISTINCT
聚合函数有一个通用模式。
要复制 COUNT DISTINCT,只需使用 .groupby()和.nunique()。
# SQL SELECT column_a, COUNT DISTINCT(ID) FROM table_df GROUP BY column_a # Pandas table_df.groupby('column_a')['ID'].nunique()
SUM
# SQL SELECT column_a, SUM(revenue) FROM table_df GROUP BY column_a # Pandas table_df.groupby(['column_a', 'revenue']).sum()
AVG
# SQL SELECT column_a, AVG(revenue) FROM table_df GROUP BY column_a # Pandas table_df.groupby('column_a')['revenue'].mean()
以上就是Pandas中怎么实现SQL查询数据操作,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注创新互联行业资讯频道。
文章标题:Pandas中怎么实现SQL查询数据操作
链接分享:http://hbruida.cn/article/ggcihe.html