Перейти к основному содержимому
Версия: 4.5.X

Подготовка данных для ML

Мы предоставляем готовый сценарий для подготовки данных к последующей глубокой аналитике или использовании в машинном обучении. Открыть порт clickhouse

Готовый сценарий Jupyter Notebook

Скачать сценарий можно здесь

Составные блоки представлены ниже:

[1]

%pip install --quiet jupysql clickhouse_sqlalchemy

[2]

import pandas as pd
import json

# Import jupysql Jupyter extension to create SQL cells
%load_ext sql
%config SqlMagic.autocommit=False

[3]

%sql clickhouse://[user]:[pass]@[name/ip_clickhouse]:[clickhouseport(default 8123)]/komrad_events

[4]

result = %sql SELECT * FROM events LIMIT 100

[5]

df_raw = result.DataFrame()

[6]

df = pd.concat(
[
df_raw,
pd.json_normalize(
df_raw.custom.apply(json.loads).apply(lambda x: {} if pd.isna(x) else x)
)
],
axis=1
)

[7]

df