Подготовка данных для ML

Мы предоставляем готовый сценарий для подготовки данных к последующей глубокой аналитике или использовании в машинном обучении. Открыть порт clickhouse

Готовый сценарий jupyter notebook

Скачать сценарий можно здесь

Составные блоки представлены ниже:

[1]
%pip install --quiet jupysql clickhouse_sqlalchemy
[2]
import pandas as pd
import json

# Import jupysql Jupyter extension to create SQL cells
%load_ext sql
%config SqlMagic.autocommit=False
[3]
%sql clickhouse://[user]:[pass]@[name/ip_clickhouse]:[clickhouseport(default 8123)]/komrad_events
[4]
result = %sql SELECT * FROM events LIMIT 100
[5]
df_raw = result.DataFrame()
[6]
df = pd.concat(
    [
        df_raw,
        pd.json_normalize(
            df_raw.custom.apply(json.loads).apply(lambda x: {} if pd.isna(x) else x)
        )
    ],
    axis=1
)
[7]
df

Последнее изменение 24.03.2023