~/portfolio $

Hi, I'm Luyang Si

// data-analytics · business-intelligence · behavioral-research · nlp

I build data pipelines, translate data into actionable business insights, conduct behavioral and product research, and apply NLP to real research problems.

View projects LinkedIn GitHub Email

$9 user behavior interviews + 4-round divergence study at RtB — translating decision patterns into measurable product signals for alpha-stage fintech.

$Semiconductors data platform — 4-layer medallion pipeline with YAML rule engine (15+ checks), watermark ingestion, and yield analytics.

$Dataset recommender across 25+ sources — discovery time 2 hrs → <5 min; CFPB analysis surfaced ~450 complaint/month trend (p<0.001).

$Crossref retraction pipeline — automated drift detection across 208 DOIs; precision/recall analysis of flag classifiers; 3 conference presentations.

Luyang Si

data-analyst && researcher

Champaign, IL

Python SQL Power BI R NLP Azure SQL

Data analytics & BI: End-to-end sales pipelines, KPI dashboards, and executive reporting in Python, R, and Power BI.
Behavioral research: Decision-making under uncertainty, confidence calibration, and transcript-level semantic analysis.
Data engineering: Medallion-layered pipelines with watermarking, incremental ingestion, and schema-drift detection.
NLP & embeddings: Multilingual sentence embeddings, BERT, LLaMA fine-tuning for cross-language and healthcare applications.

ls36@illinois.edu · LinkedIn · GitHub

Skills

A snapshot. View full proficiency breakdown →

Data Analytics & BI

Python R SQL Power BI Tableau Pandas Statistical Modeling

Data Engineering

Azure SQL ETL Pipelines Watermarking Schema-drift Detection Medallion Architecture Git

NLP, ML & Research

Multilingual Embeddings BERT / spaCy LLaMA Fine-tuning Random Forest A/B Testing Precision/Recall Behavioral Research Survey Design

Featured projects

Four fast reads for recruiters. Full list is on the Projects page.

Currently: Open to data science, data engineering, and data analyst roles. Available immediately.

Research Dataset Recommendation System

Matches research questions to datasets across 25+ sources; reduces search time from ~2 hours to <5 minutes.

Data Discovery Analytics Python

Case study Repo

Canvas Platform Data Ingestion

Medallion-layered pipeline (raw/cur/meta) for Azure SQL with watermark-based incremental loads and monitoring.

Data Engineering Azure SQL Watermarking

Case study Repo

Crossref Retraction Metadata Analysis

Analyzes retraction-flag consistency and tracks indexing drift (208 DOIs) impacting research integrity.

Data Quality Metadata Research

Case study Repo

Semiconductors Data Platform

End-to-end fab operations pipeline with 4-layer medallion architecture, YAML rule engine (15+ validation checks), watermark-based incremental ingestion, and yield/equipment health analytics.

Data Engineering Python Anomaly Detection Data Quality

Case study Repo