[정보공유] Data pipeline for network training : concepts and applications

2025. 4. 16. 14:27·📰 정보 공유
728x90
Agenda
  1. Introduction to StradVision and the Automotive AI Industry (15m)
    회사 소개와 함께, 자율주행 및 자동차 산업 내 AI의 역할, 현황 소개
  2. Understanding Data Flow for AI Training (10m)
    데이터가 어떻게 수집되고, 가공되며, 모델 학습에 사용되는지 데이터 흐름을 중심으로 이해
  3. Key Data Challenges in Autonomous Driving AI Development (From a Data-Centric Perspective) (10m)
    자율주행 학습 데이터 관점에서의 주요 과제와 이슈
  4. SV Data Flow: Data Pipeline Concepts & Real-world Applications (25m)
    StradVision의 데이터 파이프라인의 구성요소와 실제 적용 사례를 공유
  5. Wrap-up and Key Takeaways (5m)
    주요 내용 요약 및 StradVision의 채용/인턴 기회 소개
  6. Q&A and Open Feedback (10m)

 

Introduction to SV and the Automotive AI Industry

 

1) SVNet : StradVision Vision-based 인지 솔루션

 

2) 자율주행 소프트웨어 (SVNet)

: SVNet은 딥러닝 기반 카메라 인지 소프트웨어로, 다양한 객체/환경/상황을 실시간으로 인식하며, 안전한 자율 주행을 지원한다.

 

3) SV Products

(1) L2/L2+ 자율주행 보조 시스템 : FrontVision

(2) 자동 주차 및 경로 제어 : SurroundVision

(3) L3/L4+ E2E 상황 인지, 경로 제어 : MultiVision

 

4) R&D 현황 인력, 특허, 연구 개발비

: 총 인력대비 70% 이상의 인구 인력 보유 및 연구개발비 투자 규모 지속 확대

 

5) KEY MARKET & TECH TREND

(1) PHYSICAL AI

(2) MODERN AI TECHNOLOGIES IN AD SOLUTIONS

 

 

 


도식화

 

🔁 AI 학습을 위한 데이터 흐름 구조 (with Training Dataset)

StradVision의 3단계 레이어 + Training Dataset 연결 중심 구조

 

🟦 1. Expansion Layer (확장 계층)

외부 공개 데이터를 자동 라벨링해 학습에 활용

단계 설명
① Public Data KITTI, nuScenes 등 공개 자율주행 데이터셋 활용
② Auto-Labeling AI 기반 자동 라벨링
👉 Training Dataset 자동 라벨링 결과를 학습용 데이터셋에 저장
③ On-premise GPU Server 로컬 서버에서 분산 처리 학습
④ Evaluation & Validation 20,000시간 규모의 정량적 평가 진행

 

🟪 2. Standard Layer (표준 계층)

실차에서 수집된 실제 데이터를 정제해 모델 학습에 활용

단계 설명
① Data Collection 차량 센서를 통한 실제 주행 데이터 수집
② Labeling 수동 또는 반자동 라벨링
👉 Training Dataset 라벨링된 데이터셋 저장 및 통합
③ Network Training 딥러닝 네트워크 학습 수행
④ Field Test 실차 기반의 테스트 및 개선 피드백 수집

 

🟫 3. Advanced Layer (고급 계층)

합성 데이터와 예측 보완 라벨을 활용해 정교한 모델을 만듬

 

단계 설명
① Synthetic Data 합성, 증강, 가상 환경에서 생성된 데이터
② Pseudo GT-Labeling 예측 기반 GT 라벨 보완
👉 Training Dataset 보완된 GT 데이터셋에 저장
③ Cloud Infrastructure 클라우드 기반 분산 학습 환경
④ Simulator / SIL·HIL 제어 시뮬레이터를 통한 실험 (Software/Hardware in the Loop)

 

✅ Training Dataset (중앙 저장소 역할)

  • 각 레이어에서 가공 완료된 데이터는 중앙의 Training Dataset에 저장됨
  • 이후 모델 학습과 테스트 단계에서 이 데이터를 기반으로 학습 및 평가 진행

 

 

 


Key Challenges and Evolving Trends in AI for Automotive

 

1) 데이터가 곧 AI 품질의 중심이라는 Data-centric 철학, 양보다 질, 그리고 기술과 자동화가 결합된 데이터 전략

 

 

(1) Productivity
: 데이터 생산의 확장성(Scale In/Out), 전송 속도, 중앙 집중화된 데이터 처리 파이프라인 등 전체 데이터 흐름의 효율을 높이는 전략

  • Data Ingestion : Data Verification, Interface Standardization, and Centralized the Data
  • Data Ingestion & Centralization : Data management & ODD Based DB Schema
    • 팁 : ChatGPT에게 데이터 centralization을 부탁해보자.
  • Labelit : All-in-One Web-Based Labeling Tool for 3D Perception Data
  • Lidar Deskewing : Motion compensation of Lidar cloud points and reconstruction
    • Orginal PCD before deskewing
    • Deskewed PCD
  • ALAS : Auto Labeling Assistance Service
    • ALAS Features

(2) Data Efficiency
: 불필요한 데이터 낭비를 줄이고, 최소한의 데이터로 최대 성능을 달성하는 전략. 비용 효율성과 학습 효율성을 동시에 고려한 접근

  • WLS : Workload Logging Service
  • WRS : Workload Replay Service

(3) Core Tech
: ALT, Pseudo GT, 센서 캘리브레이션 등 데이터 효율성과 품질 향상을 위한 자동화 기반 핵심 기술 개발

 

(4) Data Quality
: 데이터 품질의 지속적인 관리와 정책 기반 운영. 데이터의 품질이 모델 성능에 미치는 영향을 실증 수치 기반으로 분석하고 반영

  • SVFlow : MLOps Framework for Data Quality Enhancement

 

2) 도식화

 

 

SV Data Flow

 

 

 

 


Wrap-up and Key Takeaways

 

트렌드가 바뀌었다.

  • 신입사원들을 뽑기가 어려워졌다.
    • 도메인 지식이 없어도, 본인의 인사이트를 가지고, 본인의 생각을 얼마나 빠르게 전개할 수 있는가.
    • domainalized가 너무나도 중요한 것 같다.
    • 따라서 내가 원하는 분야를 선택하고, 색을 입히고, 데이터를 붙잡았으면 좋겠다.
      • 데이터는 비용, 시간, 노력으로 보여지기 때문이다.
    •  

 

728x90

'📰 정보 공유' 카테고리의 다른 글

[정보 공유] 신입 백엔드 개발자 업무역량에 대한 최소 기준과 대비책  (0) 2025.07.08
[정보공유] 오픈소스 기여와 커리어 성장  (1) 2025.04.30
개발자 취업에 미친 사람들 모임 - 개발자 취업 뽀개기 오프라인 모임 1, 2회차  (0) 2025.02.16
중고신입 프론트엔드 개발자의 퇴사와 이직 스토리  (1) 2025.02.16
프론트엔드 리드가 알려주는 개발자 채용과 면접 진행 방법  (0) 2025.02.16
'📰 정보 공유' 카테고리의 다른 글
  • [정보 공유] 신입 백엔드 개발자 업무역량에 대한 최소 기준과 대비책
  • [정보공유] 오픈소스 기여와 커리어 성장
  • 개발자 취업에 미친 사람들 모임 - 개발자 취업 뽀개기 오프라인 모임 1, 2회차
  • 중고신입 프론트엔드 개발자의 퇴사와 이직 스토리
pangil_kim
pangil_kim
기록을 통해 지속적인 성장을 추구합니다.
멈추지 않는 기록기록을 통해 지속적인 성장을 추구합니다.
    250x250
  • pangil_kim
    멈추지 않는 기록
    pangil_kim
  • 전체
    오늘
    어제
  • 📝 글쓰기
      ⚙️ 관리

    • 분류 전체보기 (309) N
      • 💻 개발 (124) N
        • ※ 참고 지식 (6)
        • 📀 MySQL (24)
        • 🌸 Spring Boot (5)
        • 🟩 Node.js (7)
        • 🦕 React (6)
        • 🎩 Next.js (25)
        • 📘 TypeScript (4)
        • 🌈 CSS (4)
        • 🌀 Dart (2)
        • 🧑🏻‍💻 코테 (25)
        • 🕸️ 알고리즘 (4)
        • 🩵 Flutter (9)
        • 📒 JavaScript (3) N
      • 📽️ 프로젝트 (5)
        • 캡스톤디자인2 (5)
      • ✍🏻 회고 (10)
        • 우테코 (2)
      • 📰 정보 공유 (12)
      • 🏫 한동대학교 (151)
        • Database (15)
        • Software Engineering (18)
        • EAP (22)
        • 일반화학 (26)
        • 25-1 수업 정리 (19)
        • Computer Networking (36)
        • OPIc (2)
        • 클라우드 컴퓨팅 (4)
        • 미술의 이해 (9)
  • 최근 글

  • 인기 글

  • 태그

    프론트엔드
    Database
    FE
    어노인팅
    한동대학교
    컴네
    전산전자공학부
    웹개발
    설교
    QT
    typeScript
    csee
    일반화학
    화학
    CCM
    주일
    글로벌리더십학부
    찬양
    묵상
    데이터베이스
    computer networks and the internet
    날솟샘
    CHEMISTRY
    날마다 솟는 샘물
    고윤민교수님
    GLS
    예배
    SQL
    네트워킹
    유태준교수님
  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.4
pangil_kim
[정보공유] Data pipeline for network training : concepts and applications

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.