[Code 개선] #11. [Parser] StyleAnalyzer: HTML 시멘틱 태그 우선 분석 로직 구현 #35

Open
opened 2026-03-05 11:56:38 +09:00 by Kyeongmin · 0 comments
Owner

1. 목표

현재 정규표현식 패턴에 과하게 의존하는 역할 분류 로직을 개선하여, HTML 고유의 시멘틱 태그(h1~h6)를 최우선적으로 신뢰하고 분석하도록 구조를 변경합니다.

2. 상세 원인 및 배경

  • 현재 StyleAnalyzer는 태그가 pdiv여도 내용이 "1.1"로 시작하면 H2로 분류합니다.
  • 반대로 명시적인 <h1> 태그가 있어도 번호 패턴이 없으면 본문(BODY)으로 밀려날 가능성이 있습니다.
  • 이는 구조화된 HTML 데이터를 처리할 때 LLM의 의도를 왜곡하는 결과를 초래합니다.

Original: Kyeongmin/test#41

### 1. 목표 현재 정규표현식 패턴에 과하게 의존하는 역할 분류 로직을 개선하여, HTML 고유의 시멘틱 태그(`h1`~`h6`)를 최우선적으로 신뢰하고 분석하도록 구조를 변경합니다. ### 2. 상세 원인 및 배경 - 현재 `StyleAnalyzer`는 태그가 `p`나 `div`여도 내용이 \"1.1\"로 시작하면 `H2`로 분류합니다. - 반대로 명시적인 `<h1>` 태그가 있어도 번호 패턴이 없으면 본문(`BODY`)으로 밀려날 가능성이 있습니다. - 이는 구조화된 HTML 데이터를 처리할 때 LLM의 의도를 왜곡하는 결과를 초래합니다. --- *Original: Kyeongmin/test#41*
Kyeongmin added this to the [Code 개선] 필요 시 나중에 진행 milestone 2026-03-05 12:29:59 +09:00
Sign in to join this conversation.
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: Kyeongmin/_Geulbeot#35