archives
Paper reviews and lecture notes I keep returning to.
-
February 18, 2025[강의] CS25 Transformers United V4 8강: Behind the Scenes of LLM Pre-training-StarCoder Use Case(Loubna Ben Allal)
강연 소개 강연자 Loubna Ben Allal: ML Engineer in Hugging Face Starcoder model What does it take to train a good LLM? Intro 수년 전에는 오픈소스 모델이 gp...
-
January 23, 2025[강의] CS25 Transformers United V4 6강: From Large Language Models to Large Multimodal Models(Ming Ding, Zhipu AI)
강의 출처:https://www.youtube.com/watch?v=cYfKQ6YG9Qo&t=797s 강의 소개 지난 5년간 대규모 언어 모델(LLMs)의 발전으로, 시각적 정보를 포함한 다른 감각적 모달리티를 LLM과 통합하려는 ...
-
January 22, 2025[강의] CS25 Transformers United V4 4강: Demystifying Mixtral of Experts(Albert Jiang)
강의 출처: https://youtu.be/RcJ1YXHLv5o?feature=shared MoE 개념(from GPT)주요 특징 전문가 모델들 MoE는 여러 하위 모델(전문가)로 구성됩니다. 각 모델은 특정한 문제나 데이터 패턴에 전문화되...
-
January 20, 2025[강의] CS25 Transformers United V4 3강: Aligning Open Language Models(Nathan Lambert)
강의 출처: https://web.stanford.edu/class/cs25/ CS25: Tranformers United! Disussing the latest breakthroughs with Transformers ...
-
January 20, 2025[강의] CS25 Transformers United V4 2강: Jason Wei & Hyung Won Chung of OpenAI
강의 출처: https://web.stanford.edu/class/cs25/ Intuitions on Language Models (Jason) Q. Why do LMs work so well? → manually inspect data ex)...
-
January 17, 2025[강의] CS25 Transformers United V4 1강: Overview of Transformers
출처 강의 링크 https://web.stanford.edu/class/cs25/ CS25: Tranformers United! Disussing the latest breakthroughs with Transformers in ...
-
March 16, 2025[논문 리뷰] (NIPS '22) Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
1. Introduction 모델의 규모를 단순히 키우는 것만으로는 산술적 추론(arithmetic reasoning), 상식적 추론(commonsense reasoning), 기호적 추론(symbolic reasoning)과 같은 복잡한 논리...
-
March 9, 2025[논문 리뷰] (CHI '24) Simulating Emotions With an Integrated Computational Model of Appraisal and Reinforcement Learning
논문 출처: Jiayi Eurus Zhang, Bernhard Hilpert, Joost Broekens, and Jussi P. P. Jokinen. 2024. Simulating Emotions With an Integrated Computa...
-
February 16, 2025[논문 리뷰] Attention Is All You Need(Transformer) (2017)
논문 출처: https://arxiv.org/abs/1706.03762 0. Abstract 오늘날 대부분의 시퀀스 변환 모델(sequence transduction models)은 인코더와 디코더를 포함하는 복잡한 RNN 또는 CNN 기법에 ...
-
January 30, 2025[논문 리뷰] Language Models are Unsupervised Multitask Learners (GPT-2) (2019)
논문 정보 논문 제목: 언어 모델은 비지도 멀티태스크 학습자이다 (Language Models are Unsupervised Multitask Learners) 논문 저자: Alec Radford, Jeffrey Wu, Rewon Child, ...
-
January 30, 2025[논문 리뷰] Improving Language Understandingby Generative Pre-Training (GPT-1) (2018)
논문 논문 제목: Improving Language Understandingby Generative Pre-Training (GPT-1) 논문 저자: Alec Radford, Karthik Naras...
-
January 21, 2025[논문 리뷰] (CHI '24) The Illusion of Empathy? Notes on Displays of Emotion in Human-Computer Interaction
논문 출처:https://dl.acm.org/doi/10.1145/3613904.3642336 Abstract CA(Conversational Agent)는 공감(empathy)를 이끌어내거나 투사하도록 디자인 됨 공감은 인간의 필요를 더 잘 ...
-
January 20, 2025[논문 리뷰] (CHI '24) Debate Chatbots to Facilitate Critical Thinking on YouTube: Social Identity and Conversational Style Make A Difference
YouTube에서 비판적 사고를 촉진하는 토론 챗봇: 사회적 정체성과 대화 스타일이 차이를 만듦 Abstract 다양한 관점에 노출되는 것은 온라인 비디오 플랫폼의 필터 버블을 완화 cf) 필터 버블: 사용자가 인터넷 상에서 개인화된 알고리즘...
-
December 9, 2024[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
논문 제목: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding저자: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kris...
-
November 20, 2024[논문 리뷰] Neural Machine Translation by Jointly Learning to Align and Translate(Attention)
초록 도입: 신경망 기반 기계 번역(neural machine translation, NMT)의 새로운 접근법 제안 기존 연구: 기존의 통계적 번역 모델(statistical machine translation, SMT)과 달리, 단일 신경망이...