语言学简介#
语言学作为一门科学,研究语言的各个层面,包括声音、构词、语法和含义等。本节我们将介绍语言学的几个核心分支:语音学、形态学、句法学和语义学,并简要提及语用学。理解这些概念有助于分析任何一种语言的内部结构和规律。
语音学(Phonetics)#
语音学是研究人类语言声音的学科。它关注人类如何发出和感知语言声音,以及声音的物理特征。语音学通常分为三个子领域:
发音语音学(articulatory phonetics):研究发音器官(如舌头、嘴唇、声带)如何运动以产生声音。例如,发辅音时,声道某处会有阻碍或闭合;发元音时,声道开放,不同舌位和唇形产生不同的元音音色。
声学语音学(acoustic phonetics):研究语音的声波特征,如频率、振幅等,借助声谱图等工具分析声音波形。
听觉语音学(auditory phonetics):研究人耳和大脑如何感知和处理语音信号。
语音学的基本单位是音素(phoneme),这是在特定语言中可以区别意义的最小声音单位。例如,在汉语中**/m/和/n/是不同的音素,因为“妈”和“拿”意义不同。而语音学还涉及具体的音位实现**(音素的实际发音变体),称为音位变体或音段。
形态学(Morphology)#
形态学研究单词的内部结构及其如何由更小的有意义单位(词素,morphemes)构成[1][3][5]。这一层面的语言学分析对于许多 NLP 任务至关重要,例如分词(Tokenization)、词干提取(Stemming)和词形还原(Lemmatization)。
形态学研究词的内部结构和构成规则。一个单词往往可以拆分为更小的有意义单位,称为词素(morpheme)。词素是语言中最小的意义单位,包括词根(能独立成词的核心部分)和词缀(附加在词根上的部分,如前缀、后缀等)。
例如,英文单词“catching”可以拆分为:
catch(词根,意为“抓”)
-ing(后缀,表示进行时态)
再如,中文里“不舒服”可以看作由“舒服”这个词根加上否定前缀“不-”构成,其中“舒服”本身又可拆为“舒”和“服”两个语素。这些例子显示词是可以分解的,形态学就是要揭示这些构词规则。
形态学的两种主要构词过程#
屈折变化(inflection):改变词的形态以表达不同的语法功能,但不改变词的基本含义或词性。
例:英文名词加“-s”表示复数(dog → dogs)
例:动词加“-ed”表示过去式(play → played)
派生构词(derivation):通过添加词缀等方式派生出一个新词,可能改变词性或基本意义。
例:英文在名词 modern 后加“-ize”派生出动词 modernize(使现代化)。
语言的形态复杂性#
不同语言的形态复杂程度差异很大。有的语言(如汉语、英语)形态变化较少,更多依靠语序或独立词来表达语法关系;而有些语言(如土耳其语、拉丁语)有丰富的词形变化,一个词往往带有多种语法信息。形态学通过比较不同语言的构词法,帮助我们了解语言结构的多样性和共性。
形态分析的例子#
在英语中,前缀 un- 通常表示否定或相反:
happy(高兴)+ un- → unhappy(不高兴)
后缀 -ness 可以把形容词变成名词:
happy → happiness(幸福,快乐)
因此,unhappiness 可以分解为:
un-(否定前缀)
happi(词根,happy 的变体)
-ness(名词后缀)
合起来表示“不快乐”这一概念。
练习#
请将以下英文单词划分词素并解释含义:
redo
teacher
unlockable
讨论这些词中词缀的位置和作用(提示:“unlockable”有歧义:un-lockable vs. unlock-able)。
句法学(Syntax)#
句法学研究词语如何组合成短语和句子的规则。每种语言都有一套语法规则,决定了单词的排列顺序和句子结构。句法学关注的问题包括:
词序(如主语-动词-宾语的顺序)
句法关系(主语、宾语等功能)
层次结构(小句内部嵌套关系)
句法规则使我们能够判定一个句子在语言上是否成立(即语法正确),即使这个句子可能在意义上没有道理。
1. 词序的重要性#
例如,英语通常遵循**主语-动词-宾语(SVO)**语序:
正确: The cat (主语) chased (动词) the mouse (宾语).
错误: Chased the mouse the cat.(不符合英语句法规则)
同样,在汉语中:
正确: “我吃苹果”
错误: “我苹果吃”(除非用于特殊语境下的强调)
2. 句法的递归和嵌套#
句法学也关心递归和嵌套结构,这赋予语言无限的表达力。例如:
“我知道 [你喜欢 [他写的那本书] ]。”
句法规则允许层层嵌套,使得有限的词汇能够表达无限多样的思想。
3. 句法 vs. 语义#
一个经典的句法-语义分离例子来自乔姆斯基:
“无色的绿色思想在疯狂地沉睡。”(Colorless green ideas sleep furiously.)
这句话在句法上正确(结构符合英文句法规则),但语义上没有明显意义。这个例子说明:
句法学关注句子的结构形式。
语义学关注句子的意义。
句法和语义既相关又独立。
4. 句法结构分析#
对比句子:
“小明把小红打了。”
“小红把小明打了。”
两句调换了人名的位置,语法结构相似,但意义截然相反。
句法学研究者会用句法树(Syntax Tree)表示句子结构,显示主语、谓语、宾语等成分的层次关系。
通过画句法树可以清楚看到:
哪个名词短语充当主语
哪个是宾语
为何意义不同
练习#
请尝试为中文句子:
“学生在教室里讨论问题。”
划分层次结构(主谓宾和介词短语等)。
讨论如果改变词序或添加/删除某些功能词(例如**“了”、“把”**等),如何影响句法结构和意义。
这个练习有助于理解句法规则的作用。
语义学(Semantics)#
语义学研究语言的意义,即词、短语、句子的含义以及意义是如何产生的。
语义学探讨的问题包括:
词汇意义(单词的含义及其关系)
句子意义(句子如何表达特定的意义)
语义组合规则(句子意义如何由词的意义组合而成)
语义歧义(句子可能有不止一种解释)
语义学的研究范围从单词一直延伸到句子乃至更大的篇章。
1. 词汇语义#
研究词的意义及其相互关系,例如:
同义词(意思相近的词)
反义词(意思相反的词)
多义词(一个词有多种相关意义)
同形异义词(拼写相同但意义不同)
例如,英文单词 bank 可以指:河岸
银行
2. 组合语义#
研究短语和句子的意义如何由其组成部分的意义合成。
例子:
狗咬人 vs. 人咬狗
这两个句子虽然由相同词汇组成,但由于词序不同,意义完全不同。
语义学通过组合原则解释这种现象,即:句子的意义取决于词的意义及其组合方式。
3. 语义歧义#
有些句子可能有不止一种解释,需要通过上下文消除歧义。
例子:
“他看见了摇篮里的孩子用望远镜。”
可能的解释 1:他用望远镜看孩子。
可能的解释 2:孩子用望远镜(他看到这一幕)。
语义学会分析歧义产生的原因(如句法结构或词义多解),并研究如何消除歧义。
4. 语义 vs. 句法 vs. 语用#
语义学与句法学紧密相关但有所区别:
句法学提供结构框架(句子的排列规则)。
语义学赋予语言意义(句子的含义)。
此外,语义学和语用学也有所区别:
语义学关注字面意义。
语用学关注言外之意(在特定语境下的理解)。
例子:
英文句子 “It’s cold in here.”
语义学分析:字面意思是“房间里很冷”。
语用学分析:
对朋友说,可能是在抱怨,希望关窗。
对客人说,可能是间接建议他们穿上外套。
这体现了语义 vs. 语用的区别:
语义学描述字面的“冷”。
语用学理解背后的意图。
练习#
翻译以下句子,并解释其两种可能的意义:
“我骑着自行车看见了一只狗。”
(谁骑自行车?谁看见谁?)
讨论这句话为何会产生语义歧义。
试着修改句子以消除歧义,例如:
调整词序。
加入明确的说明词。
通过这个练习体会语义表达的准确性对理解的重要性。
文体学(Stylistics)#
文体学是应用语言学的一个分支,侧重于研究不同文本和语境中的语言风格。
简单来说,文体学探讨**“风格”——即不同个人、群体或场合使用语言的特点**。
风格可以体现在词汇选择、句法结构、语调语气等方面。
1. 语言风格的变化#
不同场合往往要求不同的语言风格:
日常聊天:通俗口语
工作面试 / 正式书信:正式规范的语言
文体学分析这些差异,并解释为什么以及如何在不同情境下语言会发生变化。
2. 文体学关注的方面#
(1) 词汇层面#
正式场合:倾向使用书面语词汇
非正式场合:多用俚语、俗语
例子:
正式文体:“儿童”
口语表达:“娃娃”
(2) 句法层面#
正式文体:句子结构完整,包含从句
口语风格:常见省略、非完整句
例子:
正式写作:“基于上述数据可以推断……”
口头表达:“所以,我觉得……”
(3) 语音语调#
书面文本:没有语音信息
口语风格:语速、重音、语调构成风格的一部分
例子:
演讲:语调庄重缓慢
日常聊天:语调轻快随意
(4) 修辞手法#
文学作品:隐喻、拟人、排比等修辞方式形成独特风格
文体学分析:研究这些修辞如何影响读者体验
3. 文体学的应用#
文体学将语言学分析方法应用到文学批评、广告解读、法律语言分析等领域。
例如:
统计词频、句长 → 定量比较不同作者的写作风格
语言分析 → 揭示广告文案中的潜在说服技巧
4. 文体风格对比#
古典文学 vs. 网络小说
古典文学:用词考究、句式复杂
“人生自古谁无死,留取丹心照汗青。”
网络小说:口语化、直白
“他竟然真的回来了!太不可思议了!”
文体学的视角可以帮助我们分析文本的词汇丰富度、句子结构、语气语态,理解不同风格如何营造不同的阅读体验。
活动#
任务:
将一段口语对话改写成正式书面通知,或者将正式公告改写成聊天语气。
小组讨论:
交换改写的文本
讨论文体的转换点(如用词、句式、礼貌程度)
体会不同风格的语言特点
这个练习可以加深对文体差异的理解。
语用学(Pragmatics)#
语用学是语言学的一个分支,研究语言在具体语境中的使用情况,关注语境如何影响语言的理解和表达。与语义学主要研究语言的字面意义不同,语用学更侧重于语言的实际使用和交际功能。
1. 语境的重要性#
语境包括:
物理环境:交流发生的时间和地点。
社会关系:交流者之间的身份和关系。
文化背景:特定文化中的习惯和规范。
这些因素都会影响语言的使用和理解。
例子:
“你能关门吗?”
字面理解:询问对方是否有能力关门。
实际意图:请求对方关门。
在不同语境下,听者需要根据情况推断说话者的真实意图。
2. 言语行为理论#
言语行为理论由哲学家约翰·奥斯汀和约翰·塞尔提出,探讨语言不仅用于传递信息,还用于执行动作。言语行为分为:
陈述行为
:提供信息或描述事实。
例:“天气很好。”
指令行为
:请求或命令他人做某事。
例:“请关门。”
承诺行为
:承诺或保证某事。
例:“我明天会来。”
表达行为
:表达情感或态度。
例:“我很抱歉。”
宣告行为
:通过语言使某种状态生效。
例:“我宣布会议开始。”
3. 会话含义与合作原则#
哲学家赫伯特·保罗·格莱斯提出了合作原则,认为对话参与者通常遵循以下准则以确保交流顺畅:
数量准则:提供足够但不过多的信息。
质量准则:提供真实的信息。
关联准则:提供相关的信息。
方式准则:表达清晰、简洁、避免模糊。
然而,人们有时会故意违反这些准则,产生会话含义,即言外之意。
例子:
A:“你去过那个新餐厅吗?”
B:“嗯,服务员很友好。”
B没有直接评价食物,但可能暗示食物不佳。
4. 指示与指代#
指示(Deixis)涉及语言中指向特定时间、地点、人物的词语,如:
人称代词:我、你、他/她/它。
时间词:现在、昨天、明天。
地点词:这里、那里。
这些词的意义依赖于具体的语境。
例子:
“我明天在那里见你。”
要理解这句话,需要知道“我”和“你”指的是谁,“明天”是哪一天,“那里”是哪里。
5. 礼貌原则与面子理论#
礼貌原则研究人们如何在交流中维护彼此的“面子”或社会尊严。布朗和莱文森提出了面子理论,将“面子”分为:
积极面子:被认同、赞赏的需求。
消极面子:不被打扰、自由行动的需求。
在交流中,人们常使用礼貌策略来照顾他人的面子需求。
例子:
直接请求:“给我盐。”
礼貌请求:“您能把盐递给我吗?”
后者更礼貌,照顾了对方的消极面子。
练习#
任务:分析以下对话中的语用现象。
对话:
甲:“你会参加今晚的聚会吗?”
乙:“我明天一早有个重要会议。”
讨论:
乙的回答是否直接?他可能的意图是什么?
这种回答体现了哪些语用原则?
通过这个练习,可以理解语用学在实际交流中的应用,以及语境如何影响语言的使用和理解。
总结#
概念 |
定义 |
在 NLP 中的相关性 |
示例 |
---|---|---|---|
语音学/音系学 |
研究语言中的语音及其模式 |
对语音识别、TTS(文本转语音)合成至关重要 |
在 ASR(自动语音识别)中区分 “cat” 中的 /k/ 和 /t/ |
形态学 |
研究词的构成及词素的组合 |
关键用于分词、词干提取、词形还原 |
将 “running” 拆分为 “run” + “-ing” |
句法学 |
研究句子的结构和规则 |
对语法解析、机器翻译、问答系统至关重要 |
将 “The cat chased the mouse” 解析为 NP-VP-NP |
语义学 |
研究单词和句子的意义 |
对情感分析、文本摘要等任务至关重要 |
解析 “bank” 是金融机构还是河岸 |
语用学 |
研究语言使用中的上下文和意图 |
重要用于对话系统、意图检测 |
将 “Can you pass the salt?” 解析为请求 |