在生物学论文中,基因序列引用与数据库编号的标注需遵循国际权威数据库的规范,以确保数据的可追溯性和科学性,以下是具体标注规范及示例:
基因序列引用规范
-
引用数据库来源
需明确标注基因序列的来源数据库,常用数据库包括:- NCBI GenBank:全球最权威的核酸序列数据库,编号格式为
ACCESSION.VERSION
(如NM_001301717.2
)。 - Ensembl:欧洲生物信息研究所数据库,编号格式为
ENS[物种前缀][类型][唯一编号]
(如ENSG00000141510
代表人类基因)。 - miRBase:microRNA专用数据库,编号格式为
[物种前缀]-miR-[编号]
(如hsa-miR-21-5p
)。
- NCBI GenBank:全球最权威的核酸序列数据库,编号格式为
-
引用格式要求
- 首次引用:需完整标注数据库名称、编号及版本(如有),
“本研究使用的TP53基因序列来源于NCBI GenBank(编号:NM_000546.6)。”
- 后续引用:可简化为编号,但需在首次引用时说明数据库,
“TP53基因(NM_000546.6)的突变与癌症发生密切相关。”
- 首次引用:需完整标注数据库名称、编号及版本(如有),
-
序列数据引用
若直接引用序列片段,需在文中或补充材料中提供FASTA格式序列,并标注数据库编号及版本,>NM_000546.6 Homo sapiens tumor protein p53 (TP53), mRNA ATGGAGGATCCCTTGGATCTGAGCTGCT...
数据库编号标注规范
-
编号类型与含义
- NCBI RefSeq编号:
NM_
:编码RNA(mRNA),如NM_001301717.2
。NR_
:非编码RNA,如NR_046018.2
。NP_
:蛋白质序列,与NM_
对应。- 版本号(
.VERSION
)表示序列更新记录,引用时需注明最新版本。
- Ensembl编号:
ENSG
:基因(Gene),如ENSG00000141510
。ENST
:转录本(Transcript),如ENST00000269305.8
。ENSP
:蛋白质(Protein),如ENSP00000269305.8
。
- miRBase编号:
hsa-miR-21-5p
:人类miR-21的5'端成熟体。mmu-miR-1a-3p
:小鼠miR-1a的3'端成熟体。
- NCBI RefSeq编号:
-
标注位置
- 文中:在首次提及基因或序列时标注编号,
“BRCA1基因(ENSG00000012048)的突变与乳腺癌风险显著相关。”
- 图表:在基因名称或序列标识旁标注编号,
图1:TP53基因结构(NM_000546.6)及突变位点分布。
- 参考文献:若引用文献中的序列数据,需在参考文献中注明数据库编号,
[1] Smith J, et al. (2023) Cloning of TP53 gene (NM_000546.6) from human genome. Nature, 523:456-461.
- 文中:在首次提及基因或序列时标注编号,
示例与注意事项
-
完整示例
“本研究通过PCR扩增了人类TP53基因(NCBI GenBank:NM_000546.6)的第3-5外显子,序列与Ensembl数据库(ENSG00000141510)注释一致,miR-21(miRBase:hsa-miR-21-5p)的表达水平在癌症组织中显著上调。”
-
注意事项
- 版本更新:数据库编号可能随序列修正而更新,引用时需核对最新版本。
- 物种特异性:不同物种的基因编号需区分前缀(如
hsa
代表人类,mmu
代表小鼠)。 - 一致性:文中、图表及参考文献中的编号需保持一致,避免混淆。
推荐数据库与工具
-
数据库查询工具
- NCBI GenBank:https://www.ncbi.nlm.nih.gov/genbank/
- Ensembl:https://www.ensembl.org/
- miRBase:https://www.mirbase.org/
-
序列分析工具
- FASTA格式序列比对:使用BLAST(https://blast.ncbi.nlm.nih.gov/)。
- 序列注释:使用Ensembl Biomart(https://www.ensembl.org/biomart/)。